평가 대시보드와 함께 설치되는 구성요소

  • 릴리스 버전: Zurich
  • 업데이트 날짜 2025년 08월 13일
  • 소요 시간: 4분
  • 평가 탭에는 예약된 작업, 테이블, 시스템 속성, 플로우 등 여러 유형의 구성요소가 포함됩니다.

    설치되는 예약된 작업

    예약된 작업 설명

    CE 값 집계 채우기 채팅 - 매일

    이 예약된 스크립트는 매일 실행되며 어제 대화에서 1,000개의 대화를 임의로 선택합니다. 그 후 각 대화에 대해 이 작업은 채팅 기간을 추출하여 소형, 중형 또는 대형으로 분류합니다. 또한 문서 또는 카탈로그 항목이 호출된 지식 채팅을 분류합니다. 또한 평가된 채팅의 경우 채팅 성과에 따라 대화를 분류하고 해당 데이터를 평가 값 집계 테이블에 채웁니다.

    설치되는 테이블

    레이블 이름
    평가

    [sn_na_conv_eval_evaluation]

    평가 구성

    [sn_na_conv_eval_evaluation_configurations]

    평가 메트릭

    [sn_na_conv_eval_evaluation_metrics]

    평가 세트

    [sn_na_conv_eval_evaluation_set]

    평가 값 집계

    [sn_na_conv_eval_evaluation_value_aggregates]

    설치되는 원격 테이블

    테이블 설명

    대화 평가자 값 계산

    [sn_na_conv_eval_st_value_calcs]

    지정된 쿼리에 대해 이 원격 테이블의 정의는 소규모, 중규모 및 대규모 채팅에 대한 시간 절약 및 효율성 백분율을 계산합니다. 또한 문서 또는 카탈로그 항목이 호출되었을 때 지식 시간 절약 및 효율성을 반환합니다.

    대화 주간 계산

    [sn_na_conv_eval_weekly_cals]

    지정된 쿼리의 경우 이 원격 테이블의 정의는 선택한 날짜 범위의 여러 주에 이루어진 소규모, 중규모 및 대규모 채팅에 대한 시간 절약 및 효율성 백분율을 계산합니다. 또한 선택한 날짜 범위의 다른 모든 주에 대해 문서 또는 카탈로그 항목이 호출된 경우지식 시간 절약 및 효율성을 반환합니다.

    설치되는 시스템 속성

    속성 설명

    sn_na_conv_eval.errorBandMinRecords

    상한 및 하한 편차에 대한 오차 대역을 계산하는 데 필요한 최소 기록 수입니다. 기본적으로 이 값은 30입니다.

    sn_na_conv_eval.evalWeights

    채팅 평가를 위한 각 평가 메트릭에 대한 가중치를 포함합니다. 이 속성은 평가 기록의 합산 또는 종합 점수를 계산하는 데 사용됩니다.

    sn_na_conv_eval.maxEvaluateCount

    하루 동안 평가할 최대 기록 수입니다. 기본적으로 이 값은 200입니다.

    sn_na_conv_eval.total_sampled_conv_count

    값 계산을 위해 샘플링할 수 있는 총 대화 수를 제어하려면 이 속성을 편집합니다. 기본적으로, 값은 1000입니다.

    sn_na_conv_eval.value_chat_classifier

    이 속성을 편집하여 소규모, 중규모 및 대규모 대화의 정의를 변경합니다. 기본적으로 저장되는 값은 4, 10입니다.

    여기서 4와 10은 총 인바운드 메시지 수를 나타냅니다. 대화의 sys_cs_message 테이블에 있는 인바운드 메시지가 4개 이하이면 소규모 대화임을 의미합니다. 인바운드 메시지가 4개 이상이고 인바운드 메시지가 10개 이하이면 중간 규모의 대화이고 10개 이상의 인바운드 메시지는 대규모 대화임을 의미합니다.

    설치되는 비즈니스 규칙

    이름 시기 삽입 업데이트 필터 조건
    평가 세트에 대한 정보 메시지 추가 다음 날짜 후 stateCHANGESTOIn Progress^evaluation_type=대화^EQ
    레이블 지정 메트릭 확장 다음 날짜 전 metric_type=레이블 지정^metric_nameINhelpfulness_chat_eval,intent_recognition_chat_eval,slot_filling_chat_eval,forgetfulness_chat_eval,hallucination_chat_eval,redundancy_chat_eval,deadlock_chat_eval,coherence_chat_eval^raw_scoreVALCHANGES^EQ
    updateLabelingScoresOnEvaluation 다음 날짜 후 metric_type=레이블 지정^raw_scoreVALCHANGES^metric_nameINhelpfulness_chat_eval,intent_recognition_chat_eval,slot_filling_chat_eval,forgetfulness_chat_eval,hallucination_chat_eval,redundancy_chat_eval,deadlock_chat_eval,coherence_chat_eval^EQ
    편차 점수 업데이트 다음 날짜 전 metric_type=LLM 생성됨^scoreVALCHANGES^EQ
    getAutoEvalCompositeScore 다음 날짜 후 아니오 stateCHANGESTOComplete^total_scoreISEMPTY^EQ

    설치되는 플로우

    플로우 설명

    평가 실행

    대화가 완료되면 평가를 수행합니다.

    배치 평가 실행 완료된 가상 에이전트 대화를 최대 100개까지 평가하는 배치 평가를 수행합니다. 플로우는 평가 세트가 생성되거나 업데이트되고 평가 유형이 대화일 때 트리거됩니다.

    설치된 플로우 작업

    플로우 작업 설명

    대화 임의화

    대화의 임의화를 수행하고 지정된 쿼리에서 임의로 100개의 대화를 반환합니다.

    invokeApiDefinition LLM(대규모 언어 모델)에서 OneExtend 역량을 호출합니다.
    채팅 분류 규칙 평가 제목, 범주 및 평가 실행 여부를 제공합니다.
    빌드 트랜스크립트 대화에서 대본을 작성합니다.
    evalExecuteCondition 성적표가 평가하기에 충분한지 확인합니다.

    스크립트 포함 설치됨

    스크립트 포함 설명
    evalExecuteCondition

    이 스크립트 포함을 사용하여 평가 조건을 업데이트합니다.

    evalUtils 평가자의 기본 유틸리티 기능입니다.