평가 대시보드와 함께 설치되는 구성요소
평가 탭에는 예약된 작업, 테이블, 시스템 속성, 플로우 등 여러 유형의 구성요소가 포함됩니다.
설치되는 예약된 작업
| 예약된 작업 | 설명 |
|---|---|
|
CE 값 집계 채우기 채팅 - 매일 |
이 예약된 스크립트는 매일 실행되며 어제 대화에서 1,000개의 대화를 임의로 선택합니다. 그 후 각 대화에 대해 이 작업은 채팅 기간을 추출하여 소형, 중형 또는 대형으로 분류합니다. 또한 문서 또는 카탈로그 항목이 호출된 지식 채팅을 분류합니다. 또한 평가된 채팅의 경우 채팅 성과에 따라 대화를 분류하고 해당 데이터를 평가 값 집계 테이블에 채웁니다. |
설치되는 테이블
| 레이블 | 이름 |
|---|---|
| 평가 |
[sn_na_conv_eval_evaluation] |
| 평가 구성 |
[sn_na_conv_eval_evaluation_configurations] |
| 평가 메트릭 |
[sn_na_conv_eval_evaluation_metrics] |
| 평가 세트 |
[sn_na_conv_eval_evaluation_set] |
|
평가 값 집계 |
[sn_na_conv_eval_evaluation_value_aggregates] |
설치되는 원격 테이블
| 테이블 | 설명 |
|---|---|
|
대화 평가자 값 계산 [sn_na_conv_eval_st_value_calcs] |
지정된 쿼리에 대해 이 원격 테이블의 정의는 소규모, 중규모 및 대규모 채팅에 대한 시간 절약 및 효율성 백분율을 계산합니다. 또한 문서 또는 카탈로그 항목이 호출되었을 때 지식 시간 절약 및 효율성을 반환합니다. |
| 대화 주간 계산 [sn_na_conv_eval_weekly_cals] |
지정된 쿼리의 경우 이 원격 테이블의 정의는 선택한 날짜 범위의 여러 주에 이루어진 소규모, 중규모 및 대규모 채팅에 대한 시간 절약 및 효율성 백분율을 계산합니다. 또한 선택한 날짜 범위의 다른 모든 주에 대해 문서 또는 카탈로그 항목이 호출된 경우지식 시간 절약 및 효율성을 반환합니다. |
설치되는 시스템 속성
| 속성 | 설명 |
|---|---|
|
sn_na_conv_eval.errorBandMinRecords |
상한 및 하한 편차에 대한 오차 대역을 계산하는 데 필요한 최소 기록 수입니다. 기본적으로 이 값은 30입니다. |
|
sn_na_conv_eval.evalWeights |
채팅 평가를 위한 각 평가 메트릭에 대한 가중치를 포함합니다. 이 속성은 평가 기록의 합산 또는 종합 점수를 계산하는 데 사용됩니다. |
|
sn_na_conv_eval.maxEvaluateCount |
하루 동안 평가할 최대 기록 수입니다. 기본적으로 이 값은 200입니다. |
|
sn_na_conv_eval.total_sampled_conv_count |
값 계산을 위해 샘플링할 수 있는 총 대화 수를 제어하려면 이 속성을 편집합니다. 기본적으로, 값은 1000입니다. |
| sn_na_conv_eval.value_chat_classifier |
이 속성을 편집하여 소규모, 중규모 및 대규모 대화의 정의를 변경합니다. 기본적으로 저장되는 값은 4, 10입니다. 여기서 4와 10은 총 인바운드 메시지 수를 나타냅니다. 대화의 sys_cs_message 테이블에 있는 인바운드 메시지가 4개 이하이면 소규모 대화임을 의미합니다. 인바운드 메시지가 4개 이상이고 인바운드 메시지가 10개 이하이면 중간 규모의 대화이고 10개 이상의 인바운드 메시지는 대규모 대화임을 의미합니다. |
설치되는 비즈니스 규칙
| 이름 | 시기 | 삽입 | 업데이트 | 필터 조건 |
|---|---|---|---|---|
| 평가 세트에 대한 정보 메시지 추가 | 다음 날짜 후 | 예 | 예 | stateCHANGESTOIn Progress^evaluation_type=대화^EQ |
| 레이블 지정 메트릭 확장 | 다음 날짜 전 | 예 | 예 | metric_type=레이블 지정^metric_nameINhelpfulness_chat_eval,intent_recognition_chat_eval,slot_filling_chat_eval,forgetfulness_chat_eval,hallucination_chat_eval,redundancy_chat_eval,deadlock_chat_eval,coherence_chat_eval^raw_scoreVALCHANGES^EQ |
| updateLabelingScoresOnEvaluation | 다음 날짜 후 | 예 | 예 | metric_type=레이블 지정^raw_scoreVALCHANGES^metric_nameINhelpfulness_chat_eval,intent_recognition_chat_eval,slot_filling_chat_eval,forgetfulness_chat_eval,hallucination_chat_eval,redundancy_chat_eval,deadlock_chat_eval,coherence_chat_eval^EQ |
| 편차 점수 업데이트 | 다음 날짜 전 | 예 | 예 | metric_type=LLM 생성됨^scoreVALCHANGES^EQ |
| getAutoEvalCompositeScore | 다음 날짜 후 | 아니오 | 예 | stateCHANGESTOComplete^total_scoreISEMPTY^EQ |
설치되는 플로우
| 플로우 | 설명 |
|---|---|
|
평가 실행 |
대화가 완료되면 평가를 수행합니다. |
| 배치 평가 실행 | 완료된 가상 에이전트 대화를 최대 100개까지 평가하는 배치 평가를 수행합니다. 플로우는 평가 세트가 생성되거나 업데이트되고 평가 유형이 대화일 때 트리거됩니다. |
설치된 플로우 작업
| 플로우 작업 | 설명 |
|---|---|
|
대화 임의화 |
대화의 임의화를 수행하고 지정된 쿼리에서 임의로 100개의 대화를 반환합니다. |
| invokeApiDefinition | LLM(대규모 언어 모델)에서 OneExtend 역량을 호출합니다. |
| 채팅 분류 규칙 평가 | 제목, 범주 및 평가 실행 여부를 제공합니다. |
| 빌드 트랜스크립트 | 대화에서 대본을 작성합니다. |
| evalExecuteCondition | 성적표가 평가하기에 충분한지 확인합니다. |
스크립트 포함 설치됨
| 스크립트 포함 | 설명 |
|---|---|
| evalExecuteCondition |
이 스크립트 포함을 사용하여 평가 조건을 업데이트합니다. |
| evalUtils | 평가자의 기본 유틸리티 기능입니다. |