배치 평가를 위한 평가 플로우
배치 평가를 사용하면 평가 관리자가 저장된 쿼리를 기반으로 완료된 가상 에이전트 대화를 한 번에 최대 100개까지 평가할 수 있습니다.
플로우 이름: 배치 평가 실행.
플로우는 평가 기록을 생성하고 적합한 각 대화에 대한 기술을 호출하여 Now Assist 단일 대화 평가 논리를 반영하지만 규모에 맞게 수행합니다. HR 범위 제외, 주제/범주 확인, 증명서 구성 규칙, 초기 라이브 에이전트 제외 및 기술을 통한 비동기 점수 산정을 시행합니다.
배치 평가는 다음 논리를 사용하여 수행됩니다.
트리거
- 표: 평가 세트 [sn_na_conv_eval_evaluation_set]
- 조건: 상태가 진행 중으로 변경되고 평가 유형 = 대화
입력
- 평가 세트 기록:
- 쿼리 필터: 평가할 대화를 대상으로 하는 쿼리입니다(예: sys_cs_conversation 필터).
- 평가 유형: 대화
- 상태: 진행 중(시작)
- LLM/기술: 채팅 주제 분류 규칙 및 그 뒤에 나열된 평가 기술입니다.
상위 수준 동작
- 쿼리 필터를 읽고 최대 100개의 대화를 임의로 샘플링합니다.
- 이미 평가된 대화를 건너뜁니다.
- HR 범위 상호작용은 제외됩니다.
- 채팅 주제 분류 규칙을 사용하여 평가 자격을 확인하고 주제 및 범주를 추출합니다.
- 문서 및 카탈로그 소스의 지식 통제된 포함으로 대본을 작성하고 초기 라이브 에이전트 제외를 적용합니다.
- 평가 기록을 생성하고 선택한 모든 평가 기술을 비동기식으로 호출하여 메트릭에 점수 및 근거를 작성합니다.
실행 순서:
작업 1: 쿼리 필터가 비어 있지 않은 경우
- 목적: 가드 조항.
- 논리: 평가 세트 기록을 조회하고 쿼리 필터 필드를 확인합니다.
- 쿼리 필터가 있는 경우: 작업 2로 진행합니다.
- 비어 있는 경우: 중지하고 선택적으로 로깅합니다 . 제공된 쿼리가 없습니다.
작업 2: 대화 임의로 설정
- 목적: 제공된 쿼리에서 대화의 제한된 임의 샘플을 선택합니다.
- 논리학:
- 쿼리를 실행하여 일치하는 대화 기록을 가져옵니다.
- 최대 100개의 대화를 임의로 선택합니다.
- >100이 일치하면 최대 100입니다.
- <100인 경우 모두를 선택합니다.
- 쿼리를 확인합니다. 유효하지 않은 경우 false 및 빈 배열 또는 부분 배열을 반환합니다.
- 출력:
- 성공: 예/아니오
- conversation_ids: sys_ids 배열(최대 100)
- 성공 = true인 경우: 작업 3으로 진행합니다. 그렇지 않으면 검사를 중지하고 유효성 검사 오류를 기록합니다.
작업 3: 평가 테이블을 조회하여 이전 평가 확인
- 목적: 중복 평가를 피하십시오.
- 논리: 각 대화 sys_id 대해 이미 평가되었거나 진행 중임을 나타내는 기존 기록에 대한 sn_na_conv_eval_evaluation 확인합니다(구현 선택: 상태가 취소됨/실패가 아님).
- 이전에 평가되지 않은 경우: 해당 대화에 대한 작업 4로 진행합니다.
- 이미 평가된 경우: 이 대화를 건너뛰고 선택적으로 이미 평가됨을 기록합니다.
작업 4: 상호작용 기록 조회
- 목적: HR 범위 제외를 적용합니다.
- 논리: 대화와 관련된 상호작용을 해결합니다. 애플리케이션 범위에 HR이 포함되어 있으면 대화를 건너뜁니다.
- 범위에 HR이 포함되지 않은 경우: 작업 5로 진행합니다.
작업 5: 채팅 분류 규칙 평가
- 목적: 대화를 평가해야 하는지 여부를 확인하고 상위 수준의 레이블을 추출합니다.
- 논리학:
- 분류 입력을 위해 sys_cs_message에서 간단한 기록을 작성합니다.
- 기록으로 채팅 주제 분류 규칙 기술을 호출합니다.
- 받다:
- 평가 실행: 예/아니오
- 주제 이름
- 범주: IT 또는 HR
- 평가 실행 = true인 경우: 작업 6으로 진행합니다.
- 아니오인 경우: 대화를 건너뛰고 분류 규칙 결정을 기록합니다.
작업 6: buildTranscript
- 목적: 최종 분 단위 성적표를 구성하고 다운스트림 기술 세트 및 가드레일을 결정합니다.
- 단계:
- 모든 대화 메시지를 집계합니다.
- 사용자 메시지를 [User] 로, Virtual Agent 메시지를 [Virtual Agent]:로 태그를 지정합니다.
- 지식 기사:
- Genius 결과가 문서를 참조하는 지식 경우 문서를 쿼리 지식 하고 Genius 스니펫을 전체 문서 본문으로 바꿉니다.
- [가상 에이전트]: 사용자 쿼리에 대한 도움말 문서로 주석 달기: Article_Start 및 Article_End 내에서 컨텐츠를 줄 바꿈합니다.
- 제약 조건:
- KB가 HR 범위이거나 액세스할 수 없는 경우 평가하지 마십시오(대화 건너뛰기).
- 문서 본문을 최대 10,000단어로 자릅니다.
- KB 컨텐츠 소스가 첨부 파일(PDF/Word/Txt)인 경우 전체 파일 컨텐츠 대신 Genius 결과로 대체합니다.
- 카탈로그 항목:
- Genius 결과가 카탈로그 항목을 참조하는 경우 카탈로그 이름, 간단한 설명, 설명 문자열을 sc_cat_item 작성하고 쿼리합니다.
- [가상 에이전트]로 주석 달기: 아래 옵션 중 하나를 선택하십시오. 인용 순서를 포함합니다.
- 라이브 에이전트 제외:
- 첫 번째 사용자 메시지가 라이브 에이전트를 요청하는 경우에는 평가를 건너뜁니다.
- 라이브 에이전트가 처음 120단어 내에서 호출되면 평가를 건너뜁니다.
- 출력:
- ExecuteEvaluation: true/false(가드레일 이후 결과)
- 채팅 기록
- 지식 참조된 문서
- 참조된 카탈로그 항목
- 첫 번째 라이브 에이전트 발생: 대화 메시지의 Sys_id(있는 경우)
- 호출할 기술:
- 일관성 채팅 평가
- 간결성 채팅 평가
- 컨텍스트 보존
- 부적절한 슬롯 채우기 채팅 평가
- 의도 정확도 채팅 평가
- 원활하게 흐르는 대화 채팅 평가
- 진실성 환각 채팅 평가
- 추가 로그
- ExecuteEvaluation = true인 경우: 작업 7로 진행합니다. 그렇지 않으면 대화를 건너뜁니다.
작업 7: If 차단
- 목적: 레코드 생성에 대한 분기.
- 논리: 작업 6의 ExecuteEvaluation이 true이면 작업 8로 이동합니다.
작업 8: 평가 기록 생성 또는 업데이트
- 목적: 이 대화에 대한 평가 항목을 유지합니다.
- 테이블: sn_na_conv_eval_evaluation
- 필드 채우기:
- 문서 대화: 대화 참조
- 상태: 처리 중
- 주제: 작업 5에서
- 카테고리: 액션 5에서
- 참조된 KB: 작업 6에서
- 참조된 카탈로그: 작업 6에서
- 첫 번째 라이브 에이전트 발생: 작업 6에서
- 유형: 채팅 요약
- 사용자: 대화의 시작 사용자
- 메시지 로그: 작업 6의 추가 로그
- 성공 시: 작업 9로 진행합니다.
작업 9: For 루프 오버 기술
- 목적: 선택한 각 평가 기술을 실행합니다.
- 작업 6의 목록에 있는 각 기술에 대해:
- 작업 10: invokeApiDefinition
- 입력: 기술 이름, 대화, 증명서, 평가 ID
- 동작:
- 기술을 비동기적으로 호출합니다 Now Assist .
- 후처리기는 결과를 sys_generative_ai_response_validator에 씁니다.
- JSON 응답 필드 추출:
- 포인트
- 점수 이유
- 추론을 뒷받침하는 예
- 상위 평가에 연결된 sn_na_conv_eval_evaluation_metrics에서 하위 메트릭 기록을 생성합니다.
- 작업 11: 대기
다음 기술로 진행하기 7초 전에 일시 중지하여 속도 제한 또는 제한을 관리합니다.
- 작업 10: invokeApiDefinition