배치 평가를 위한 평가 플로우

  • 릴리스 버전: Zurich
  • 업데이트 날짜 2025년 09월 03일
  • 소요 시간: 5분
  • 배치 평가를 사용하면 평가 관리자가 저장된 쿼리를 기반으로 완료된 가상 에이전트 대화를 한 번에 최대 100개까지 평가할 수 있습니다.

    플로우 이름: 배치 평가 실행.

    플로우는 평가 기록을 생성하고 적합한 각 대화에 대한 기술을 호출하여 Now Assist 단일 대화 평가 논리를 반영하지만 규모에 맞게 수행합니다. HR 범위 제외, 주제/범주 확인, 증명서 구성 규칙, 초기 라이브 에이전트 제외 및 기술을 통한 비동기 점수 산정을 시행합니다.

    배치 평가는 다음 논리를 사용하여 수행됩니다.

    트리거
    • 표: 평가 세트 [sn_na_conv_eval_evaluation_set]
    • 조건: 상태가 진행 중으로 변경되고 평가 유형 = 대화
    입력
    • 평가 세트 기록:
      • 쿼리 필터: 평가할 대화를 대상으로 하는 쿼리입니다(예: sys_cs_conversation 필터).
      • 평가 유형: 대화
      • 상태: 진행 중(시작)
    • LLM/기술: 채팅 주제 분류 규칙 및 그 뒤에 나열된 평가 기술입니다.
    상위 수준 동작
    • 쿼리 필터를 읽고 최대 100개의 대화를 임의로 샘플링합니다.
    • 이미 평가된 대화를 건너뜁니다.
    • HR 범위 상호작용은 제외됩니다.
    • 채팅 주제 분류 규칙을 사용하여 평가 자격을 확인하고 주제 및 범주를 추출합니다.
    • 문서 및 카탈로그 소스의 지식 통제된 포함으로 대본을 작성하고 초기 라이브 에이전트 제외를 적용합니다.
    • 평가 기록을 생성하고 선택한 모든 평가 기술을 비동기식으로 호출하여 메트릭에 점수 및 근거를 작성합니다.

    실행 순서:

    작업 1: 쿼리 필터가 비어 있지 않은 경우
    • 목적: 가드 조항.
    • 논리: 평가 세트 기록을 조회하고 쿼리 필터 필드를 확인합니다.
    • 쿼리 필터가 있는 경우: 작업 2로 진행합니다.
    • 비어 있는 경우: 중지하고 선택적으로 로깅합니다 . 제공된 쿼리가 없습니다.
    작업 2: 대화 임의로 설정
    • 목적: 제공된 쿼리에서 대화의 제한된 임의 샘플을 선택합니다.
    • 논리학:
      • 쿼리를 실행하여 일치하는 대화 기록을 가져옵니다.
      • 최대 100개의 대화를 임의로 선택합니다.
        • >100이 일치하면 최대 100입니다.
        • <100인 경우 모두를 선택합니다.
      • 쿼리를 확인합니다. 유효하지 않은 경우 false 및 빈 배열 또는 부분 배열을 반환합니다.
    • 출력:
      • 성공: 예/아니오
      • conversation_ids: sys_ids 배열(최대 100)
    • 성공 = true인 경우: 작업 3으로 진행합니다. 그렇지 않으면 검사를 중지하고 유효성 검사 오류를 기록합니다.
    작업 3: 평가 테이블을 조회하여 이전 평가 확인
    • 목적: 중복 평가를 피하십시오.
    • 논리: 각 대화 sys_id 대해 이미 평가되었거나 진행 중임을 나타내는 기존 기록에 대한 sn_na_conv_eval_evaluation 확인합니다(구현 선택: 상태가 취소됨/실패가 아님).
    • 이전에 평가되지 않은 경우: 해당 대화에 대한 작업 4로 진행합니다.
    • 이미 평가된 경우: 이 대화를 건너뛰고 선택적으로 이미 평가됨을 기록합니다.
    작업 4: 상호작용 기록 조회
    • 목적: HR 범위 제외를 적용합니다.
    • 논리: 대화와 관련된 상호작용을 해결합니다. 애플리케이션 범위에 HR이 포함되어 있으면 대화를 건너뜁니다.
    • 범위에 HR이 포함되지 않은 경우: 작업 5로 진행합니다.
    작업 5: 채팅 분류 규칙 평가
    • 목적: 대화를 평가해야 하는지 여부를 확인하고 상위 수준의 레이블을 추출합니다.
    • 논리학:
      • 분류 입력을 위해 sys_cs_message에서 간단한 기록을 작성합니다.
      • 기록으로 채팅 주제 분류 규칙 기술을 호출합니다.
      • 받다:
        • 평가 실행: 예/아니오
        • 주제 이름
        • 범주: IT 또는 HR
    • 평가 실행 = true인 경우: 작업 6으로 진행합니다.
    • 아니오인 경우: 대화를 건너뛰고 분류 규칙 결정을 기록합니다.
    작업 6: buildTranscript
    • 목적: 최종 분 단위 성적표를 구성하고 다운스트림 기술 세트 및 가드레일을 결정합니다.
    • 단계:
      • 모든 대화 메시지를 집계합니다.
      • 사용자 메시지를 [User] 로, Virtual Agent 메시지를 [Virtual Agent]:로 태그를 지정합니다.
      • 지식 기사:
        • Genius 결과가 문서를 참조하는 지식 경우 문서를 쿼리 지식 하고 Genius 스니펫을 전체 문서 본문으로 바꿉니다.
        • [가상 에이전트]: 사용자 쿼리에 대한 도움말 문서로 주석 달기: Article_Start 및 Article_End 내에서 컨텐츠를 줄 바꿈합니다.
        • 제약 조건:
          • KB가 HR 범위이거나 액세스할 수 없는 경우 평가하지 마십시오(대화 건너뛰기).
          • 문서 본문을 최대 10,000단어로 자릅니다.
          • KB 컨텐츠 소스가 첨부 파일(PDF/Word/Txt)인 경우 전체 파일 컨텐츠 대신 Genius 결과로 대체합니다.
      • 카탈로그 항목:
        • Genius 결과가 카탈로그 항목을 참조하는 경우 카탈로그 이름, 간단한 설명, 설명 문자열을 sc_cat_item 작성하고 쿼리합니다.
        • [가상 에이전트]로 주석 달기: 아래 옵션 중 하나를 선택하십시오. 인용 순서를 포함합니다.
      • 라이브 에이전트 제외:
        • 첫 번째 사용자 메시지가 라이브 에이전트를 요청하는 경우에는 평가를 건너뜁니다.
        • 라이브 에이전트가 처음 120단어 내에서 호출되면 평가를 건너뜁니다.
    • 출력:
      • ExecuteEvaluation: true/false(가드레일 이후 결과)
      • 채팅 기록
      • 지식 참조된 문서
      • 참조된 카탈로그 항목
      • 첫 번째 라이브 에이전트 발생: 대화 메시지의 Sys_id(있는 경우)
      • 호출할 기술:
        • 일관성 채팅 평가
        • 간결성 채팅 평가
        • 컨텍스트 보존
        • 부적절한 슬롯 채우기 채팅 평가
        • 의도 정확도 채팅 평가
        • 원활하게 흐르는 대화 채팅 평가
        • 진실성 환각 채팅 평가
      • 추가 로그
    • ExecuteEvaluation = true인 경우: 작업 7로 진행합니다. 그렇지 않으면 대화를 건너뜁니다.
    작업 7: If 차단
    • 목적: 레코드 생성에 대한 분기.
    • 논리: 작업 6의 ExecuteEvaluation이 true이면 작업 8로 이동합니다.
    작업 8: 평가 기록 생성 또는 업데이트
    • 목적: 이 대화에 대한 평가 항목을 유지합니다.
    • 테이블: sn_na_conv_eval_evaluation
    • 필드 채우기:
      • 문서 대화: 대화 참조
      • 상태: 처리 중
      • 주제: 작업 5에서
      • 카테고리: 액션 5에서
      • 참조된 KB: 작업 6에서
      • 참조된 카탈로그: 작업 6에서
      • 첫 번째 라이브 에이전트 발생: 작업 6에서
      • 유형: 채팅 요약
      • 사용자: 대화의 시작 사용자
      • 메시지 로그: 작업 6의 추가 로그
    • 성공 시: 작업 9로 진행합니다.
    작업 9: For 루프 오버 기술
    • 목적: 선택한 각 평가 기술을 실행합니다.
    • 작업 6의 목록에 있는 각 기술에 대해:
      • 작업 10: invokeApiDefinition
        • 입력: 기술 이름, 대화, 증명서, 평가 ID
        • 동작:
          • 기술을 비동기적으로 호출합니다 Now Assist .
          • 후처리기는 결과를 sys_generative_ai_response_validator에 씁니다.
          • JSON 응답 필드 추출:
            • 포인트
            • 점수 이유
            • 추론을 뒷받침하는 예
          • 상위 평가에 연결된 sn_na_conv_eval_evaluation_metrics에서 하위 메트릭 기록을 생성합니다.
      • 작업 11: 대기

        다음 기술로 진행하기 7초 전에 일시 중지하여 속도 제한 또는 제한을 관리합니다.