배치 평가를 위한 평가 플로우

취리히 AI 활성화

Release

zurich

ft:locale

ko-KR

ft:publication_title

취리히 AI 활성화

ft:clusterId

platai

bundleId

platai

workflow

Platform

배치 평가를 위한 평가 플로우

릴리스 버전: Zurich

업데이트 날짜 2025년 09월 03일

소요 시간: 5분

배치 평가를 사용하면 평가 관리자가 저장된 쿼리를 기반으로 완료된 가상 에이전트 대화를 한 번에 최대 100개까지 평가할 수 있습니다.

플로우 이름: 배치 평가 실행.

플로우는 평가 기록을 생성하고 적합한 각 대화에 대한 기술을 호출하여 Now Assist 단일 대화 평가 논리를 반영하지만 규모에 맞게 수행합니다. HR 범위 제외, 주제/범주 확인, 증명서 구성 규칙, 초기 라이브 에이전트 제외 및 기술을 통한 비동기 점수 산정을 시행합니다.

배치 평가는 다음 논리를 사용하여 수행됩니다.

트리거

표: 평가 세트 [sn_na_conv_eval_evaluation_set]
조건: 상태가 진행 중으로 변경되고 평가 유형 = 대화

입력

평가 세트 기록:
- 쿼리 필터: 평가할 대화를 대상으로 하는 쿼리입니다(예: sys_cs_conversation 필터).
- 평가 유형: 대화
- 상태: 진행 중(시작)
LLM/기술: 채팅 주제 분류 규칙 및 그 뒤에 나열된 평가 기술입니다.

상위 수준 동작

쿼리 필터를 읽고 최대 100개의 대화를 임의로 샘플링합니다.
이미 평가된 대화를 건너뜁니다.
HR 범위 상호작용은 제외됩니다.
채팅 주제 분류 규칙을 사용하여 평가 자격을 확인하고 주제 및 범주를 추출합니다.
문서 및 카탈로그 소스의 지식 통제된 포함으로 대본을 작성하고 초기 라이브 에이전트 제외를 적용합니다.
평가 기록을 생성하고 선택한 모든 평가 기술을 비동기식으로 호출하여 메트릭에 점수 및 근거를 작성합니다.

실행 순서:

작업 1: 쿼리 필터가 비어 있지 않은 경우

목적: 가드 조항.
논리: 평가 세트 기록을 조회하고 쿼리 필터 필드를 확인합니다.
쿼리 필터가 있는 경우: 작업 2로 진행합니다.
비어 있는 경우: 중지하고 선택적으로 로깅합니다 . 제공된 쿼리가 없습니다.

작업 2: 대화 임의로 설정

목적: 제공된 쿼리에서 대화의 제한된 임의 샘플을 선택합니다.
논리학:
- 쿼리를 실행하여 일치하는 대화 기록을 가져옵니다.
- 최대 100개의 대화를 임의로 선택합니다.
  - >100이 일치하면 최대 100입니다.
  - <100인 경우 모두를 선택합니다.
- 쿼리를 확인합니다. 유효하지 않은 경우 false 및 빈 배열 또는 부분 배열을 반환합니다.
출력:
- 성공: 예/아니오
- conversation_ids: sys_ids 배열(최대 100)
성공 = true인 경우: 작업 3으로 진행합니다. 그렇지 않으면 검사를 중지하고 유효성 검사 오류를 기록합니다.

작업 3: 평가 테이블을 조회하여 이전 평가 확인

목적: 중복 평가를 피하십시오.
논리: 각 대화 sys_id 대해 이미 평가되었거나 진행 중임을 나타내는 기존 기록에 대한 sn_na_conv_eval_evaluation 확인합니다(구현 선택: 상태가 취소됨/실패가 아님).
이전에 평가되지 않은 경우: 해당 대화에 대한 작업 4로 진행합니다.
이미 평가된 경우: 이 대화를 건너뛰고 선택적으로 이미 평가됨을 기록합니다.

작업 4: 상호작용 기록 조회

목적: HR 범위 제외를 적용합니다.
논리: 대화와 관련된 상호작용을 해결합니다. 애플리케이션 범위에 HR이 포함되어 있으면 대화를 건너뜁니다.
범위에 HR이 포함되지 않은 경우: 작업 5로 진행합니다.

작업 5: 채팅 분류 규칙 평가

목적: 대화를 평가해야 하는지 여부를 확인하고 상위 수준의 레이블을 추출합니다.
논리학:
- 분류 입력을 위해 sys_cs_message에서 간단한 기록을 작성합니다.
- 기록으로 채팅 주제 분류 규칙 기술을 호출합니다.
- 받다:
  - 평가 실행: 예/아니오
  - 주제 이름
  - 범주: IT 또는 HR
평가 실행 = true인 경우: 작업 6으로 진행합니다.
아니오인 경우: 대화를 건너뛰고 분류 규칙 결정을 기록합니다.

작업 6: buildTranscript

목적: 최종 분 단위 성적표를 구성하고 다운스트림 기술 세트 및 가드레일을 결정합니다.
단계:
- 모든 대화 메시지를 집계합니다.
- 사용자 메시지를 [User] 로, Virtual Agent 메시지를 [Virtual Agent]:로 태그를 지정합니다.
- 지식 기사:
  - Genius 결과가 문서를 참조하는 지식 경우 문서를 쿼리 지식 하고 Genius 스니펫을 전체 문서 본문으로 바꿉니다.
  - [가상 에이전트]: 사용자 쿼리에 대한 도움말 문서로 주석 달기: Article_Start 및 Article_End 내에서 컨텐츠를 줄 바꿈합니다.
  - 제약 조건:
    - KB가 HR 범위이거나 액세스할 수 없는 경우 평가하지 마십시오(대화 건너뛰기).
    - 문서 본문을 최대 10,000단어로 자릅니다.
    - KB 컨텐츠 소스가 첨부 파일(PDF/Word/Txt)인 경우 전체 파일 컨텐츠 대신 Genius 결과로 대체합니다.
- 카탈로그 항목:
  - Genius 결과가 카탈로그 항목을 참조하는 경우 카탈로그 이름, 간단한 설명, 설명 문자열을 sc_cat_item 작성하고 쿼리합니다.
  - [가상 에이전트]로 주석 달기: 아래 옵션 중 하나를 선택하십시오. 인용 순서를 포함합니다.
- 라이브 에이전트 제외:
  - 첫 번째 사용자 메시지가 라이브 에이전트를 요청하는 경우에는 평가를 건너뜁니다.
  - 라이브 에이전트가 처음 120단어 내에서 호출되면 평가를 건너뜁니다.
출력:
- ExecuteEvaluation: true/false(가드레일 이후 결과)
- 채팅 기록
- 지식 참조된 문서
- 참조된 카탈로그 항목
- 첫 번째 라이브 에이전트 발생: 대화 메시지의 Sys_id(있는 경우)
- 호출할 기술:
  - 일관성 채팅 평가
  - 간결성 채팅 평가
  - 컨텍스트 보존
  - 부적절한 슬롯 채우기 채팅 평가
  - 의도 정확도 채팅 평가
  - 원활하게 흐르는 대화 채팅 평가
  - 진실성 환각 채팅 평가
- 추가 로그
ExecuteEvaluation = true인 경우: 작업 7로 진행합니다. 그렇지 않으면 대화를 건너뜁니다.

작업 7: If 차단

목적: 레코드 생성에 대한 분기.
논리: 작업 6의 ExecuteEvaluation이 true이면 작업 8로 이동합니다.

작업 8: 평가 기록 생성 또는 업데이트

목적: 이 대화에 대한 평가 항목을 유지합니다.
테이블: sn_na_conv_eval_evaluation
필드 채우기:
- 문서 대화: 대화 참조
- 상태: 처리 중
- 주제: 작업 5에서
- 카테고리: 액션 5에서
- 참조된 KB: 작업 6에서
- 참조된 카탈로그: 작업 6에서
- 첫 번째 라이브 에이전트 발생: 작업 6에서
- 유형: 채팅 요약
- 사용자: 대화의 시작 사용자
- 메시지 로그: 작업 6의 추가 로그
성공 시: 작업 9로 진행합니다.

작업 9: For 루프 오버 기술

목적: 선택한 각 평가 기술을 실행합니다.
작업 6의 목록에 있는 각 기술에 대해:
- 작업 10: invokeApiDefinition
  - 입력: 기술 이름, 대화, 증명서, 평가 ID
  - 동작:
    - 기술을 비동기적으로 호출합니다 Now Assist .
    - 후처리기는 결과를 sys_generative_ai_response_validator에 씁니다.
    - JSON 응답 필드 추출:
      - 포인트
      - 점수 이유
      - 추론을 뒷받침하는 예
    - 상위 평가에 연결된 sn_na_conv_eval_evaluation_metrics에서 하위 메트릭 기록을 생성합니다.
- 작업 11: 대기
  다음 기술로 진행하기 7초 전에 일시 중지하여 속도 제한 또는 제한을 관리합니다.