의 평가 탭 AI 컨트롤 타워

  • 릴리스 버전: Zurich
  • 업데이트 날짜 2025년 07월 08일
  • 소요 시간: 4분
  • Evaluation 탭에는 와의 상호 작용 가상 에이전트품질을 측정, 자동화 및 개선하도록 설계된 Evaluation 대시보드가 포함되어 있습니다. 이 대시보드는 최종 사용자 경험과 전반적인 가상 에이전트 유용성을 향상시키기 위한 몇 가지 주요 과제를 해결합니다.

    평가 대시보드

    필수 조건

    필요한 역할: sn_ai_governance.ai_steward

    당신은해야합니다 평가 활성화.

    다음 조건 중 하나라도 충족되면 대화가 자동 평가에서 제외됩니다.
    • HR 대화: 인사 관리와 관련된 대화는 필터링되어 평가되지 않습니다.
    • 접근할 수 없거나 비어 있는 지식베이스 (KB) 문서: 스크립트를 통해 접근할 수 없거나 비어 있는 KB 문서를 가리키는 Genius 결과와 관련된 대화입니다. 예를 들어, 특정한 제한된 HR 지식 문서가 있습니다.
    • 즉각적인 라이브 에이전트 전송: 가상 에이전트와의 사전 상호작용 없이 라이브 에이전트로 전송하여 즉시 시작되는 대화입니다.
    • 짧은 대화: 라이브 에이전트가 호출되기 전의 단어 수가 180개 미만인 대화입니다. 단어 수는 스크립트 포함을 통해 구성할 수 있습니다 autoEvalConstants . 이 임계값 미만의 대화에는 와의 가상 에이전트의미 있는 상호 작용이 포함되지 않았다는 가정이 있습니다.
    • 사용자 지정 트리거: 사용자 지정 정의 제외 트리거입니다.

    평가 대시보드 개요

    평가 대시보드는 다음과 같은 이점을 제공합니다.
    • 를 통해 가상 에이전트최종 사용자 경험을 체계적으로 추적하여 신뢰할 수 있는 측정 프로세스를 구축하여 상호 작용에 대한 심층적인 인사이트를 제공합니다.
    • 다양한 사용자 상호작용에서 대화 품질을 평가하는 프로세스를 자동화하여 대화 품질 평가를 자동화합니다. 이 자동화를 통해 성능 추적을 위한 신뢰할 수 있고 확장 가능한 메트릭을 생성할 수 있습니다.
    • 가상 에이전트 성능의 반복적인 개선을 지원하여 전반적인 사용자 경험을 지속적으로 개선합니다.
    • 가상 에이전트 품질을 평가하고 추적하는 프로세스가 효율적이고 확장 가능한지 확인하여 시간이 지남에 따라 문제와 개선 사항을 신속하게 식별할 수 있도록 함으로써 확장 가능한 모니터링입니다.
    • 일련의 선택적 질문을 통한 사용자 피드백 통합을 사용하면 향후 상호작용의 품질을 개선하는 데 사용되는 사용자 경험에 대한 직접적인 피드백을 제공할 수 있습니다.
    • 서비스 데스크 관리자가 시간이 지남에 따라 자동 평가 점수를 추적하고 검토할 수 있도록 하여 서비스 데스크 관리자 인사이트을 제공합니다. 또한 관리자는 벤치마킹을 위해 피드백을 수동으로 추가하여 대화의 품질 및 개선 기회에 대한 귀중한 인사이트를 제공할 수 있습니다.
    • 자동화된 평가와 수동 피드백의 결합된 접근 방식을 통해 가상 에이전트 성능을 지속적으로 개선함으로써 지속 가능한 평가 프로세스로, 시간이 지남에 따라 발전하는 확장 가능하고 지속 가능한 시스템을 가능하게 합니다.

    개요 탭

    평가 대시보드의 개요 탭은 모든 메트릭과 평가 데이터에 대한 포괄적인 뷰를 제공합니다.

    평가 탭.

    다양한 메트릭을 보여주는 다음 위젯을 사용할 수 있습니다.
    • 선택한 메트릭의 평균 자동 평가 점수: 선택한 메트릭의 평균 자동 평가 점수와 시간 경과에 따른 추세를 표시합니다.

      각 메트릭에 대한 자세한 내용은 다음 문서를 참조하십시오 평가 메트릭 및 계산.

    • 선택한 메트릭에 대한 평균 인적 피드백 점수: 선택한 메트릭에 대한 평균 인적 레이블 점수를 표시합니다.
      주:
      수동으로 평가하는 채팅 기록이 충분한 경우에만 점수를 사용할 수 있습니다. 대화를 수동으로 평가하는 방법에 대한 자세한 내용은 다음 문서를 참조하십시오 평가에 대한 인적 피드백.
    • 평가 점수 추세: 선택한 메트릭의 주별 점수를 추적합니다.

      편차 및 조정된 점수 보기 토글을 켜면 추세 차트에 상한, 하한 편차 및 최종 조정 점수를 오버레이하여 자동 평가된 점수와 사용자 정의 점수 간의 비교가 표시됩니다.

      주:
      편차 및 조정된 점수는 최소 50개의 인적 레이블이 있는 경우에만 계산됩니다.

      편차 및 조정된 점수가 있는 평가 추세입니다.

      계산 방법에 대한 자세한 내용은 다음 문서를 참조하십시오 평가 메트릭 및 계산.

    • 평가: 매주 평가된 총 대화 수를 표시합니다.

    • 인적 피드백 섹션: 각 평가에 대한 자세한 정보를 포함합니다. 여기에서 대화를 수동으로 평가할 수 있습니다. 자세한 내용은 평가에 대한 인적 피드백 문서를 참조하십시오.

    평가

    각 대화는 8개의 서로 다른 메트릭을 기준으로 평가됩니다. 이러한 각 메트릭에는 별도의 기술이 있습니다. 사용자 지정 기술에서 Now Assist 기술 키트 이러한 기술을 볼 수 있습니다.

    각 메트릭에 대한 자세한 내용은 다음 문서를 참조하십시오 평가 메트릭 및 계산.

    필요한 역할: sn_skill_builder.admin

    평가를 위한 사용자 지정 기술입니다.

    다음과 Now Assist 같은 사용자 지정 기술이 사용됩니다.
    • 채팅 주제 분류 규칙
    • 일관성 채팅 평가
    • 간결성 채팅 평가
    • 컨텍스트 보존
    • 부적절한 슬롯 채우기 채팅 평가
    • 의도 정확도 채팅 평가
    • 원활하게 흐르는 대화 채팅 평가
    • 진실성 환각 채팅 평가

    이러한 기술의 기본 제공자는 입니다 Azure OpenAI. 제공자 Google Gemini 를 또는 AWS Claude로 변경할 수 있습니다.

    Now Assist 기술 키트에 대한 자세한 내용은 ../../now-assist-skill-kit/concept/now-assist-skill-kit-landing.html 문서를 참조하십시오.

    평가 과정

    플로우: 평가를 실행합니다.

    1. 일상 대화의 10%를 샘플링하여 대화가 평가하기에 충분한지 여부를 확인합니다. 평가는 이러한 대화에 대한 녹취록을 작성한 다음 설정된 LLM(대규모 언어 모델)으로 전송하여 수행됩니다.
    2. 평가하기에 충분한 대화의 경우 다양한 척도에 대한 프롬프트와 함께 녹취록이 LLM으로 전송되고 LLM은 대화를 평가합니다.
    3. 평가 후 대화는 후처리를 진행하며, 여기서 LLM이 제공한 점수와 점수 사유가 구문 분석되어 평가 및 평가 메트릭 테이블에 저장됩니다.
    주:
    대화 평가 예상치는 대화 생성 날짜가 아닌 평가 날짜를 기준으로 고려됩니다. 예를 들어, 시간 t에 발생한 채팅이 시간 t+10에 평가되는 경우 평가자의 점수는 시간 t가 아닌 t+10 주에 대해 집계됩니다.

    평가 흐름에 대한 자세한 내용은 다음 문서를 참조하십시오 평가 플로우.