의 평가 탭 AI 컨트롤 타워
Evaluation 탭에는 와의 상호 작용 가상 에이전트품질을 측정, 자동화 및 개선하도록 설계된 Evaluation 대시보드가 포함되어 있습니다. 이 대시보드는 최종 사용자 경험과 전반적인 가상 에이전트 유용성을 향상시키기 위한 몇 가지 주요 과제를 해결합니다.
평가 대시보드
필수 조건
필요한 역할: sn_ai_governance.ai_steward
당신은해야합니다 평가 활성화.
- HR 대화: 인사 관리와 관련된 대화는 필터링되어 평가되지 않습니다.
- 접근할 수 없거나 비어 있는 지식베이스 (KB) 문서: 스크립트를 통해 접근할 수 없거나 비어 있는 KB 문서를 가리키는 Genius 결과와 관련된 대화입니다. 예를 들어, 특정한 제한된 HR 지식 문서가 있습니다.
- 즉각적인 라이브 에이전트 전송: 가상 에이전트와의 사전 상호작용 없이 라이브 에이전트로 전송하여 즉시 시작되는 대화입니다.
- 짧은 대화: 라이브 에이전트가 호출되기 전의 단어 수가 180개 미만인 대화입니다. 단어 수는 스크립트 포함을 통해 구성할 수 있습니다 autoEvalConstants . 이 임계값 미만의 대화에는 와의 가상 에이전트의미 있는 상호 작용이 포함되지 않았다는 가정이 있습니다.
- 사용자 지정 트리거: 사용자 지정 정의 제외 트리거입니다.
평가 대시보드 개요
- 를 통해 가상 에이전트최종 사용자 경험을 체계적으로 추적하여 신뢰할 수 있는 측정 프로세스를 구축하여 상호 작용에 대한 심층적인 인사이트를 제공합니다.
- 다양한 사용자 상호작용에서 대화 품질을 평가하는 프로세스를 자동화하여 대화 품질 평가를 자동화합니다. 이 자동화를 통해 성능 추적을 위한 신뢰할 수 있고 확장 가능한 메트릭을 생성할 수 있습니다.
- 가상 에이전트 성능의 반복적인 개선을 지원하여 전반적인 사용자 경험을 지속적으로 개선합니다.
- 가상 에이전트 품질을 평가하고 추적하는 프로세스가 효율적이고 확장 가능한지 확인하여 시간이 지남에 따라 문제와 개선 사항을 신속하게 식별할 수 있도록 함으로써 확장 가능한 모니터링입니다.
- 일련의 선택적 질문을 통한 사용자 피드백 통합을 사용하면 향후 상호작용의 품질을 개선하는 데 사용되는 사용자 경험에 대한 직접적인 피드백을 제공할 수 있습니다.
- 서비스 데스크 관리자가 시간이 지남에 따라 자동 평가 점수를 추적하고 검토할 수 있도록 하여 서비스 데스크 관리자 인사이트을 제공합니다. 또한 관리자는 벤치마킹을 위해 피드백을 수동으로 추가하여 대화의 품질 및 개선 기회에 대한 귀중한 인사이트를 제공할 수 있습니다.
- 자동화된 평가와 수동 피드백의 결합된 접근 방식을 통해 가상 에이전트 성능을 지속적으로 개선함으로써 지속 가능한 평가 프로세스로, 시간이 지남에 따라 발전하는 확장 가능하고 지속 가능한 시스템을 가능하게 합니다.
개요 탭
평가 대시보드의 개요 탭은 모든 메트릭과 평가 데이터에 대한 포괄적인 뷰를 제공합니다.
-
선택한 메트릭의 평균 자동 평가 점수: 선택한 메트릭의 평균 자동 평가 점수와 시간 경과에 따른 추세를 표시합니다.
각 메트릭에 대한 자세한 내용은 다음 문서를 참조하십시오 평가 메트릭 및 계산.
-
선택한 메트릭에 대한 평균 인적 피드백 점수: 선택한 메트릭에 대한 평균 인적 레이블 점수를 표시합니다.주:수동으로 평가하는 채팅 기록이 충분한 경우에만 점수를 사용할 수 있습니다. 대화를 수동으로 평가하는 방법에 대한 자세한 내용은 다음 문서를 참조하십시오 평가에 대한 인적 피드백.
-
평가 점수 추세: 선택한 메트릭의 주별 점수를 추적합니다.
편차 및 조정된 점수 보기 토글을 켜면 추세 차트에 상한, 하한 편차 및 최종 조정 점수를 오버레이하여 자동 평가된 점수와 사용자 정의 점수 간의 비교가 표시됩니다.
주:편차 및 조정된 점수는 최소 50개의 인적 레이블이 있는 경우에만 계산됩니다.계산 방법에 대한 자세한 내용은 다음 문서를 참조하십시오 평가 메트릭 및 계산.
-
평가: 매주 평가된 총 대화 수를 표시합니다.
- 인적 피드백 섹션: 각 평가에 대한 자세한 정보를 포함합니다. 여기에서 대화를 수동으로 평가할 수 있습니다. 자세한 내용은 평가에 대한 인적 피드백 문서를 참조하십시오.
평가
각 대화는 8개의 서로 다른 메트릭을 기준으로 평가됩니다. 이러한 각 메트릭에는 별도의 기술이 있습니다. 사용자 지정 기술에서 Now Assist 기술 키트 이러한 기술을 볼 수 있습니다.
각 메트릭에 대한 자세한 내용은 다음 문서를 참조하십시오 평가 메트릭 및 계산.
필요한 역할: sn_skill_builder.admin
- 채팅 주제 분류 규칙
- 일관성 채팅 평가
- 간결성 채팅 평가
- 컨텍스트 보존
- 부적절한 슬롯 채우기 채팅 평가
- 의도 정확도 채팅 평가
- 원활하게 흐르는 대화 채팅 평가
- 진실성 환각 채팅 평가
이러한 기술의 기본 제공자는 입니다 Azure OpenAI. 제공자 Google Gemini 를 또는 AWS Claude로 변경할 수 있습니다.
Now Assist 기술 키트에 대한 자세한 내용은 ../../now-assist-skill-kit/concept/now-assist-skill-kit-landing.html 문서를 참조하십시오.
평가 과정
플로우: 평가를 실행합니다.
- 일상 대화의 10%를 샘플링하여 대화가 평가하기에 충분한지 여부를 확인합니다. 평가는 이러한 대화에 대한 녹취록을 작성한 다음 설정된 LLM(대규모 언어 모델)으로 전송하여 수행됩니다.
- 평가하기에 충분한 대화의 경우 다양한 척도에 대한 프롬프트와 함께 녹취록이 LLM으로 전송되고 LLM은 대화를 평가합니다.
- 평가 후 대화는 후처리를 진행하며, 여기서 LLM이 제공한 점수와 점수 사유가 구문 분석되어 평가 및 평가 메트릭 테이블에 저장됩니다.
평가 흐름에 대한 자세한 내용은 다음 문서를 참조하십시오 평가 플로우.