실행이 완료된 후 메트릭별 점수 및 문제 수를 포함하여 에이전트의 전반적인 성과를 평가합니다. 배포하기 전에 품질 문제와 개선 기회를 진단하기 위한 출발점으로 결과를 사용하십시오.
시작하기 전에
완료된 에이전틱 평가가 있어야 합니다.
필요한 역할: sn_aia.admin 또는 admin
이 태스크 정보
자동 평가에는 선택한 여러 메트릭에 대한 점수와 권장 사항이 포함됩니다. 각 출력은 에이전틱 AI 자산의 개발 및 배포에 대한 결정을 내리는 데 사용할 수 있는 정보를 제공합니다. 평가 결과는 에이전트를 프로덕션에 배포하기 전에 성능 패턴, 품질 문제 및 최적화 기회를 식별하는 데 도움이 됩니다.
프로시저
-
다음으로 이동 .
-
결과를 검토할 자동화된 평가를 선택합니다.
평가 상세 정보 페이지가 열리고 전체 결과와 성과 메트릭이 표시됩니다.
-
전반적인 성과를 이해하려면 평가 요약 섹션을 검토합니다.
요약은 평가된 모든 메트릭에서 에이전트의 성과에 대한 개략적인 개요를 제공합니다. 주요 정보는 다음과 같습니다.
- 이름 및 버전과 같은 에이전틱 AI 자산 정보
- 평가된 총 테스트 케이스 수
- 모든 메트릭의 평균 점수
- 심각도 수준별로 식별된 문제 수
-
각 메트릭에 대해 LLM이 판단한 전체 점수를 검토합니다.
각 메트릭에 대한 일반 LLM 판단 점수는 평가한 메트릭 전반의 전반적인 패턴과 추세를 보여줍니다. 이러한 점수는 에이전틱 AI 자산의 현재 버전에 따라 배포에 대한 일반적인 권장 사항을 제공합니다. 자세한 결과는 다음과 같습니다.
- 숫자 점수
- 성과 등급(우수, 양호, 보통 또는 나쁨)
- 개별 기록 평가
-
문제 및 관련 추적을 조사합니다.
에이전틱 AI 자산의 성능에 문제가 발견되면 심각도 수준, 메트릭 및 사용 케이스별로 문제가 분류됩니다. 문제는 "추적"이라고 하는 특정 상호 작용에서 문제의 원인을 추적할 수 있습니다. 문제와 그 추적을 검토하여 근본적인 문제를 진단합니다. 문제는 심각도 수준에 따라 분류됩니다.
- 중요: 에이전트가 올바르게 작동하지 못하게 하여 사용자 경험이 저하될 수 있는 문제입니다
- 높음: 사용자 경험 또는 정확도에 영향을 주는 중대한 문제
- 보통: 일부 시나리오에서 성능에 영향을 줄 수 있는 보통 문제
- 낮음: 전체 기능에 최소한의 영향을 미치는 경미한 문제
-
결과에 따라 최적화를 적용합니다.
자동화된 평가에는 평가에서 발견된 문제를 해결하기 위한 권장 최적화가 포함될 수 있습니다. 최적화를 적용한 후 평가를 다시 실행하여 동작과 성능의 변화를 확인할 수 있습니다. 여러 평가 실행 간의 결과를 비교하여 개선 사항을 추적합니다.
결과
평가된 모든 메트릭에 걸쳐 에이전트의 성과를 종합적으로 검토할 수 있습니다. 이러한 인사이트를 사용하여 배포 준비 상태에 대해 정보에 입각한 결정을 내리거나 추가 개발 작업이 필요한 영역을 식별합니다.