에이전트 기반 평가에 대한 참조
에이전트 기반 평가의 역할, 메트릭 및 출력 형식에 대한 기술 참조 자료를 찾습니다.
사용 가능한 메트릭
|
메트릭 |
측정 대상 |
실측 자료 필요 |
|---|---|---|
|
작업 완성도 |
에이전틱 AI 자산이 사용자의 요구를 완전히 해결하는지 여부입니다. |
옵션 |
|
응답 정확도 |
에이전틱 AI 자산의 응답이 사실적으로 정확한지 여부 |
권장 |
|
근거성 |
에이전틱 AI 자산의 응답이 작업의 특정 컨텍스트에 근거하는지 여부 |
아니요 |
|
일관성 |
에이전틱 AI 자산의 응답이 논리적으로 구조화되고 명확한지 여부 |
아니요 |
|
도구 사용 정확도 |
에이전틱 AI 자산이 작업을 실행하기 위해 올바른 도구를 선택하고 사용했는지 여부 |
옵션 |
|
목표 준수 |
에이전틱 AI 자산이 정의된 범위 및 지침 내에 있는지 여부 |
아니요 |
문제 유형
문제는 행동으로 분류됩니다. 각 메트릭에는 개별적으로 식별된 고유한 문제가 있습니다.
|
범주 |
에이전틱 AI 자산 동작 |
|---|---|
|
미완료 응답 |
응답이 사용자의 전체 요청을 처리하지 못함 |
|
사실 오류 |
응답에 사실과 일치하지 않는 콘텐츠가 포함되어 있음 |
|
환각 |
응답에 포함된 콘텐츠가 요청의 특정 컨텍스트에 근거되지 않음 |
|
일관되지 않은 출력 |
응답이 무질서하거나 이해하기 어려웠습니다. |
|
잘못된 도구 사용 |
잘못된 도구를 선택했거나 잘못된 매개변수를 도구에 전달했습니다. |
|
범위 위반 |
정의된 운영 범위를 벗어난 요청에 응답함 |
데이터 요구 사항
|
요구 사항 |
설명 |
|---|---|
|
최소 테스트 케이스 |
실행당 최소 테스트 케이스 수가 필요합니다. 실행에 사용 중인 특정 메트릭에는 자체 최소 테스트 케이스가 있을 수 있습니다. 데이터 세트가 모든 메트릭의 요구 사항을 충족하는지 확인합니다. |
|
지원 형식 |
CSV 및 구조화된 JSON이 지원됩니다. |
|
실측 자료 필드 |
실측 자료를 사용하는 경우 데이터 세트에서 별도의 필드로 제공해야 합니다. 실측 자료 필드는 각 테스트 케이스에 개별적으로 맞춰야 합니다. |
|
데이터 대표성 |
데이터 세트는 AI 에이전트 또는 에이전틱 워크플로우가 처리할 모든 작업을 반영해야 합니다. 에지 케이스와 실패하기 쉬운 시나리오를 포함하여 일반적인 실제 시나리오에 대해 테스트하고 있는지 확인하는 데 도움이 됩니다. |