참조

호주 AI 활성화

Release

australia

ft:locale

ko-KR

ft:publication_title

호주 AI 활성화

ft:clusterId

platai

bundleId

platai

workflow

Platform

에이전트 기반 평가에 대한 참조

릴리스 버전: Australia

업데이트 날짜 2026년 03월 18일

소요 시간: 1분

에이전트 기반 평가의 역할, 메트릭 및 출력 형식에 대한 기술 참조 자료를 찾습니다.

표 1. 사용 가능한 표준 메트릭
메트릭	측정 대상	실측 자료 필요
작업 완성도	에이전틱 AI 자산이 사용자의 요구를 완전히 해결하는지 여부입니다.	옵션
응답 정확도	에이전틱 AI 자산의 응답이 사실적으로 정확한지 여부	권장
근거성	에이전틱 AI 자산의 응답이 작업의 특정 컨텍스트에 근거하는지 여부	아니요
일관성	에이전틱 AI 자산의 응답이 논리적으로 구조화되고 명확한지 여부	아니요
도구 사용 정확도	에이전틱 AI 자산이 작업을 실행하기 위해 올바른 도구를 선택하고 사용했는지 여부	옵션
목표 준수	에이전틱 AI 자산이 정의된 범위 및 지침 내에 있는지 여부	아니요

문제는 행동으로 분류됩니다. 각 메트릭에는 개별적으로 식별된 고유한 문제가 있습니다.

표 2. 문제 범주
범주	에이전틱 AI 자산 동작
미완료 응답	응답이 사용자의 전체 요청을 처리하지 못함
사실 오류	응답에 사실과 일치하지 않는 콘텐츠가 포함되어 있음
환각	응답에 포함된 콘텐츠가 요청의 특정 컨텍스트에 근거되지 않음
일관되지 않은 출력	응답이 무질서하거나 이해하기 어려웠습니다.
잘못된 도구 사용	잘못된 도구를 선택했거나 잘못된 매개변수를 도구에 전달했습니다.
범위 위반	정의된 운영 범위를 벗어난 요청에 응답함

표 3. 에이전트 기반 평가의 데이터 세트에 대한 데이터 요구 사항
요구 사항	설명
최소 테스트 케이스	실행당 최소 테스트 케이스 수가 필요합니다. 실행에 사용 중인 특정 메트릭에는 자체 최소 테스트 케이스가 있을 수 있습니다. 데이터 세트가 모든 메트릭의 요구 사항을 충족하는지 확인합니다.
지원 형식	CSV 및 구조화된 JSON이 지원됩니다.
실측 자료 필드	실측 자료를 사용하는 경우 데이터 세트에서 별도의 필드로 제공해야 합니다. 실측 자료 필드는 각 테스트 케이스에 개별적으로 맞춰야 합니다.
데이터 대표성	데이터 세트는 AI 에이전트 또는 에이전틱 워크플로우가 처리할 모든 작업을 반영해야 합니다. 에지 케이스와 실패하기 쉬운 시나리오를 포함하여 일반적인 실제 시나리오에 대해 테스트하고 있는지 확인하는 데 도움이 됩니다.