에이전트 기반 평가 실행 실행
데이터 세트에 대해 에이전틱 AI 자산을 평가하여 성능을 모니터링하고 벤치마크를 비교합니다.
시작하기 전에
평가 실행에는 평가하려는 에이전틱 AI 자산의 실행 로그 데이터가 필요합니다. 에서 테스트 AI 에이전트 스튜디오 하거나 에이전틱 AI를 트리거하여 실행 로그 데이터를 생성할 수 있습니다 Now Assist. 평가 실행을 설정한 후 실행 로그 데이터를 생성할 수도 있습니다.
에이전트 워크플로우 테스트에 대한 자세한 내용은 다음 문서를 참조하십시오 에이전틱 워크플로우의 실행을 수동으로 테스트.
에이전트 평가를 시작하는 방법에 대한 자세한 내용은 에이전트 평가 실행에 대한 일반 지침을 참조하세요.
필요한 역할: sn_aia.admin
프로시저
-
다음으로 이동 모두 > Now Assist 기술 키트 > 에이전트 기반 평가.
의 테스트 페이지에서 시작할 수도 있습니다 AI 에이전트 스튜디오. 다음으로 이동 모두 > AI 에이전트 스튜디오 > 테스트. 자동화된 평가 시작을 선택하여 안내 설정에 액세스합니다.
- 평가 홈페이지에서 새 평가 실행을 선택하여 안내 설정을 시작합니다.
-
일반 정보 추가 단계에서 이름을 추가하고 평가하려는 에이전틱 AI 자산을 선택합니다.
-
계속을 선택하여 다음 단계로 이동합니다.
단계를 탐색할 때마다 평가 실행이 자동으로 초안으로 저장됩니다. 언제든지 초안으로 저장을 선택할 수 있습니다.
안내 설정을 종료하려면 설정 종료를 선택할 수 있습니다. 에이전트 기반 평가 페이지로 리디렉션됩니다.
- 저장하고 종료를 선택하면 평가 실행이 에이전트 기반 평가 페이지에 다음의 Draft상태로 표시됩니다.
- 취소 및 종료를 선택하면 평가 실행 초안이 삭제됩니다.
-
평가 메트릭을 선택합니다.
전체 작업 완료도 평가가 기본적으로 선택됩니다. 여러 평가 메트릭을 실행하면 에이전틱 AI 자산의 성능에 대한 포괄적인 개요가 제공됩니다.
각 계획에 대한 자세한 내용을 보려면 chevron 아이콘
선택하여 각 평가 계획의 카드를 확장하면 됩니다.
게시한 사용자 지정 메트릭은 옵션으로 나타납니다. 사용자 지정 메트릭이 표시되지 않으면 게시되었는지 확인합니다. 자세한 내용은 사용자 지정 메트릭 만들기를 참조하세요.
주:AI 음성 에이전트는 도구 호출 정확성 메트릭을 사용할 수 없습니다. -
데이터 세트를 구성합니다.
-
에이전트 또는 워크플로우를 실행하여 새 실행 로그를 생성하거나 이전 실행의 실행 로그를 사용하여 새 실행 로그를 생성할지 선택합니다.
주:AI 음성 에이전트를 평가하는 경우 기존 실행 로그를 사용해야 합니다.
-
새 실행 로그를 생성하여 데이터 세트를 생성하려면 먼저 테이블을 선택합니다.
새 데이터 세트를 처음부터 만드는 대신 과거 데이터 세트에서 선택을 선택하여 다른 평가에서 사용한 과거 데이터 세트를 사용하도록 선택할 수 있습니다. 데이터 세트를 선택하면 소스 테이블, 기록 수, 데이터 세트를 사용한 마지막 에이전틱 AI 자산을 포함한 상세 정보를 검토할 수 있습니다.
주:AI 에이전트 어드바이저로 생성된 에이전틱 AI 자산을 평가하는 경우 데이터 세트에 대한 옵션이 자동으로 채워집니다. 값은 계속 편집할 수 있습니다.표 1. 새 실행 로그에 대한 데이터 세트 양식 구성 필드 이름
설명
테이블
에이전틱 AI 자산이 작업을 수행하고 실행을 생성하는 데 사용하는 기록의 소스 테이블입니다.
추가된 필터
실행 로그 데이터를 생성하는 데 사용할 에이전틱 AI 자산의 기록 목록을 좁히기 위한 조건입니다.
사용할 기록 수
평가를 위한 데이터 세트 내의 최대 기록 수입니다. 데이터 세트에 최대값보다 많은 기록이 포함된 경우 추가 기록은 무시됩니다.
작업
실행할 에이전틱 AI 자산에 제공된 발언입니다. 알약 선택기를 사용하여 작업에 대한 동적 입력을 선택합니다. 예를 들어 시작 지침을 {{incident.number}}를 해결하는 데 도움이 되도록 설정합니다. 기록의 입력은 이중 중괄호 사이에 작성해야 합니다.
에이전트 또는 워크플로우에 대한 추가 세부 정보
테이블 기록 정보를 보완하는 LLM(대규모 언어 모델)에 제공된 정보입니다. 예를 들어, 학자금 지원 에이전틱 워크플로우에는 지식 문서를 통해 제공할 수 있는 일반 지원 수당이 필요합니다.
사용자로 실행
에이전틱 AI 자산을 실행하기 위해 테이블 기록과 연결된 사용자입니다. 예를 들어 사용 사례에 따라 사용자를 요청자 또는 이행자로 실행할 수 있습니다.
이름
데이터 세트의 이름입니다. 이는 동일한 데이터 세트를 다시 사용하려는 경우 유용할 수 있습니다.
설명
데이터 세트에 포함된 기록에 대한 설명입니다. 이는 동일한 데이터 세트를 다시 사용하려는 경우 유용할 수 있습니다.
주:새 실행 로그를 생성하는 경우 평가를 제출하는 사용자는 에이전틱 AI 자산 및 해당 구성요소의 ACL을 전달해야 합니다. 올바른 역할 요구 사항이 없으면 실행 로그에서 액세스 거부를 보고하고 평가가 실패합니다. 자세한 내용은 에이전틱 AI에 대한 보안을 참조하십시오.표 2. 기존 실행 로그에 대한 데이터 세트 양식 구성 필드 이름
설명
추가된 필터
데이터 세트에 포함할 AI 실행 로그 기록의 범위를 좁히기 위한 조건입니다.
주:AI 음성 에이전트 실행 로그의 데이터 세트를 생성하는 데 필터 조건이 지원되지 않습니다.사용할 기록 수
평가를 위한 데이터 세트 내의 최대 기록 수입니다. 데이터 세트에 최대값보다 많은 기록이 포함된 경우 추가 기록은 무시됩니다.
-
지정한 조건에 따라 기록 목록을 보려면 미리 보기 보기를 선택합니다.
미리 보기 목록에서 특정 기록을 선택하여 기록 범위를 좁힐 수 있습니다. 선택하지 않은 기록은 데이터 세트에 포함되지 않습니다.
-
에이전트 또는 워크플로우를 실행하여 새 실행 로그를 생성하거나 이전 실행의 실행 로그를 사용하여 새 실행 로그를 생성할지 선택합니다.
-
안내 설정의 마지막 단계에서 에이전트 평가 상세 정보를 검토합니다.
변경하려면 뒤로를 선택하여 이전 단계로 이동하거나 사이드바에서 단계를 선택할 수 있습니다.
- 평가 시작을 선택합니다.
결과
평가 실행이 실행됩니다. 완료 시간은 다양하지만 완료 후 에이전트 기반 평가 페이지에서 평가를 선택하여 결과를 볼 수 있습니다.
결과 페이지의 메트릭에 대한 자세한 내용은 에이전트 평가 실행 결과를 참조하세요.