エージェント評価実行結果
エージェント評価の結果ページから、エージェント評価の実行とさまざまな評価スコアの背後にある意味について学びます。
エージェント評価の概要
エージェント型評価では、AI エージェントとエージェント型ワークフローがどの程度目的を達成しているかを測定します。Now LLM サービスモデルは、実行ログに基づいて AI エージェントまたはエージェント型ワークフローを判断します。評価実行の結果ページには、タスクの完全性とツールの使用状況を測定する複数のメトリクスとスコアが表示されます。
全体的なタスク完了評価を実行すると、結果ページに AI エージェントまたはエージェント型ワークフローの推奨アクションが表示されます。推奨アクションは、展開するエージェント型ワークフローが標準に従って実行されていることを確認するための展開または改善の提案を提供します。
評価結果を確認した後、評価をアーカイブするか、コピーして、同じパラメーターとデータセットで別の評価を実行できます。
評価結果をレポートとしてエクスポートできます。レポートは、実行レコードの個々のsys_idsとそれぞれのメトリクススコアを含む.csvファイルとしてフォーマットされます。
AI エージェントの使用状況やその他のアナリティクスの詳細については、AI エージェントスタジオ の AI エージェントアナリティクスダッシュボードを確認できます。
評価結果の概要
実行する評価方法ごとに、結果ページには、エージェントワークフローの全体的なスコアと、成功したレコード評価の割合、および優秀、良好、中、または不満のラベルが表示されます。[ メトリクスのしきい値をカスタマイズ] を選択すると、各ラベルのメトリクスのしきい値を変更できます。
全体的なタスク完全性の結果に加えて、他のメトリクスの結果の概要を確認できます。
|
ラベル |
説明 |
推奨アクション |
デフォルトのしきい値 |
|---|---|---|---|
|
優秀 |
タスクは一貫して高水準で実行されました。エージェント型ワークフローまたは AI エージェントが正常に動作しています。 |
自信を持って進める |
90%–100% |
|
物品 |
ほとんどのタスクは正常に実行されましたが、一部のパフォーマンスの不整合は改善が必要な領域を示しています。 |
注意して展開する |
70%–89% |
|
中 |
かなりの数のタスクが完全には完了していませんでした。パフォーマンスが望ましいレベルを下回っています。 |
不十分なタスク完了の根本原因を調査する |
50%–69% |
|
不満 |
エージェントのワークフローでは、タスクを適切に完了できないことが一貫しています。重大な問題が存在します。 |
展開しない |
0%–49% |
個々のレコードのメトリクススコア
評価は、エージェントワークフロー実行のログテーブルに対して実行されます。各レコードは、実行する評価計画ごとに個別に採点されます。個々のレコード評価は、次のメトリクスに従って採点されます。
|
番号 |
スコア |
説明 |
|---|---|---|
|
3 |
成功 |
メインタスクは完全に完了しました。すべてのサブタスクが解決され、ステップは重大なエラーなしで論理シーケンスに従いました。 |
|
2 |
一部成功 |
タスクの一部が完了しました。一部のサブタスクが未解決のままであるか、非効率性がプロセスに影響を与えています。 |
|
1 |
不成功 |
タスクが完了しませんでした。重要なサブタスクが放棄または未解決であるか、実行が完全に失敗しました。 |
|
番号 |
スコア |
説明 |
|---|---|---|
|
1 |
true |
計画のアクションに適したツールが選択されました。 |
|
0 |
False |
適切なツールが選択されませんでした。 |
|
番号 |
スコア |
説明 |
|---|---|---|
|
1 |
true |
入力キーの完全性、入力値の正確性、および入力形式の正確性はすべて成功しています。
|
|
0 |
False |
1 つ以上の入力キーの完全性、入力値の完全性、または入力形式の完全性が正常に失敗しました。
|