エージェント評価実行結果

  • リリースバージョン: Zurich
  • 更新日 2025年07月31日
  • 所要時間:3分
  • エージェント評価の結果ページから、エージェント評価の実行とさまざまな評価スコアの背後にある意味について学びます。

    エージェント評価の概要

    エージェント評価は、エージェントワークフローがどの程度目的を達成しているかを測定します。Now LLM サービスモデルは、そのエージェントワークフローの実行ログに基づいてエージェントワークフローを判断します。評価実行の結果ページには、タスクの完全性とツールの使用状況を測定する複数のメトリクスとスコアが表示されます。

    タスク完了評価全体を実行すると、結果ページにワークフローの推奨アクションが表示されます。推奨アクションは、展開するエージェント ワークフローが標準に従って実行されていることを確認するのに役立つ展開または改善の提案を提供します。

    AI エージェントの使用状況やその他のアナリティクスの詳細については、AI エージェントスタジオAI エージェントアナリティクスダッシュボードを確認できます。

    評価結果の概要

    実行する評価方法ごとに、結果ページには、エージェントワークフローの全体的なスコアと、成功したレコード評価の割合、および優秀、良好、中、または不満のラベルが表示されます。[ メトリクスのしきい値をカスタマイズ] を選択すると、各ラベルのメトリクスのしきい値を変更できます。

    表 : 1. 全体的なタスク完全性評価実行結果

    ラベル

    説明

    推奨アクション

    デフォルトのしきい値

    優秀

    タスクは一貫して高水準で実行されました。エージェントワークフローはうまく機能しています。

    自信を持って進める

    90%–100%

    物品

    ほとんどのタスクは正常に実行されましたが、一部のパフォーマンスの不整合は改善が必要な領域を示しています。

    注意して展開する

    70%–89%

    かなりの数のタスクが完全に完了していませんでした。パフォーマンスが望ましいレベルを下回っています。

    不十分なタスク完了の根本原因を調査する

    50%–69%

    不満

    エージェントのワークフローでは、タスクを適切に完了できないことが一貫しています。重大な問題が存在します。

    展開しない

    0%–49%

    個々のレコードのメトリクススコア

    評価は、エージェントワークフロー実行のログテーブルに対して実行されます。各レコードは、実行する評価計画ごとに個別に採点されます。個々のレコード評価は、次のメトリクスに従って採点されます。

    表 : 2. 全体的なタスクの完全性レコード測定基準スコア全体的なタスクの完全性メトリクスは、AI エージェントがアサインされたタスクを正常に完了したかどうかを評価します。エージェントの実行ログを評価し、必要なすべての手順が実行され、タスクが論理的かつ効果的に完了したことを確認します。

    番号

    スコア

    説明

    3

    成功

    メインタスクは完全に完了しました。すべてのサブタスクが解決され、ステップは重大なエラーなしで論理シーケンスに従いました。

    2

    一部成功

    タスクの一部が完了しました。一部のサブタスクが未解決のままであるか、非効率性がプロセスに影響を与えています。

    1

    不成功

    タスクが完了しませんでした。重要なサブタスクが放棄または未解決であるか、実行が完全に失敗しました。

    表 : 3. ツールパフォーマンスレコード測定基準スコアツールパフォーマンス評価メトリクスは、タスクの完了中に各ステップに最適なツールを選択する AI エージェントの能力を評価します。

    番号

    スコア

    説明

    1

    True

    計画のアクションに適したツールが選択されました。

    0

    False

    正しいツールが選択されませんでした。

    表 : 4. ツール呼び出しレコード 測定基準スコアツール呼び出し評価メトリクスは、AI エージェントが提供する入力の正確性、完全性、および形式を検証することで、AI エージェントがツール呼び出しを正しく構築したかどうかを評価します。

    番号

    スコア

    説明

    1

    True

    入力キーの完全性、入力値の完全性、および入力形式の完全性は正常でした。

    0

    False

    1 つ以上の入力キーの完全性、入力値の完全性、または入力形式の完全性が成功しませんでした。