エージェント評価実行結果

  • リリースバージョン: Australia
  • 更新日 2026年03月25日
  • 所要時間:4分
  • エージェント評価の結果ページから、エージェント評価の実行とさまざまな評価スコアの背後にある意味について学びます。

    エージェント評価の概要

    エージェント型評価では、AI エージェントとエージェント型ワークフローがどの程度目的を達成しているかを測定します。Now LLM サービスモデルは、実行ログに基づいて AI エージェントまたはエージェント型ワークフローを判断します。評価実行の結果ページには、タスクの完全性とツールの使用状況を測定する複数のメトリクスとスコアが表示されます。

    全体的なタスク完了評価を実行すると、結果ページに AI エージェントまたはエージェント型ワークフローの推奨アクションが表示されます。推奨アクションは、展開するエージェント型ワークフローが標準に従って実行されていることを確認するための展開または改善の提案を提供します。

    評価結果を確認した後、評価をアーカイブするか、コピーして、同じパラメーターとデータセットで別の評価を実行できます。

    評価結果をレポートとしてエクスポートできます。レポートは、実行レコードの個々のsys_idsとそれぞれのメトリクススコアを含む.csvファイルとしてフォーマットされます。

    AI エージェントの使用状況やその他のアナリティクスの詳細については、AI エージェントスタジオAI エージェントアナリティクスダッシュボードを確認できます。

    評価結果の概要

    実行する評価方法ごとに、結果ページには、エージェントワークフローの全体的なスコアと、成功したレコード評価の割合、および優秀、良好、中、または不満のラベルが表示されます。[ メトリクスのしきい値をカスタマイズ] を選択すると、各ラベルのメトリクスのしきい値を変更できます。

    全体的なタスク完全性の結果に加えて、他のメトリクスの結果の概要を確認できます。

    表 : 1. 全体的なタスク完全性評価実行結果

    ラベル

    説明

    推奨アクション

    デフォルトのしきい値

    優秀

    タスクは一貫して高水準で実行されました。エージェント型ワークフローまたは AI エージェントが正常に動作しています。

    自信を持って進める

    90%–100%

    物品

    ほとんどのタスクは正常に実行されましたが、一部のパフォーマンスの不整合は改善が必要な領域を示しています。

    注意して展開する

    70%–89%

    かなりの数のタスクが完全には完了していませんでした。パフォーマンスが望ましいレベルを下回っています。

    不十分なタスク完了の根本原因を調査する

    50%–69%

    不満

    エージェントのワークフローでは、タスクを適切に完了できないことが一貫しています。重大な問題が存在します。

    展開しない

    0%–49%

    個々のレコードのメトリクススコア

    評価は、エージェントワークフロー実行のログテーブルに対して実行されます。各レコードは、実行する評価計画ごとに個別に採点されます。個々のレコード評価は、次のメトリクスに従って採点されます。

    表 : 2. 全体的なタスクの完全性レコード測定基準スコア全体的なタスクの完全性メトリクスは、AI エージェントがアサインされたタスクを正常に完了したかどうかを評価します。エージェントの実行ログを評価し、必要なすべての手順が実行され、タスクが論理的かつ効果的に完了したことを確認します。

    番号

    スコア

    説明

    3

    成功

    メインタスクは完全に完了しました。すべてのサブタスクが解決され、ステップは重大なエラーなしで論理シーケンスに従いました。

    2

    一部成功

    タスクの一部が完了しました。一部のサブタスクが未解決のままであるか、非効率性がプロセスに影響を与えています。

    1

    不成功

    タスクが完了しませんでした。重要なサブタスクが放棄または未解決であるか、実行が完全に失敗しました。

    表 : 3. ツールパフォーマンスレコード測定基準スコアツールパフォーマンス評価メトリクスは、タスクの完了中に各ステップに最適なツールを選択する AI エージェントの能力を評価します。

    番号

    スコア

    説明

    1

    true

    計画のアクションに適したツールが選択されました。

    0

    False

    適切なツールが選択されませんでした。

    表 : 4. ツール呼び出しレコード 測定基準スコアツール呼び出し評価メトリクスは、AI エージェントが提供する入力の正確性、完全性、および形式を検証することで、AI エージェントがツール呼び出しを正しく構築したかどうかを評価します。

    番号

    スコア

    説明

    1

    true

    入力キーの完全性、入力値の正確性、および入力形式の正確性はすべて成功しています。

    • Input key completeness:1 - True:すべての必須パラメーターが名前の完全一致とともに存在し、予期しないパラメーターは含まれません。
    • Input value correctness: 1 - True – ツール入力値が正しくマッピングされます。
    • Input format correctness: 1 - True – ツール入力が正しい形式である。

    0

    False

    1 つ以上の入力キーの完全性、入力値の完全性、または入力形式の完全性が正常に失敗しました。

    • Input key completeness:0 - False:必須パラメーターがないか、名前が正確に一致しないか、予期しないパラメーターが見つかりました。
    • Input value correctness: 0 - False – ツール入力値が正しくマッピングされていません。
    • Input format correctness: 0 - False – ツール入力が正しい形式ではありません。
    注:
    サブメトリクスの値は、AND 演算子を使用して集計されます。いずれかの値が 0 の場合、ツール呼び出しレコード全体のメトリクススコアは 0 になります。