エージェントワークフローの評価

  • リリースバージョン: Zurich
  • 更新日 2025年07月31日
  • 所要時間:3分
  • 選択したデータセットに対してエージェントワークフローを評価してパフォーマンスを監視し、さまざまなベンチマークに対して評価します。

    始める前に

    評価実行には、評価するエージェントワークフローの実行ログデータが必要です。新しいエージェントワークフローの場合は、 AI エージェントスタジオでテストして実行ログを作成できます。エージェントワークフローのテストの詳細については、「 エージェントワークフローのテスト」を参照してください。

    エージェント評価の概要の詳細については、「 エージェント評価実行の一般的なガイドライン」を参照してください。

    必要なロール:sn_aia.admin

    手順

    1. 移動先 すべて > Now Assist スキルキット > エージェント型評価.

      AI エージェントスタジオのテストページから開始することもできます。移動先 すべて > AI エージェントスタジオ > テスト. エージェント ワークフローを選択し、 評価実行の設定 を選択します。Now Assistスキルキットにリダイレクトするかどうかを尋ねるモーダルが表示されます。[スキルキットを開く] を選択します。ガイド付きセットアップにリダイレクトされます。

    2. 評価ホームページで、 新しい評価実行 を選択して、ガイド付きセットアップを開始します。
    3. [一般情報を追加] ステップで、名前を追加し、評価するエージェントワークフローを選択します。

      インシデントの分類 エージェントワークフロー 名前と説明を含む一般情報を追加し、選択したエージェントワークフローとしてインシデントを分類するためのエージェント評価ガイド付きセットアップ手順。

    4. [続行] を選択して次の手順に進みます。

      ステップを移動するたびに、評価実行がドラフトとして自動的に保存されます。いつでも [ 下書きとして保存] を選択できます。

      ガイド付きセットアップを終了する場合は、[ セットアップの終了] を選択できます。[エージェント評価 (Agentic Evaluations)] ページにリダイレクトされます。

      • [保存して終了] を選択すると、評価実行が [エージェント評価] ページの一覧に [Draft] のステータスで表示されます。
      • [破棄して終了] を選択すると、評価実行のドラフトが削除されます。
    5. 評価方法を選択します。

      デフォルトでは、[タスク全体の完全性評価] が選択されています。一度に複数の評価メソッドを実行すると、エージェントワークフローのパフォーマンスのより包括的な概要を提供するのに役立ちます。

      各計画の詳細を表示するには、二重山かっこアイコン ( 二重山かっこアイコン)を選択して、各評価計画のカードを展開できます。

      公開したカスタムメトリクスもオプションとして表示されます。カスタムメトリクスが表示されない場合は、それが公開されていることを確認してください。詳細については 、「カスタムメトリクスを作成する 」を参照してください。

      インシデントを分類 エージェントワークフロー 4 つのオプション (全体的なタスクの完全性、計画、ツールパフォーマンス、およびツール呼び出し) を選択して評価方法を選択するためのエージェント評価ガイド付きセットアップステップ。

    6. データセットを選択します。
      1. 既存のデータセットを選択するか、独自のデータセットを作成します。
      2. 新しいデータセットを作成するには、フォームに入力します。
        表 : 1. データセットフォームを選択

        フィールド名

        説明

        名前

        データセットの名前。

        説明

        データセットとその目的の一般的な説明。

        最大レコード数 (オプション)

        評価を実行するデータセット内のレコードの最大数。データセットに最大レコード数よりも多くのレコードがある場合、最大レコード数を超えるレコードは、その評価実行で無視されます。

        フィルター

        データセットに含める AI 実行ログレコードを絞り込むための条件。デフォルトでは、評価しているエージェントワークフローがフィルター条件として選択されます。

        最大レコード数がなく、ユースケースフィールドのフィルターが [インシデントを分類] であるエージェント評価データセットを分類するインシデントを分類します。

      3. [ プレビューを表示 ] を選択して、指定した条件に基づいてレコードリストを表示します。
        プレビューリストで一部のレコードを選択するだけで、レコードをさらに絞り込むことができます。選択されていないレコードはデータセットに含まれません。
    7. ガイド付きセットアップの最後のステップでエージェント評価の詳細を確認します。

      変更したい場所に気付いた場合は、[ 戻る ] を選択して前のステップに移動するか、サイドバーでステップを選択できます。

      ガイド付きセットアップの [インシデントの分類 (Categorize Incident)] エージェント評価レビューページ。

    8. [ 評価の開始] を選択します。

    タスクの結果

    評価実行が実行されます。評価の実行にかかる時間はさまざまですが、完了したら、[エージェント評価] ページから評価を選択して結果を表示できます。

    結果ページのメトリックの詳細については、「 エージェント評価の実行結果」を参照してください。