エージェント型評価実行の実行

  • リリースバージョン: Australia
  • 更新日 2025年11月13日
  • 所要時間:5分
  • エージェント型 AI 資産をデータセットに照らして評価し、パフォーマンスを監視し、ベンチマークを比較します。

    始める前に

    評価実行には、評価するエージェント型 AI 資産の実行ログデータが必要です。AI エージェントスタジオ でテストするか、Now Assist でエージェント型 AI をトリガーすることで、実行ログデータを作成できます。評価実行を設定した後に実行ログデータを作成することもできます。

    エージェントワークフローのテストの詳細については、「 エージェント型ワークフローの実行を手動でテストする」を参照してください。

    エージェント評価の概要の詳細については、「 エージェント評価実行の一般的なガイドライン」を参照してください。

    必要なロール:sn_aia.admin

    手順

    1. 移動先 すべて > Now Assist スキルキット > エージェント型評価.

      AI エージェントスタジオのテストページから開始することもできます。移動先 すべて > AI エージェントスタジオ > テスト. [ 自動評価の開始 ] を選択して、ガイド付きセットアップにアクセスします。

    2. 評価ホームページで、 新しい評価実行 を選択して、ガイド付きセットアップを開始します。
    3. [ 一般情報を追加] ステップで、名前を追加し、評価するエージェント型 AI 資産を選択します。

      ITSM インシデントのカスタム分類 バージョン v1 を使用して、選択した AI エージェントとして、名前、説明、および解決計画の生成を含む一般情報を追加するための AI エージェントのガイド付きセットアップステップ。

    4. [続行] を選択して次の手順に進みます。

      ステップを移動するたびに、評価実行がドラフトとして自動的に保存されます。いつでも [ 下書きとして保存] を選択できます。

      ガイド付きセットアップを終了する場合は、[ セットアップの終了] を選択できます。[エージェント型評価] ページにリダイレクトされます。

      • [ 保存して終了] を選択すると、評価実行が [エージェント型評価] ページに [ Draft] ステータスで表示されます。
      • [破棄して終了] を選択すると、評価実行のドラフトが削除されます。
    5. 評価メトリクスを選択します。

      デフォルトでは、[タスク全体の完全性評価] が選択されています。複数の評価メトリクスを実行すると、エージェント型 AI 資産のパフォーマンスの包括的な概要が示されます。

      各計画の詳細情報を表示するには、山かっこアイコン 山 かっこアイコン を選択して各評価計画のカードを展開します。

      公開したカスタムメトリクスはオプションとして表示されます。カスタムメトリクスが表示されない場合は、それが公開されていることを確認します。詳細については 、「カスタムメトリクスを作成する 」を参照してください。

      注:
      ツール呼び出し正確性メトリクスは、AI 音声エージェントでは使用できません。

      ツールパフォーマンス評価 エージェント型評価 3 つのオプション (タスク全体の完全性、ツールパフォーマンス、ツール呼び出し) を選択して評価方法を選択するためのガイド付きセットアップステップ。

    6. データセットを構成します。
      1. エージェントまたはワークフローを実行して新しい実行ログを生成するか、以前の実行の実行ログを使用するかを選択します。
        注:
        AI 音声エージェントを評価する場合は、既存の実行ログを使用する必要があります。
      2. 新しい実行ログを生成してデータセットを作成するには、まずテーブルを選択します。

        新しいデータセットを最初から作成する代わりに、[ 過去のデータセットから選択] を選択することで、別の評価で使用した過去のデータセットを使用するように選択できます。データセットを選択すると、ソーステーブル、レコード数、データセットを使用した最後のエージェント型 AI 資産などの詳細を確認できます。

        注:
        AI エージェントアドバイザーで作成されたエージェント型 AI 資産を評価している場合は、データセットのオプションが自動的に入力されます。値は引き続き編集できます。
        表 : 1. 新しい実行ログのデータセットフォームの構成

        フィールド名

        説明

        テーブル

        エージェント型 AI 資産がタスクの実行と実行の作成に使用するレコードのソーステーブル。

        追加されたフィルター

        実行ログデータの生成に使用するエージェント型 AI 資産のレコードリストを絞り込むための条件。

        使用するレコードの数

        データセット内の評価対象レコードの最大数。データセットに最大数よりも多くのレコードが含まれている場合、それ以上のレコードは無視されます。

        タスク

        実行するエージェント型 AI 資産に与えられた発言。ピルピッカーを使用して、タスクの動的入力を選択します。たとえば、開始手順を「 {{incident.number}} の解決をサポートしてください」に設定します。レコードからの入力は二重中括弧で囲む必要があります。

        エージェントまたはワークフローに関するその他の詳細

        テーブルレコード情報を補足する大規模言語モデル (LLM) に与えられる情報。たとえば、奨学制度のエージェント型ワークフローには通常の返還手当が必要です。これはナレッジ記事を通じて提供できます。

        ユーザーとして実行

        エージェント型 AI 資産を実行するためにテーブルレコードに関連付けられたユーザー。たとえば、ユースケースに応じて、ユーザーを要求者または履行者として実行できます。

        名前

        データセットの名前。これは、同じデータセットを再度使用する場合に役立ちます。

        説明

        データセット内に含まれるレコードの説明。これは、同じデータセットを再度使用する場合に役立ちます。

        注:
        新しい実行ログを作成する場合、評価を送信するユーザーは、エージェント型 AI 資産とそのコンポーネントの ACL に合格する必要があります。正しいロール要件がないと、実行ログでアクセス拒否が報告され、評価は失敗します。詳細については、「 エージェント型 AI のセキュリティ 」を参照してください。

        [新しい実行ログを生成] が選択されました。ステータスと優先度フィルターが適用されているサンプルレコード

        使用するレコード数、タスク、エージェントまたはワークフローに関するその他の詳細、ユーザーとしての実行など、新しい実行ログを生成するためのその他のオプション

        表 : 2. 既存の実行ログのデータセットフォームを構成

        フィールド名

        説明

        追加されたフィルター

        データセットに含める AI 実行ログレコードを絞り込むための条件。

        注:
        AI 音声エージェント実行ログのデータセットを作成するためのフィルター条件はサポートされていません。

        使用するレコードの数

        データセット内の評価対象レコードの最大数。データセットに最大数よりも多くのレコードが含まれている場合、それ以上のレコードは無視されます。

      3. [ プレビューを表示 ] を選択して、指定した条件に基づいてレコードリストを表示します。
        プレビューリストで特定のレコードを選択して、レコードを絞り込むことができます。選択されていないレコードはデータセットに含まれません。
    7. ガイド付きセットアップの最後のステップでエージェント評価の詳細を確認します。

      変更する場合は、[ 戻る] を選択して前のステップに移動するか、サイドバーでステップを選択できます。

      ガイド付きセットアップのツールパフォーマンスレビューページ。

    8. [ 評価の開始] を選択します。

    タスクの結果

    評価実行が実行されます。完了時間はさまざまですが、完了後、[エージェント型評価] ページから評価を選択して結果を表示できます。

    結果ページのメトリックの詳細については、「 エージェント評価の実行結果」を参照してください。