エージェント型評価に関するよくある質問
評価の設定と実行に関するよくある質問への回答をご覧ください。
- 自動評価の前に何か準備しておく必要がありますか?
- 開始する前に、次のことを確認してください:
- プレイグラウンドでエージェントまたはワークフローをテストします。明らかな問題を早期に発見します。自動化された評価は、より深い検証に最適です。
- テストシナリオを生成している場合、またはセットアップ中に以前のエージェントまたはワークフロー実行からのシナリオを使用している場合は、テーブルに必要なすべての入力があることを確認します。
- 十分なシナリオを準備します。少なくとも 100 個をお勧めします。あなたの評価は、エージェントがどのような状況に陥ったかによって決まります。
- 成功とは何かを定義します。エージェントにとって適切な出力は何かを明確にします。
- 最初の自動評価を設定する方法は?
- 評価を設定するには、ガイド付きフローに従います:
- エージェントまたはワークフローとそのバージョンを選択します。
- メトリクス (ビルトインまたはカスタム) を選択します。
- 既存のデータセットを使用するか、ビルド方法を決定します。
- カスタムメトリクスを作成する必要があるのはいつですか?
- 独自の評価基準があり、 ServiceNow のビルトインメトリクスでカバーされないワークフローまたはエージェント固有の動作を測定する場合は、カスタムメトリクスを作成します。たとえば、次のようになります。
- エージェントの応答に特定のフレーズが表示されるかどうかを確認します。
- 応答の長さを測定して、詳細さまたは簡潔さを評価します。
- エージェント型評価用のデータセットをビルドする方法は?
- エージェント型評価用のデータセットを構築する方法は2つありますが、まずデータセットとは何かを明確にしておきましょう。データセットには、AI エージェントまたはワークフローがインシデント、ケース、タスクなどのレコードを処理するときに何が起こるかをキャプチャする実行ログを含める必要があります。次のいずれかの方法でデータセットを作成できます。
- 以前のエージェント実行またはワークフロー実行からのログを使用、または
- セットアップ後にエージェントまたはワークフローを実行して、新しいログを生成します。
- 自動評価の後の次は何ですか?
- 評価結果を確認して、次のことを行います:
- エージェントまたはワークフローの構成ギャップを特定します
- 展開の準備状況を評価
- 入力または説明に関する問題のツールパフォーマンスを分析します
- 個々の実行とメトリクススコアにドリルダウンする
- カスタムメトリクスを作成するにはどうすればよいですか?
- 数ステップでカスタムメトリクスを作成します:
- メトリクスに名前を付けて説明します。
- その評価スコープ (エージェント型ワークフロー、エージェント、またはその両方) を定義します。
- 測定内容、仕組み、および出力形式を指定します。
- メトリクスの入力を追加し、スクリプトベースのメトリクスを記述します。
- 保存して公開し、使用可能にします。
- 評価結果をどのように解釈しますか?
- 選択したメトリクスに基づいて、実行ごとにすべてのメトリクスのスコアが表示されます。スコアの意味を理解するには、「メトリクスガイド」を参照してください。組織の成功と失敗の定義に合わせてメトリクスのしきい値をカスタマイズすることもできます。
- 評価の進捗状況を追跡するにはどうすればよいですか?
- 評価には時間がかかる場合がありますが、ページにとどまる必要はありません。ホームページから、すべての評価を追跡し、アクションが必要かどうかを確認することもできます。
- カスタムメトリクスの作成中にパーサーツールはどのように使用しますか?
- エージェント型評価のカスタムメトリクスを作成する場合、メトリクスの入力の指定は任意です。デフォルトでは「実行計画レコードsys_id」が含まれています。また、実行ログから構造化データを取得するパーサーツールも提供されているため、XML や JSON を手動で解析する必要はありません。ツール出力を使用して、パーサーツールの出力にアクセスできます。