エージェントワークフロー評価実行の一般的なガイドライン
エージェント評価の実行と、データセットに対してエージェントワークフローを評価して完了、パフォーマンス、およびツールの実行を確認するためのさまざまな推奨事項について説明します。
エージェント評価実行の概要
エージェントワークフローの評価実行では、タスクの完了、パフォーマンス、ツールの実行など、さまざまなメトリクスのエージェントワークフローの実行が評価されます。エージェントワークフローのログを使用してデータセットを作成できます。
エージェント評価を実行するタイミング
- 十分なデータを収集した後に実行します。
- 評価実行は、インスタンスのエージェントワークフローアクティビティのログに対して測定されます。
- 重大な変更を行う場合は、エージェントによる評価を実行します。
- エージェントワークフローを更新した後、エージェントによる評価を実行して、新しいバージョンの有効性を追跡できます。
評価方法の選択
- 評価方法のオプションを確認します。
- エージェント評価 ガイド付きセットアップ は、測定対象や動作方法など、各評価方法に関する情報を提供します。サイドバーの一般的な質問で、利用可能なメトリクスに関する回答を確認することもできます。
- 一度に複数の評価方法を使用します。
- 複数の評価方法を選択することで、エージェントワークフローのパフォーマンスの全体像をより正確に把握できます。
データセットの作成
- フィルターを使用して、適切なデータをターゲットにします。
- 実行ログにフィルターを追加して、エージェントワークフローを測定する対象を正確に制御します。さまざまな期間をフィルタリングして、ワークフローの最新バージョンを測定していることを確認します。[ プレビューを表示 ] を選択すると、レコードリストを表示できます。チェックボックスを使用して、測定対象の個々のレコードを選択することもできます。