実行完了後に、メトリクスごとのスコアや問題数など、エージェントの全体的なパフォーマンスを評価します。展開前に、品質の問題と改善の機会を診断するための開始点として結果を使用します。
始める前に
エージェント型評価が完了している必要があります。
必要なロール:sn_aia.admin または admin
このタスクについて
自動評価には、選択したさまざまなメトリクスにわたるスコアと推奨事項が含まれます。各出力は、エージェント型 AI 資産の開発と展開に関する意思決定に使用できる情報を提供します。評価結果は、エージェントを本番環境に展開する前に、パフォーマンスパターン、品質の問題、最適化の機会を特定するのに役立ちます。
手順
-
移動先 .
-
結果を確認する自動評価を選択します。
評価の詳細ページが開き、全体的な結果とパフォーマンスメトリクスが表示されます。
-
評価の概要セクションを確認して、全体的なパフォーマンスを把握します。
サマリーには、評価されたすべてのメトリクスにおけるエージェントのパフォーマンスの概要が示されます。重要な情報は次のとおりです。
- 名前やバージョンなどのエージェント型 AI 資産情報
- 評価されたテストケースの合計数
- すべてのメトリクスの平均スコア
- 重大度レベルごとに特定された問題の数
-
各メトリクスの全体的な LLM 判断スコアを確認します。
各メトリクスの一般的な LLM 判定スコアは、評価対象のメトリクス全体の全体的なパターンと傾向を示します。これらのスコアは、エージェント型 AI 資産の現在のバージョンに基づいて、展開に関する一般的な推奨事項を提供します。詳細な結果は次のとおりです。
- 数値スコア
- パフォーマンス評価 (とても良い、良い、中、悪い)
- 個々のレコードの評価
-
問題とそれに関連するトレースを調査します。
エージェント型 AI 資産のパフォーマンスに問題が見つかった場合は、重大度レベル、メトリクス、ユースケース別に分類されます。問題は、「トレース」と呼ばれる特定のインタラクションでソースを追跡できます。問題とそのトレースを確認して、根底にある問題を診断します。問題は重大度レベル別に分類されます。
- 重大:エージェントが正常に機能せず、ユーザーエクスペリエンスが低下する可能性がある問題
- 高:ユーザーエクスペリエンスまたは精度に影響を与える重大な問題
- 中:一部のシナリオでパフォーマンスに影響を与える可能性がある中程度の問題
- 低:全体的な機能への影響が最小限の軽微な問題
-
結果に基づいて最適化を適用します。
自動評価には、評価で見つかった問題に対処するための推奨される最適化を含めることができます。最適化を適用した後、評価を再実行して、動作とパフォーマンスの変化を確認できます。評価実行全体の結果を比較して、改善を追跡します。
タスクの結果
評価されたすべてのメトリクスにわたってエージェントのパフォーマンスを包括的にレビューできます。これらのインサイトを使用して、展開の準備状況について情報に基づいた意思決定を行ったり、追加の開発作業が必要な領域を特定したりします。