プロンプトを評価
Now Assist スキルキット評価ツールを使用して、スキルプロンプトの有効性を評価します。
始める前に
必要なロール:sn_skill_builder.admin
手順
- 移動先 すべて > Now Assist スキルキット > ホーム.
- 評価するスキルを選択します。
- [プロンプトパフォーマンス] タブを選択します。
- [評価実行] タブを選択します。
-
テーブルまたはデータコレクションからデータセットを作成します。
表 : 1. データセットを作成 メソッド ステップ テーブルからデータセットを作成する - データセットに名前と説明を付けます。
- [テーブル] を選択します。
- 使用するテーブルを見つけます。
- 使用するレコードの最大数を選択します。
- 条件を追加する。
- [プレビューの生成] を選択します。
- マッピングを選択します。
- [作成] を選択します。
データコレクションからデータセットを作成する - データセットに名前と説明を付けます。
- [データコレクション] を選択します。
- Now Assist データキット で作成したデータコレクションを選択します。
- [プレビューの生成] を選択します。
- マッピングを選択します。
- [作成] を選択します。
-
[評価実行] の追加アイコン
を選択します。
- 評価実行に名前と説明を付けます。
- 評価するプロンプトを 1 つ以上選択します。
- [ 保存] > [次へ] を選択します。
- データセットを選択します。
- [ 保存] > [次へ] を選択します。
- [ 品質 ] タブを展開します。
-
評価するメトリクスを選択します。
表 : 2. 評価メトリクス アセスメント方法 メトリクス 説明 人間 人間によるフィードバック 人間による評価は、応答を生成するすべてのプロンプト実行で使用できるデフォルトのオプションです。満足度に基づいて、賛成または反対で応答を評価できます。評価の選択を説明する、より詳細なフィードバックを提供するオプションもあります。 オートメーション 正確性 正確性メトリクスは、生成された応答の正確性、完全性、適切性、および文章品質を指定された指示に照らして評価します。このメトリクスは、テキストが指示を正確に反映していること、すべての重要なポイントをカバーしていること、関連性を保持していること、および適切に記述されていることを確認するのに役立ちます。 オートメーション ゴールデンレポンスによる正確性 ゴールデンレスポンスを使用した正確性メトリクスでは、事前定義された参照を使用して、生成されたレスポンスの正確性、完全性、適切性、および文章品質を指定された指示に照らして評価します。このメトリクスは、テキストが指示を正確に反映していること、すべての重要なポイントをカバーしていること、関連性を保持していること、および適切に記述されていることを確認するのに役立ちます。可能な限り、このメトリクスを使用する必要があります。 オートメーション 忠実度 忠実度メトリクスは、生成された応答が、指定された指示にある情報とコンテキストを正確に反映しているかどうかを評価します。この指標は、テキストに幻、虚構の事実、または根拠のない結論が含まれていないことを確認し、ソース資料との整合性を維持するのに役立ちます。 - [ 保存] > [次へ] を選択します。
- 評価の選択内容をレビューします。
- [ 保存して評価] を選択します。
- オプション:
人間による評価を行います。
- [ 人間による評価] を選択します。
- 評価で使用するレコードを選択します。
- プロンプトを展開して結果を読みます。
-
または反対のアイコンを選択して、評価を行ってください。
- さらに情報を追加し、[ 送信] を選択します。