プロンプトの評価
Now Assist スキルキット評価ツールを使用して、スキルプロンプトの有効性を評価します。
始める前に
必要なロール:sn_skill_builder.admin
手順
- 次のように移動する。 All (すべて) > Now Assist スキルキット > ホーム.
- 評価するスキルを選択します。
- [ 評価 ] タブを選択します。
-
テーブルまたはデータコレクションからデータセットを作成します。
表 : 1. データセットの作成 メソッド ステップ テーブルからのデータセットの作成 - データセットに名前と説明を付けます。
- [テーブル] を選択します。
- 使用するテーブルを見つけます。
- 使用するレコードの最大数を選択します。
- 条件を追加します。
- [プレビューの生成] を選択します。
- マッピングを選択します。
- [Create (作成)] を選択します。
データコレクションからデータセットを作成する - データセットに名前と説明を付けます。
- [データコレクション] を選択します。
- Now Assist データキット で作成したデータコレクションを選択します。
- [プレビューの生成] を選択します。
- マッピングを選択します。
- [Create (作成)] を選択します。
-
[評価実行] の [追加]
を選択します。
- 評価実行に名前と説明を付けます。
- 評価するプロンプトを 1 つ以上選択します。
- [保存して次へ] を選択します。
- データセットを選択します。
- [保存して次へ] を選択します。
- [ 品質 ] タブを展開します。
-
評価するメトリクスを選択します。
表 : 2. 評価メトリクス アセスメント方法 メトリクス 説明 人間 人間によるフィードバック 人間による評価は、応答を生成するすべてのプロンプト実行で使用できるデフォルトのオプションです。満足度に基づいて、賛成または反対で応答を評価できます。評価の選択を説明するために、より詳細なフィードバックを提供するオプションもあります。 自動化 正確性 正確性メトリクスは、生成された応答の正確性、完全性、適切性、および文章品質を指定された指示に照らして評価します。このメトリクスは、テキストが指示を正確に反映していること、すべての重要なポイントをカバーしていること、関連性を保持していること、および適切に記述されていることを確認するのに役立ちます。 自動化 ゴールデンレスポンスによる正確性 ゴールデンレスポンスを使用した正確性メトリクスでは、事前定義された参照を使用して、生成された応答の正確性、完全性、適切性、および記述品質を指定された指示に照らして評価します。このメトリクスは、テキストが指示を正確に反映していること、すべての重要なポイントをカバーしていること、関連性を保持していること、および適切に記述されていることを確認するのに役立ちます。可能な限り、このメトリクスを使用してください。 自動化 信実 忠実度メトリクスは、生成された応答が、指定された指示で提供された情報とコンテキストを正確に反映しているかどうかを評価します。この指標は、テキストに幻、捏造された事実、または根拠のない結論が含まれていないことを確認し、ソース資料との整合性を維持するのに役立ちます。 - [保存して次へ] を選択します。
- 行った評価の選択肢をレビューします。
- [保存して評価] を選択します。
- オプション:
人間による評価を行います。
- [人間による評価] を選択します。
- 評価で使用するレコードを選択します。
- プロンプトを展開して結果を読みます。
-
賛成または反対のアイコン
を選択して、評価を行います。
- さらに情報を追加し、[ 送信] を選択します。