プロンプトを評価しています
プロンプトの評価は、プロンプトの開発中および完了後に発生する継続的なプロセスです。
プロンプト評価の概要
プロンプトの有効性を判断するには、テストデータのバッチを評価する必要があります。モデルで生成された応答をコピーし、 Now Assist スキルキット外で評価を実行する必要があります。
プロンプト開発中
プロンプトの開発と並行して、進行中の即席の評価を行う必要があります。この継続的な評価により、観測されたモデル出力に基づいてプロンプトを適応させることができます。プロンプトへの変更を 1 つまたは 2 つの例だけでテストしたくなるかもしれませんが、ノイズに反応しないように、より大きなバッチを調べ、観察されたパフォーマンスの違いの統計的有意性を考慮する必要があります。
最終的なパフォーマンス評価
スキルを展開する前に、開発プロセスから分離された代表的なデータバッチ、つまり「テスト」データでプロンプトをテストする必要があります。プロンプトのオーバーフィットと呼ばれる現象のために、分離されたテストデータを使用したいと考えています。テストに使用されるものと同じデータで生成されたモデル出力に基づいてプロンプトを繰り返し編集すると、パフォーマンスが大幅に過大評価される可能性があります。この結果は、プロンプトが開発で使用される特定の例に過度に専門化される可能性があるためです。通常、この影響は機械学習モデルのパラメーターをテストデータセットに当てはめた場合よりも劇的ではありませんが、同じ基本原則に根ざしているため、回避する必要があります。
評価メトリクス
評価に適切なメトリクスを選択することは重要な考慮事項です。次のリストにいくつかのアプローチを示します。各アプローチはユースケースに応じて多かれ少なかれ適切です。
- 短い世代の分類ベースのアセスメント
このアプローチにはラベル付きレコードが必要であり、ラベルが短く明確に定義された「正解」 (true/false、複数選択肢、カテゴリ選択など) である場合に最適です。このような場合、通常、モデル出力を解析してフォーマットし、精度、再現率、F1 スコアなどのメトリクスを直接計算できます。
- より長い世代のアセスメント
最も興味深い生成 AI のユースケースの多くは、より長いモデル生成を必要とし、考えられる「正解」は数多くあります。このような場合、次のようないくつかの異なる軸に沿って出力を (人間の評価者によって) スコアリングできます。
- 忠実度
生成されたテキストは、スキルプロンプトで指定されたコンテキストに忠実ですか? (忠実さの反対は幻覚で、つまり、モデルが文脈から外れた情報を注入するということです。
- 正確性
生成されたテキストはスキルの指示と比較して正しいですか?
- 有用性
生成されたテキストは、スキルが達成したいタスクに関連して役に立ちますか? (有用性は主観的なものですが、測定してみることが重要です。これを適切に行うには、最終的にスキルを使用する人々のニーズをしっかりと理解する必要があります。
- 流暢さ
生成されたテキストは文法的に正しいですか? タイプミスや一貫性の問題などはありますか?
注:これらのプロパティを「はい」または「いいえ」ではなく、1 〜 5 などのスケールで採点すると便利です。 - 忠実度