マルチモデルバッチテスト

Yokohama AI を有効にする

Release

yokohama

ft:locale

ja-JP

ft:publication_title

Yokohama AI を有効にする

ft:clusterId

platai

bundleId

platai

workflow

Platform

マルチモデルバッチテスト

リリースバージョン: Yokohama

更新日 2025年01月30日

所要時間：3分

大規模な発言セットに対して複数の自然言語理解 (NLU) (NLU) モデルをテストし、モデルのパフォーマンスを評価します。テストセットを追加し、複数のモデルをテストして、テスト結果を確認します。

使用方法の概要

マルチモデルバッチテストを使用して、発言と予想されるインテントで構成されるテストセットを作成およびアップロードします。その後、NLU モデルに対してテストを実行できます。

マルチモデルバッチテストは、サポートされているすべての NLU 言語のモデルで動作します。「NLU の言語サポート」を参照してください。

インストール

マルチモデルバッチテストは、ServiceNow® Storeで利用可能なNLU ワークベンチ - 拡張機能アプリの一部です。

マルチモデルバッチテストを使用するには、 NLU ワークベンチ - 拡張機能 (com.snc.nlu.workbench.advanced) プラグインがインスタンスでアクティブになっていることを確認します。詳細については、「NLU ワークベンチ NLU ワークベンチのインストール - 拡張機能とアクティブ化」を参照してください。

テストセット

テストセットは、発言と一致するインテントのリストです。CSV または XLSX (Excel ワークブック) ファイル内のテーブルを使用して、テストセットを作成します。テーブルには、発言用と想定されるインテント用の 2 つの列が含まれている必要があります。テストセットには最大 10,000 行を含めることができます。

NLU モデルのテストを最大限に活用するには、モデルがユーザーから遭遇する可能性が高い発言をテストセットに含める必要があります。テスト発言は、テストするモデルと同じ言語である必要があります。テストセットには、想定されるインテントのない発言も含まれている必要があります。想定されるインテントのない発言を含めると、無関係で予測されるべきではないインテントを検出するモデルの能力を評価するのに役立ちます。

これらのタイプの発言を含めることで、テストでは、インテントを認識してユーザーに応答するモデルの能力をより適切に評価できます。テストセットがモデルのインテントの少なくとも 60% をカバーしていない場合でもテストを実行できますが、推奨されるしきい値が最適ではない可能性があります。

注:

想定されるインテントがモデル内のどのインテントとも一致しない場合、特定のテスト発言はテスト中にスキップされます。

テストセットを作成するには、「テストセットの作成」を参照してください。

テストセットを作成したら、トレーニング済みの NLU モデルをテストできます。テストを開始するには、「マルチモデルバッチテストの実行」を参照してください。

テストを実行すると、テスト結果ページに結果が表示されます。

テスト結果

[テスト結果] ページには、完了したテストと進行中のテストが一覧表示されます。結果ページには、テスト対象のモデル、発言の数、予測率が一目でわかります。

完了したテストを含む [マルチモデルバッチテスト] ページ。

テスト結果の詳細を表示するには、テストセットの名前をクリックします。

[概要] ページには、結果に関するサマリー情報と、予測のブレークダウンを示すグラフィックが表示されます。

[注意が必要なインテント (現在のモデル) (Intents that need attention (Current model))] には、見落とされたインテントと誤ったインテントの上位 5 つが表示されます。インテント名をクリックして、誤って予測されたテスト発言にドリルダウンします。この情報を使用してモデルを改善します。

[ 詳細な結果 ] タブには、テストされた各発言に関する情報が一覧表示されます。ここから、各発言のモデルごとの予測結果と信頼性を確認できます。検索バーを使用するか、フィルターツールや列ヘッダーを操作して、結果をフィルタリングします。

[ エクスポート] をクリックして、テスト結果を CSV ファイルにエクスポートすることもできます。このファイルには、詳細な結果ページと同じ列が含まれています。

テスト結果の詳細については、「モデルをテストおよび公開」を参照してください。