NLU モデルのパフォーマンス

  • リリースバージョン: Yokohama
  • 更新日 2025年02月04日
  • 所要時間:9分
  • NLUモデルのパフォーマンスを使用して、エンドユーザーの確認に基づいて、モデルが仮想エージェント (VA) のインテントをどの程度予測したかを確認します。

    使用方法の概要

    NLUモデルのパフォーマンスアプリケーションは、NLUモデルが発言から VA ユーザーのインテントをどの程度正確に予測しているかの分析とレポートを提供します。VA の NLU モデルが更新、公開、および展開されると、 NLU モデルパフォーマンスを使用して、行うインテント予測の有効性を確認できます。これらの予測がスキップされるのは、モデルに対して十分に高い信頼スコアを持つインテントを予測できないためです。VA トピック予測を改善するために、サポートされていない VA 発言は分析のためにクラスターにグループ化され、分析の結果を特定するレポートが生成されます。

    このアプリケーションにアクセスするには、nlu_admin または admin ロールを使用して、 All (すべて) > NLU ワークベンチ > パフォーマンス.

    注:
    NLUモデルパフォーマンスを使用するには、まずインスタンスに少なくとも 5,000 の VA 発言が必要です。nlu_admin ロールでは、 sn_nlu_workbench.glide.nlu.performance.min_clustering_records プロパティをリセットすることでこの制限を変更できます。

    インストール

    NLU モデルパフォーマンスは、 ServiceNow® Storeで利用可能なアプリケーションです。このアプリケーションを使用するには、 NLU ワークベンチ - 拡張機能 (sn_nlu_workbench) プラグインがインスタンスでアクティブになっていることを確認します。詳細については、「NLU ワークベンチNLU ワークベンチのインストール - 拡張機能とアクティブ化」を参照してください。NLU モデルのパフォーマンスは VA からのデータに依存しているため、Glide 仮想エージェント (com.glide.cs.chatbot) プラグインもアクティブであることを確認してください。「 仮想エージェントのアクティブ化」を参照してください。

    ServiceNow NLU の対話型インターフェース設定の構成

    NLUパフォーマンスの追跡に役立てるには、まず 仮想エージェント で対話型インターフェース (CI) 設定を構成する必要があります。これらの設定にアクセスするには、[ 仮想エージェントの NLU モデルパフォーマンス ] ランディングページの上部に移動し、[ 対話型インターフェース設定] をクリックします。このアクションにより、下の画像に示すように、仮想エージェントの CI 設定ページが表示されます。

    対話型インターフェースの設定

    設定を構成するには、virtual_agent_admin ロールまたは admin ロールを使用する必要があります。構成ガイダンスについては、「 仮想エージェントでの NLU の実装」 および 「仮想エージェントで NLU 言語を有効にする」の設定を参照してください。

    ユーザーインターフェイス (UI) の確認

    NLU モデルパフォーマンス UI は、以下にリストされている部分で構成されています。次の画像で強調表示されている NLU モデルパフォーマンスのデフォルトのランディングページを示しています。
      • ユーザーが VA とやり取りするときに発生するシナリオを説明するデータを示す [ パフォーマンス ] タブとその色分けされたチャート。このグラフは 3 色の網掛けで分割されており、それぞれがユーザー シナリオを表しています。チャート内のテキストとパーセンテージを含む行は、凡例と呼ばれます。凡例の 1 行目の 3 つのシナリオの下には、2 行目に 2 つの結果シナリオがあります。凡例の下のバーは、その上のシナリオの色に対応しています。これらのバーのサイズは、各シナリオのパーセンテージ値に基づいて変化します。
      • たとえば、濃い青色のバーは、この VA ユーザーのバッチの 10% が、VA チャットボットの会話に使用する正しいトピックがシステムから提示されたことを確認したこと、および 58% のユーザー (濃い赤色のバーで表示) が、提示されたトピックが正しくないことを確認したことを示しています。これら 2 つのシナリオの間に存在するのは、ユーザーの 32% (暗褐色のバーで表される) がまったく確認しなかったことを示すシナリオです。
      • [ すべてのバーを表示 ] フィルターをいつでも切り替えて、チャート内の色付きのバーとそれに関連するシナリオを表示または非表示にすることをお勧めします。また、NLU モデルのパフォーマンスに初めてアクセスすると、チャートのデフォルトビューにはシナリオの最初の行と棒の最初の行のみが表示されます。
      • 表示しているシナリオに応じて、他のビューも表示できます。たとえば、最初に NLU モデルのパフォーマンスにアクセスし、凡例の最初の行のシナリオをクリックすると、他の 2 つのシナリオの棒が非表示になります。これにより、フォーカスしているシナリオが他のシナリオから部分的に分離されるため、UI がすっきりと整理されます。これらのアクションによってデータが変更されるわけではなく、グラフ内の凡例と棒のさまざまなビューが表示されるだけです。
    • [サポートされていない発言] タブには、パフォーマンス分析で使用するためにクラスターにグループ化された発言が表示されます。UI のこのセクションでは、専門家フィードバックループアプリケーションへの移動とアプリケーションへの復帰ができます。また、分析を実行することもできます。

      サポートされていない発話は、無関係な発話とは異なります。詳細については、「NLU での無関係の検出」を参照してください。

    • 棒グラフの下にある [ パフォーマンスの詳細 ] セクション。このセクションには、[ 発言]、[ 予測されるインテント]、[ 予測モデル]、および [予測結果] の 4 つの列があります。このセクションに表示される詳細は、その上の凡例データや棒データとやり取りします。

    NLU モデルのパフォーマンス

    VA ユーザーシナリオのレビュー

    UI の [凡例] セクションには、テキストとパーセンテージに情報アイコンが付いています。アイコンをポイントすると、そのユーザーシナリオの定義が呼び出されます。定義については、以下の表を参照してください。

    表 : 1. シナリオ定義
    シナリオ 定義
    ユーザーが正しいことを確認しました 正しいトピックがエンドユーザーに提示され、エンドユーザーが正しいことを確認しました。
    トピックが起動され、ユーザーが正しいことを確認しました トピックが起動され、ユーザーがそれが必要なトピックであることを確認しました。
    トピックメニューが表示され、ユーザーが 1 つ選択しました 複数のトピックがメニューとしてユーザーに表示され、ユーザーはニーズに対応するトピックを 1 つ選択しました。
    ユーザーが確認を行っていません トピックが起動されましたが、ユーザーがそれが自分のニーズに合っているかどうかを確認しませんでした。
    予測は行われず、代替トピックが起動されました 予測は行われず、代替トピックが起動されました。
    トピックが起動されましたが、ユーザーの確認はありません トピックが起動されましたが、ユーザーがそれが正しいかどうかを確認しませんでした。
    ユーザーが正しくないことを確認しました 提示されたトピックはエンドユーザーのニーズに対応しておらず、ユーザーがトピックが正しくないことを確認しました。
    トピックが起動され、ユーザーが正しくないことを確認しました トピックが起動され、ユーザーがそれが正しくないことを確認しました。
    トピックメニューが表示されましたが、ユーザーは何も選択していません 複数のトピックがメニューとしてユーザーに表示され、ユーザーはどのトピックも関連性がないと判断し、トピックを選択しませんでした。

    言語フィルターとモデルフィルターの使用

    [パフォーマンス] タブには、言語フィルターとモデルフィルターが表示されます。その横には、グラフの凡例と棒の上に設定した最新の日付範囲の値も表示されます。[言語] フィルターをクリックすると、NLUで使用可能なすべての言語が表示されます。[モデル] フィルターをクリックして、インスタンスで利用可能なすべての予測モデルを表示します。言語フィルターのデフォルト設定は [すべての言語] で、[モデル] フィルターのデフォルト設定は [すべてのモデル] です。

    言語フィルターとモデルフィルターは相互に作用します。たとえば、[言語] フィルターで [フランス語-fr] を選択すると、次の画像に示すように、フランス語を使用するインスタンス内のすべての予測モデルが [モデル] フィルターに自動的に表示されます。言語フィルターとモデルフィルターは相互に作用します。

    他にもインタラクションがあります。たとえば、NLU モデルパフォーマンスランディングページのデフォルトビューでは、次のようになります。
    • [モデル] フィルターから特定のモデルを選択すると、[言語フィルター] の値が更新され、選択したモデルの言語が表示されます。
    • 言語フィルターから特定の言語を選択すると、モデルフィルターにはその選択した言語のモデルのみが表示されます。
    [言語とモデル] フィルターの下に、[ 翻訳された会話を含める ] スイッチがあります。動的言語翻訳を使用してプライマリ言語に翻訳された VA 会話のパフォーマンスを含めるには、スイッチを右に切り替えて、色をグレーからグリーンに変更します。これを行うと、チャートの凡例のバーの位置と色も変更される場合があります。動的言語翻訳は、 対話型インターフェースの設定で管理できます。

    日付範囲の設定

    [パフォーマンス] タブで、[ 日付範囲 ] を使用して、システムが VA データをプルする期間を定義します。[過去 30 日間 (Past 30 days)]、[過去 60 日間 (Past 60 days)]、[過去 90 日間 (Past 90 days)]、または [カスタム範囲 (Custom range)] を選択します。日付範囲をさかのぼるほど、分析に含まれるデータが多くなります。

    90 日を超えるデータをレポートでカバーする場合は、カスタム範囲を使用します。

    分析の実行

    パフォーマンス分析を実行するには、[ サポートされていない発言 ] タブをクリックします。UI のこのセクションには、 NLU トピック予測を行わなかった、または予測されたトピックが正しくないことを VA エンドユーザーが確認した VA 発言を含む展開可能なクラスターの行が表示されます。次に行うことは、 専門家フィードバックループをクリックすることです。このアクションにより、 NLU 専門家フィードバックループ アプリケーションに移動し、VA からプルされた発言をレビューしてフィードバックを提供します。

    図 : 1. サポートされていない発言の確認
    専門家フィードバックループに移動して NLU モデルのパフォーマンスに戻る

    専門家フィードバックループアプリケーションを終了して NLU モデルのパフォーマンスに戻る場合は、任意のクラスターの キャレット アイコンをクリックして開きます。クラスター内では、次の画像に示すように、最も代表的な VA 発言を表示できます。

    図 : 2. クラスター内の上位の代表的な発言の確認
    発言のクラスターを開いて、その中の VA 発言を確認できるようにします。

    [解析を実行] または [解析を再実行] のいずれか利用可能な方をクリックします。分析を実行するたびに、最新の VA 発言が分析にプルされます。