クラスタリングソリューションを作成してトレーニングする

  • リリースバージョン: Yokohama
  • 更新日 2025年01月30日
  • 所要時間:8分
  • 類似レコードをまとめて処理したり、パターンを判断したりできるように、当該レコードをクラスターにグループ化します。

    始める前に

    必要なロール:ml_admin または admin
    重要:
    Yokohamaリリースでは、分類、クラスタリング、および類似性フレームワークのモデルでワークフローソリューションが使用されます。これらは事前にトレーニングされているため、新しいソリューションにワードコーパスは必要ありません。ワードコーパスを含む既存のソリューションがアップグレード後に再トレーニングされると、それらはワークフローソリューションになり、[ワードコーパス] フィールドはフォームから削除されます。

    このタスクについて

    この手順例では、最近発生した類似のインシデントをグループ化して重大なインシデントを識別するソリューションを作成します。

    暗号化されたトレーニングデータの使用については、「 予測インテリジェンスでのデータ暗号化」を参照してください。

    手順

    1. ソリューション定義に必要なアプリケーションスコープ内にいることを確認し、次に移動します: All (すべて) > 予測インテリジェンス > クラスタリング > ソリューション定義.
    2. [クラスタリング定義] リストで、[ 新規] を選択します。
    3. [クラスタリング定義] フォームで、次のガイダンスに従ってフィールドを設定します。
      フィールド
      ラベル クラスタリングソリューションの一意の名前を入力します。たとえば、このユースケースでは、「グループインシデントから重大なインシデント」と入力します。
      [Name (名前)] ソリューションラベルを入力すると、ラベル値に基づいてシステムによってアサインされた名前がこのフィールドに自動的に入力されます。
      ワードコーパス

      従来のクラスタリングソリューションを使用している場合は、定義フォームの [ ワードコーパス ] フィールドから関連するワードコーパスを選択できます。

      注:
      Yokohamaリリースでは、事前トレーニング済みモデルが代わりに使用されるため、ワードコーパスは必要ありません。[ ワードコーパス ] フィールドは、事前トレーニング済みモデルの定義フォームには表示されません。

      詳細については、「ワードコーパスの作成」を参照してください。

      テーブル

      1 つ以上のクラスターにグループ化するレコードタイプを含むテーブルを選択します。たとえば、このユースケースでは、重大なインシデント分析のためにグループ化するインシデントレコードが含まれている [インシデント [incident]] テーブルを選択します。

      テーブル値をアサインすると、現在の条件に一致するレコード件数を示すリンクがフォームに表示されます。

      フィールド クラスターに含めるレコードをシステムで特定できるように、1 つ以上の入力フィールドタイプを選択します。このユースケースでは、[簡単な説明] を使用します。
      注:
      参照タイプフィールドを選択するときは、フィールドのプロパティ名にドット連結する必要があります。たとえば、short_description の代わりに「short_description.name」と入力します。
      グループ化を使用 このチェックボックスは、クラスターを作成する前に入力レコードをフィールドでグループ化する場合にのみオンにします。
      注:
      このチェックボックスをオンにすると、[グループ] リストがアクティブ化されます。チェックボックスを選択しない場合、すべてのテーブルレコードがクラスターにグループ化されます。
      グループごと

      このリストからの値の選択はオプションです。これを行うと、選択に基づいてレコードが 1 つ以上のクラスターにグループ化されます。

      純度フィールド システムがクラスター内で最も頻度が高いクラスを特定するために役立つフィールドをテーブルから選択します。この例のシナリオでは、[カテゴリ][アサイン先グループ名 (Assignment group.Name)] を選択します。
      フィルター クラスターに含める入力フィールドレコードに適用するフィルター条件を追加します。クラスタリングのレコード数は 30 万レコードに制限されます。
      注:
      スクリプトインクルードをフィルターから参照することはできません。代替手段としてデータベースビューを使用します。
      処理言語 ソリューション定義でトレーニングしているデータセットの主要言語を選択します。データセットの言語がイタリア語の場合は、[イタリア語] を選択します。また、デフォルトでは、すべてのデータセットに英語の処理が適用されます。たとえば、イタリア語を選択した場合、システムは英語とイタリア語の両方でデータを処理します。
      注:
      「処理」という用語は、ソリューションのトレーニングの一環として使用される言語固有の手順の一部を示します。たとえば、単語のトークン化、ストップワードの削除、語幹の解釈などがあります。
      ストップワード 処理言語を選択すると、その言語でストップワードリストが自動的に追加されます。たとえば、処理言語がイタリア語の場合、[デフォルトのイタリア語のストップワード (Default Italian Stopwords)] リストが表示されます。デフォルトの英語のストップワードリストも含まれています。カスタムストップワードリストを作成する場合は、[ストップワード] フィールドから選択してソリューションに追加できます。
      更新頻度
      新規または更新されたレコードでシステムがクラスターを更新する頻度を選択します。
      注:
      クラスタリングソリューションで設定した [グループ] フィルター条件に基づいてレコードがプルされます。

      たとえば、[15 分ごと] を選択すると、その時間枠内に到着したレコードが識別されます。既存のクラスターへのアサインが試行されるか、可能であれば新しいクラスターが作成されます。

      この例では、20 件の新しいレコードが到着します。これらのレコードのうち 16 件が既存のクラスターになり、4 件がそうでない場合、システムは 4 つの未アサインレコードに対して新しいクラスターを形成します。

      クラスターをまったく更新しないこともできます。

      トレーニング頻度 システムが以前のすべてのクラスター結果を破棄し、最初からクラスターを再作成する頻度を選択します。オプションの範囲は、毎日、3 日ごと、7 日ごと、または毎月です。クラスターを 1 回トレーニングすることもできます。
      注:
      ML スケジューラーは、インスタンスがコミットできるトレーニングの数を、24 時間枠でインスタンスあたり 50 件の新規 ML トレーニング要求に制限します。この制限により、スケジュール済みの再トレーニング要求は除外されます。さらに、新規トレーニング要求が 24 時間枠内で 50 件を超えた場合でも、クラスタリングと類似性の更新もこの制限から除外されます。
      クラスターあたりの最小レコード数 クラスターに含めるレコードの最小数を入力します。入力する値は 2 以上でなければなりません。
    4. ソリューション定義に適切なコンテキストメニューオプションまたはボタンを選択します。
      オプション説明
      [保存] または [保存してトレーニング] ソリューション定義レコードを保存して、後でそれに戻ることができるようにするか、または保存して、それをトレーニング用に送信します。
      [送信] または [送信してトレーニング] ソリューション定義レコードを作成して、それを送信するか、または送信してトレーニングします。
    5. トレーニング用にソリューションを送信した場合は、[トレーニングのアクティブ化] ウィンドウで [OK] をクリックして確定します。

    タスクの結果

    ソリューションがトレーニングされ、トレーニングが完了するとリアルタイムで通知されます。

    [クラスタリングソリューション定義] フォームの [クラスターのビジュアル化] タブにツリーマッププロットが表示されます。プロットには、ソリューションに対してシステムが形成したクラスターが左上隅から右下隅に降順に表示されます。ツリーマップノードのラベルはクラスターの概念であり、クラスターの上位の単語によって作成され、各クラスターで最も目立つコンテンツを確認するのに役立ちます。
    注:
    クラスターの概念では、処理された入力データの上位の単語が、データの言語で表示されます。言語によっては、クラスターの概念が単語を語根形式で表示し、切り捨てて表示される場合があります。
    そのノードのクラスターの品質に応じて、各ノードが赤から緑に色分けされます。[グループを選択] フィルターは、[クラスタリング定義] フォームで [グループを使用] および [グループ] フィールドを選択した場合にのみ表示されます。クラスターをポイントすると、その Groupby 値、クラスター数、および Groupby のレコードを確認できます。
    図 : 1. クラスターのビジュアル化例
    [クラスターリングソリューション定義] フォームの [クラスター可視化] タブ。ソリューションに対してシステムが形成したクラスターが降順で表示されます。

    クラスターを開くには、クラスターをクリックするか、[すべてのグループを表示] フィルターから選択します。

    クラスターのグループ内で、クラスターサイズとクラスター品質に対して 2 つのスライドバーをそれぞれ使用して、結果をさらにフィルタリングできます。[戻る] ボタンをクリックして後方に移動することもできます。このボタンは、クラスタリング階層が存在する場合にのみ表示されます。このレベルでクラスターをポイントすると、[純度] フィールドのパーセンタイル値が [クラスターの概念]、 [品質]、および [サイズ] の値とともに表示されます。
    図 : 2. クラスターグループ例
    クラスターグループ。クラスターサイズとクラスター品質をフィルタリングできます。このレベルのクラスターをポイントすると、[純度] フィールドの値が表示されます。
    クラスターノードをクリックすると、その ML クラスターの詳細がリストビュー形式で表示されます。
    図 : 3. クラスターの詳細ページ
    [ML クラスター詳細] テーブルには、クラスタリングソリューションのレコード ID、Groupby ノード、ML ソリューション名、およびランキングのパーセンテージがリストビュー形式で表示されます。

    次のタスク

    • ソリューションの [ソリューション統計情報] タブでソリューションの出力を確認します。クラスタリングソリューションの結果に満足できない場合は、ソリューションに設定した値を再構成し、結果に満足するまで再トレーニングします。

    • [クラスターサマリ] タブで、クラスター ID、品質サイズ、および Groupby 値のリストビューを確認します。
      図 : 4. クラスターサマリ例
      [クラスターの概要] テーブルには、すべてのクラスターがクラスター ID、品質、サイズ、および groupby 値別に一覧表示されます。
    • [クラスター更新] タブで、ソリューション定義で設定した各クラスター更新間隔について、クラスターに対する変更の概要を確認します。
      図 : 5. クラスター更新例
      [クラスターの更新] タブには、他のクラスターに割り当てられたレコード、新しく作成されたレコード、新しいクラスターにアサインされたレコードの数、およびクラスター化されたレコードの合計数が表示されます。