クラスタリングソリューションを作成してトレーニングする

リリースバージョン: Washingtondc

更新日 2024年02月01日

1 読むのに数分読む

類似レコードをクラスターにグループ化して、まとめて処理したり、パターンを判断したりすることができます。

始める前に

必要なロール:ml_admin または admin

重要:

Washington DCこのリリースでは、クラスタリングモデルと類似性モデルでワークフローソリューションが使用されます。これらは事前にトレーニングされているため、新しいソリューションにワードコーパスは必要ありません。ワードコーパスを含む既存のソリューションがアップグレード後に再トレーニングされると、ワークフローソリューションになり、[ワードコーパス] フィールドがフォームから削除されます。

このタスクについて

予測インテリジェンスは、以下の暗号化タイプでソースデータが保護されるトレーニングソリューションをサポートします。

FDE (フルディスク暗号化)
Column Level Encryption。Column Level Encryption を使用する場合は、sharedservice.worker ユーザーに、暗号化に使用されたのと同じ暗号化モジュールロールがあることを確認してください。

予測インテリジェンスは、Edge Encryption でソースデータが暗号化されるトレーニングソリューションをサポートしません。

この手順例では、最近発生した類似のインシデントをグループ化して、重大なインシデントを特定します。

手順

移動先すべて > 予測インテリジェンス > クラスタリング > ソリューション定義.
[クラスタリング定義] リストで、[新規] をクリックします。

[クラスタリング定義] フォームで、次のガイドラインに従って、以下のフィールドを設定します。


フィールド	値
ラベル	クラスタリングソリューションの一意の名前を入力します。たとえば、このユースケースでは、「`グループインシデントから重大なインシデント`」と入力します。
名前	ソリューションラベル値を入力すると、このフィールドには、ラベル値に類似したシステムアサインされた名前が自動的に入力されます。
ワードコーパス	従来のクラスタリングソリューションを使用している場合は、定義フォームの [ワードコーパス ] フィールドから関連するワードコーパスを選択できます。注: Washington DCこのリリースでは、事前トレーニング済みモデルが代わりに使用されるため、ワードコーパスは必要ありません。[ ワードコーパス ] フィールドは、事前トレーニング済みモデルの定義フォームに表示されません。詳細については、「ワードコーパスの作成」を参照してください。
テーブル	1 つ以上のクラスターにグループ化するレコードタイプを含むテーブルを選択します。たとえば、このユースケースでは、重大なインシデント分析のためにグループ化するインシデントレコードが含まれている [インシデント [incident]] テーブルを選択します。テーブル値をアサインすると、現在の条件に一致するレコード件数を示すリンクがフォームに表示されます。
フィールド	クラスターに含めるレコードをシステムで特定できるように、1 つ以上の入力フィールドタイプを選択します。このユースケースでは、[簡単な説明] を使用します。注: 参照タイプフィールドを選択するときは、フィールドのプロパティ名にドット連結する必要があります。たとえば、`short_description` の代わりに「`short_description.name`」と入力します。
グループ化を使用	このチェックボックスは、クラスターを作成する前に入力レコードをフィールドでグループ化する場合にのみオンにします。注: このチェックボックスをオンにすると、[グループ] リストがアクティブ化されます。チェックボックスを選択しない場合、すべてのテーブルレコードがクラスターにグループ化されます。
グループごと	このリストからの値の選択はオプションです。これを行うと、選択に基づいてレコードが 1 つ以上のクラスターにグループ化されます。
純度フィールド	システムがクラスター内で最も頻度が高いクラスを特定するために役立つフィールドをテーブルから選択します。この例のシナリオでは、[カテゴリ] と [アサイン先グループ名 (Assignment group.Name)] を選択します。
フィルター	クラスターに含める入力フィールドレコードに適用するフィルター条件を追加します。注: クラスタリングのレコード数は 30 万レコードに制限されます。
処理言語	ソリューション定義でトレーニングしているデータセットの主要言語を選択します。データセットの言語がイタリア語の場合は、[イタリア語] を選択します。また、デフォルトでは、すべてのデータセットに英語の処理が適用されます。たとえば、イタリア語を選択した場合、システムは英語とイタリア語の両方でデータを処理します。注: 「処理」という用語は、ソリューションのトレーニングの一環として使用される言語固有の手順の一部を示します。たとえば、単語のトークン化、ストップワードの削除、語幹の解釈などがあります。
ストップワード	処理言語を選択した場合、システムは同じ言語を使用しているストップワードリストを自動的に追加します。たとえば、処理言語がイタリア語の場合、[デフォルトのイタリア語のストップワード (Default Italian Stopwords)] リストが表示されます。選択時には、[デフォルトの英語のストップワード (Default English Stopwords)] リストも同様に表示されます。カスタムストップワードリストを作成する場合は、[ストップワード] フィールドから選択して、それをソリューションに追加します。
更新頻度	新規または更新されたレコードでシステムがクラスターを更新する頻度を選択します。注: クラスタリングソリューションで設定した [グループ] フィルター条件に基づいてレコードがプルされます。たとえば、[15 分ごと] を選択すると、その時間枠内に到着したレコードが識別されます。既存のクラスターへのアサインが試行されるか、可能であれば新しいクラスターが作成されます。この例では、20 件の新しいレコードが到着します。これらのレコードのうち 16 件が既存のクラスターになり、4 件がそうでない場合、システムは 4 つの未アサインレコードに対して新しいクラスターを形成します。クラスターをまったく更新しないこともできます。
トレーニング頻度	システムが以前のすべてのクラスター結果を破棄し、最初からクラスターを再作成する頻度を選択します。オプションの範囲は、毎日、3 日ごと、7 日ごと、または毎月です。クラスターを 1 回トレーニングすることもできます。注: ML スケジューラーは、インスタンスがコミットできるトレーニングの数を、24 時間枠でインスタンスあたり 50 件の新規 ML トレーニング要求に制限します。この制限により、スケジュール済みの再トレーニング要求は除外されます。さらに、新規トレーニング要求が 24 時間枠内で 50 件を超えた場合でも、クラスタリングと類似性の更新もこの制限から除外されます。
クラスターあたりの最小レコード数	クラスターに含めるレコードの最小数を入力します。入力する値は 2 以上でなければなりません。

ソリューション定義に該当するコンテキストメニューのオプションまたはボタンをクリックします。

オプション	説明
[保存] または [保存してトレーニング]	ソリューション定義レコードを保存して、後でそれに戻ることができるようにするか、または保存して、それをトレーニング用に送信します。
[送信] または [送信してトレーニング]	ソリューション定義レコードを作成して、それを送信するか、または送信してトレーニングします。

トレーニング用にソリューションを送信した場合は、[トレーニングのアクティブ化] ウィンドウで [OK] をクリックして確定します。

タスクの結果

ソリューションがトレーニングされ、トレーニングが完了するとリアルタイムで通知されます。

[クラスタリングソリューション定義] フォームの [クラスターのビジュアル化] タブにツリーマッププロットが表示されます。プロットには、ソリューションに対してシステムが形成したクラスターが左上隅から右下隅に降順に表示されます。ツリーマップノードのラベルはクラスターの概念であり、クラスターの上位の単語によって作成され、各クラスターで最も目立つコンテンツを確認するのに役立ちます。

注:

クラスターの概念は、処理された入力データの上位の単語を使用し、同じ言語を使用します。言語によっては、クラスターの概念に単語が語根の形式で含まれ、切り取られて表示される場合があります。

そのノードのクラスターの品質に応じて、各ノードが赤から緑に色分けされます。[グループを選択] フィルターは、[クラスタリング定義] フォームで [グループを使用] および [グループ] フィールドを選択した場合にのみ表示されます。クラスターをポイントすると、その Groupby 値、クラスター数、および Groupby のレコードを確認できます。

[クラスタリングソリューション定義] フォームの [クラスターの可視化] タブ。ソリューションに対して形成されたクラスターが降順で表示されます。 — 図 : 1. クラスターのビジュアル化例

クラスターを開くには、クラスターをクリックするか、[すべてのグループを表示] フィルターから選択します。

クラスターのグループ内で、クラスターサイズとクラスター品質に対して 2 つのスライドバーをそれぞれ使用して、結果をさらにフィルタリングできます。[戻る] ボタンをクリックして後方に移動することもできます。このボタンは、クラスタリング階層が存在する場合にのみ表示されます。このレベルでクラスターをポイントすると、[純度] フィールドのパーセンタイル値が [クラスターの概念]、 [品質]、および [サイズ] の値とともに表示されます。

クラスターグループ。クラスターサイズとクラスター品質をフィルタリングできます。このレベルでクラスターをポイントすると、[純度] フィールド値が表示されます。 — 図 : 2. クラスターグループ例

クラスターノードをクリックすると、その ML クラスターの詳細がリストビュー形式で表示されます。

[ML クラスターの詳細] テーブルには、クラスタリングソリューションのレコード ID、Groupby ノード、ML ソリューション名が含まれ、ランキングパーセンテージがリストビュー形式で表示されます。 — 図 : 3. クラスターの詳細ページ

次のタスク

ソリューションの [ソリューション統計情報] タブでソリューションの出力を確認します。クラスタリングソリューションの結果に満足できない場合は、ソリューションに設定した値を再構成し、結果に満足するまで再トレーニングします。
[クラスターサマリ] タブで、クラスター ID、品質サイズ、および Groupby 値のリストビューを確認します。
図 : 4. クラスターサマリ例
[クラスター更新] タブで、ソリューション定義で設定した各クラスター更新間隔について、クラスターに対する変更の概要を確認します。
図 : 5. クラスター更新例