Clustering-Lösung erstellen und trainieren

Freigeben Version: Washingtondc

Aktualisiert 1. Februar 2024

6 Minuten Lesedauer

Gruppieren Sie ähnliche Datensätze in Clustern, damit Sie sie gemeinsam bearbeiten oder Muster identifizieren können.

Vorbereitungen

Erforderliche Rolle: ml_admin oder admin

Wichtig:

Ab Release Washington DC verwenden Clustering- und Ähnlichkeitsmodelle Workflow-Lösungen. Diese sind vortrainiert, sodass für Ihre neuen Lösungen kein Wortkorpus erforderlich ist. Wenn Ihre vorhandenen Lösungen mit einem Wortkorpus nach dem Upgrade neu trainiert werden, werden sie zu Workflow-Lösungen, und das Feld Wortkorpus wird aus dem Formular entfernt.

Warum und wann dieser Vorgang ausgeführt wird

Predictive Intelligence unterstützt Schulungslösungen, bei denen die Quelldaten durch diese Verschlüsselungstypen geschützt sind.

FDE (Vollständige Datenträgerverschlüsselung).
Verschlüsselung auf Spaltenebene. Stellen Sie bei Verwendung der Verschlüsselung auf Spaltenebene sicher, dass der Benutzer „sharedservice.worker“ dieselbe Verschlüsselungsmodulrolle hat, die für die Verschlüsselung verwendet wurde.

Predictive Intelligenceunterstützt keine Trainingslösungen, in denen die Quelldaten durch Edge Encryption verschlüsselt werden.

In diesem Beispielverfahren gruppieren Sie ähnliche Incidents, die vor Kurzem aufgetreten sind, um einen schwerwiegenden Incident zu identifizieren.

Prozedur

Navigieren zu Alle > Predictive Intelligence > Clustering > Lösungsdefinitionen.
Klicken Sie in der Liste „Clustering-Definitionen“ auf Neu.

Konfigurieren Sie diese Felder im Formular „Clustering-Definition“ gemäß der folgenden Anleitung.


Feld	Wert
Bezeichnung	Geben Sie einen eindeutigen Namen für die Clustering-Lösung ein. In diesem Anwendungsfall können Sie beispielsweise `Gruppen-Incidents zu einem schwerwiegenden Incident` eingeben.
Name	Wenn Sie eine Lösungsbezeichnung eingeben, wird dieses Feld automatisch mit einem vom System zugewiesenen Namen gefüllt, der Ihrem Bezeichnungswert ähnelt.
Wortkorpus	Wenn Sie eine ältere Clustering-Lösung haben, können Sie einen relevanten Wortkorpus aus dem Feld Wortkorpus im Definitionsformular auswählen. Hinweis: Mit Release Washington DC ist kein Wortkorpus mehr erforderlich, da stattdessen ein vortrainiertes Modell verwendet wird. Das Feld Wortkorpus ist im Definitionsformular für vortrainierte Modelle nicht sichtbar. Weitere Informationen finden Sie unter Wortkorpus erstellen.
Tabelle	Wählen Sie die Tabelle aus, die Datensatztypen enthält, die Sie in einem oder mehreren Clustern gruppieren möchten. In diesem Anwendungsfall wählen Sie beispielsweise die Tabelle Incident [incident] aus, da sie Incident-Datensätze enthält, die Sie zur Analyse schwerwiegender Incidents gruppieren möchten. Wenn Sie einen Tabellenwert zuweisen, erscheint ein Link im Formular, der die Anzahl der Datensätze zeigt, die mit ihren aktuellen Bedingungen übereinstimmen.
Felder	Wählen Sie einen oder mehrere Eingabefeldtypen aus, die dem System helfen, die Datensätze zu identifizieren, die Sie in Ihren Cluster aufnehmen möchten. Verwenden Sie in diesem Anwendungsfall Kurzbeschreibung. Hinweis: Wenn Sie ein Referenzfeld auswählen, müssen Sie per Dot-Walk zum Eigenschaftsnamen des Felds gehen. Geben Sie beispielsweise anstelle von `short_descriptionshort_description.name`ein.
Gruppe verwenden nach	Aktivieren Sie dieses Kontrollkästchen nur , wenn Sie Eingabedatensätze nach einem Feld gruppieren möchten, bevor Sie Cluster erstellen. Hinweis: Wenn Sie dieses Kontrollkästchen aktivieren, wird die Liste Gruppieren nach aktiviert. Wenn Sie das Kontrollkästchen nicht aktivieren, werden alle Tabellendatensätze in Cluster gruppiert.
Gruppieren nach	Die Auswahl eines Werts aus dieser Liste ist optional. Wenn Sie dies tun, gruppiert das System Datensätze basierend auf Ihrer Auswahl in einem oder mehreren Clustern.
Reinheitsfelder	Wählen Sie Felder aus Ihrer Tabelle aus, die dem System helfen können, die im Cluster am häufigsten vorkommende Klasse zu identifizieren. Wählen Sie in diesem Beispielszenario Kategorie und Zuweisungsgruppe.Name aus.
Filter	Fügen Sie Filterbedingungen hinzu, die auf die Eingabefelddatensätze angewendet werden, die Sie in Ihre Cluster aufnehmen möchten. Hinweis: Die Anzahl der Datensätze für das Clustering ist auf 300.000 beschränkt.
Verarbeitungssprache	Wählen Sie die dominante Sprache des Datensatzes aus, den Sie anhand der Lösungsdefinition trainieren. Wenn die Datensatzsprache Italienisch ist, wählen Sie Italienisch aus. Außerdem werden alle Datensätze standardmäßig auch in Englisch verarbeitet. Wenn Sie beispielsweise Italienisch auswählen, verarbeitet das System die Daten sowohl in Englisch als auch in Italienisch. Hinweis: Der Begriff Verarbeitung beinhaltet einige der sprachspezifischen Schritte, die im Rahmen des Trainings einer Lösung verwendet werden. Zum Beispiel das Versehen von Wörtern mit Token, das Entfernen von Stoppwörtern und die Wortstammerkennung.
Stoppwörter	Nachdem Sie die Verarbeitungssprache ausgewählt haben, fügt das System automatisch eine Stoppwortliste in derselben Sprache hinzu. Wenn Ihre Verarbeitungssprache beispielsweise Italienisch ist, wird die Liste für standardmäßige italienische Stoppwörter angezeigt. Die Liste für standardmäßige englische Stoppwörter wird in Ihrer Auswahl auch angezeigt. Wenn Sie eine benutzerdefinierte Stoppwortliste erstellen, können Sie sie im Feld „Stoppwörter“ auswählen, um sie Ihrer Lösung hinzuzufügen.
Aktualisierungshäufigkeit	Wählen Sie aus, wie oft das System Ihre Cluster mit neuen und aktualisierten Datensätzen aktualisieren soll. Hinweis: Das System ruft Datensätze basierend auf den Filterbedingungen „Gruppieren nach“ ab, die Sie ggf. in Ihrer Clustering-Lösung festgelegt haben. Wenn Sie beispielsweise Alle 15 Minutenauswählen, ermittelt das System, welche Datensätze innerhalb dieses Zeitrahmens eingetroffen sind. Das System versucht, sie den vorhandenen Clustern zuzuweisen, oder erstellt nach Möglichkeit einen neuen Cluster. In diesem Beispiel kommen 20 neue Datensätze. Wenn 16 dieser Datensätze in einen vorhandenen Cluster gelangen und 4 nicht, bildet das System einen neuen Cluster für die vier nicht zugewiesenen Datensätze. Sie können auch festlegen, dass Ihre Cluster überhaupt nicht aktualisiert werden sollen.
Schulungshäufigkeit	Wählen Sie aus, wie oft das System alle vorherigen Clusterergebnisse verwerfen und Cluster von Anfang an neu erstellen soll. Ihre Optionen reichen von täglich über jeden dritten bzw. siebten Tag bis zu monatlich. Sie können Ihren Cluster auch einmal trainieren. Hinweis: Der ML-Planer begrenzt die Anzahl der Schulungen, die eine Instanz innerhalb eines 24-Stunden-Fensters auf 50 neue ML-Trainingsanforderungen pro Instanz festlegen kann. Der Grenzwert schließt geplante Anforderungen für erneutes Trainieren aus. Darüber hinaus sind Clustering- und Ähnlichkeitsaktualisierungen auch dann von diesem Grenzwert ausgeschlossen, wenn die neuen Trainingsanforderungen innerhalb eines 24-Stunden-Fensters 50 überschreiten.
Mindestanzahl der Datensätze pro Cluster	Geben Sie die Mindestanzahl von Datensätzen ein, die ein Cluster enthalten soll. Der eingegebene Wert muss größer oder gleich 2 sein.

Wählen Sie die entsprechende Kontextmenüoption aus, bzw. klicken Sie auf die entsprechende Schaltfläche für die Lösungsdefinition.

Option	Beschreibung
„Speichern“ oder „Speichern und schulen“	Speichern Sie den Lösungsdefinitionsdatensatz, damit Sie später dorthin zurückkehren können, oder speichern und übermitteln Sie ihn zum Trainieren.
„Übermitteln“ oder „Übermitteln und schulen“	Erstellen Sie einen Lösungsdefinitionsdatensatz, und übermitteln Sie ihn, oder übermitteln und trainieren Sie ihn.

Wenn Sie die Lösung zum Trainieren übermittelt haben, klicken Sie im Fenster „Trainingsaktivierung“ zur Bestätigung auf OK.

Ergebnisse

Das System trainiert die Lösung und benachrichtigt Sie in Echtzeit, wenn das Training abgeschlossen ist.

Auf der Registerkarte „Clustervisualisierung“ des Formulars „Clustering-Lösungsdefinition“ wird ein Verzeichnisübersichtsdiagramm angezeigt. Die Grafik zeigt die Cluster, die das System für Ihre Lösung gebildet hat, in absteigender Reihenfolge von der oberen linken Ecke zur unteren rechten Ecke. Die Bezeichnungen der Verzeichnisübersichtsknoten entsprechen dem Clusterkonzept, das aus den häufigsten Wörtern des Clusters erstellt wird und Ihnen hilft, die wichtigsten Inhalte in jedem Cluster anzuzeigen.

Hinweis:

Das Cluster-Konzept verwendet die häufigsten Wörter aus den verarbeiteten Eingabedaten in derselben Sprache. Abhängig von Ihrer Sprache enthält das Clusterkonzept möglicherweise Wörter in ihrer Stammform und erscheint abgeschnitten.

Jeder Knoten ist abhängig von der Clusterqualität für diesen Knoten von rot nach grün gefärbt. Der Filter Gruppe auswählen wird nur angezeigt, wenn Sie die Felder Gruppieren nach verwenden und Gruppieren nach im Formular „Clustering -Definition “ auswählen. Wenn Sie auf einen Cluster zeigen, werden dessen Groupby-Wert, die Cluster-Anzahl und die Datensätze in Groupby angezeigt.

Registerkarte „Clustervisualisierung“ des Formulars „Clustering-Lösungsdefinition“. Zeigt die Cluster an, die das System für Ihre Lösung gebildet hat, in absteigender Reihenfolge. — Abbildung : 1. Beispiel für Clustervisualisierung

Um ein Cluster zu öffnen, können Sie darauf klicken oder es im Filter Alle Gruppen anzeigen auswählen.

Innerhalb der Clustergruppierung können Sie die Ergebnisse weiter filtern, indem Sie die beiden Schieberegler für Clustergröße und Clusterqualität verwenden. Sie können auch rückwärts navigieren, indem Sie auf die Schaltfläche Zurück klicken, die nur angezeigt wird, wenn eine Clusterhierarchie vorhanden ist. Wenn Sie auf ein Cluster auf dieser Ebene zeigen, werden die Perzentilwerte des Felds „Reinheit“ zusammen mit den Werten für Clusterkonzept, Qualität und Größe angezeigt.

Clustergruppe Sie können nach Clustergröße und Clusterqualität filtern. Wenn Sie auf ein Cluster auf dieser Ebene zeigen, werden die Feldwerte Reinheit angezeigt. — Abbildung : 2. Beispiel für Clustergruppe

Wenn Sie auf einen Clusterknoten klicken, werden die zugehörigen ML-Clusterdetails in einer Listenansicht angezeigt.

Die Tabelle „ML-Clusterdetail“ enthält die Datensatz-IDs für die Clustering-Lösung, den Groupby-Knoten, den ML-Lösungsnamen und den Rangfolgeprozentsatz, die in einem Listenansichtsformat angezeigt werden. — Abbildung : 3. Cluster-Detailseite

Nächste Maßnahme

Überprüfen Sie die Lösungsausgabe auf der Registerkarte „Lösungsstatistiken“ Ihrer Lösung. Wenn Sie mit den Ergebnissen Ihrer Clustering-Lösung nicht zufrieden sind, konfigurieren Sie die für Ihre Lösung festgelegten Werte neu, und trainieren Sie sie, bis Sie mit den Ergebnissen zufrieden sind.
Überprüfen Sie die Registerkarte Cluster-Zusammenfassung auf eine Listenansicht der Cluster-IDs, Qualitätsgröße und Groupby-Werte.
Abbildung : 4. Beispiel für Cluster-Zusammenfassung
Überprüfen Sie auf der Registerkarte Cluster-Updates die Zusammenfassung der Änderungen an Clustern für jedes Cluster-Aktualisierungsintervall, das Sie in der Lösungsdefinition konfiguriert haben.
Abbildung : 5. Beispiel für Cluster-Updates