Clustering-Lösung erstellen und trainieren

  • Freigeben Version: Xanadu
  • Aktualisiert 16. August 2024
  • 6 Minuten Lesedauer
  • Gruppieren Sie ähnliche Datensätze in Clustern, damit Sie sie gemeinsam bearbeiten oder Muster identifizieren können.

    Vorbereitungen

    Erforderliche Rolle: ml_admin oder admin
    Wichtig:
    Ab Release Xanadu verwenden Clustering- und Ähnlichkeitsmodelle Workflow-Lösungen. Diese sind vortrainiert, sodass für Ihre neuen Lösungen kein Wortkorpus erforderlich ist. Wenn Ihre vorhandenen Lösungen mit einem Wortkorpus nach dem Upgrade erneut trainiert werden, werden sie zu Workflow-Lösungen, und das Feld Wortkorpus wird aus dem Formular entfernt.

    Warum und wann dieser Vorgang ausgeführt wird

    In diesem Beispielverfahren erstellen Sie eine Lösung, um einen schwerwiegenden Incident zu identifizieren, indem Sie ähnliche Incidents gruppieren, die kürzlich aufgetreten sind.

    Informationen zur Verwendung verschlüsselter Trainingsdaten finden Sie unter Datenverschlüsselung in Predictive Intelligence.

    Prozedur

    1. Stellen Sie sicher, dass Sie sich im gewünschten Anwendungsbereich für Ihre Lösungsdefinition befinden, und navigieren Sie dann zu Alle > Predictive Intelligence > Clustering > Lösungsdefinitionen.
    2. Wählen Sie in der Liste „Clustering-Definitionen“ Neuaus.
    3. Konfigurieren Sie im Formular „Clustering-Definition“ die Felder gemäß der folgenden Anleitung.
      Feld Wert
      Bezeichnung Geben Sie einen eindeutigen Namen für die Clustering-Lösung ein. In diesem Anwendungsfall können Sie beispielsweise Gruppen-Incidents zu einem schwerwiegenden Incident eingeben.
      Name Wenn Sie Ihre Lösungsbezeichnung eingeben, wird dieses Feld automatisch mit einem vom System zugewiesenen Namen basierend auf Ihrem Bezeichnungswert gefüllt.
      Wortkorpus

      Wenn Sie über eine veraltete Clustering-Lösung verfügen, können Sie im Feld „ Wortkorpus “ im Definitionsformular einen relevanten Wortkorpus auswählen.

      Hinweis:
      Ab Release Xanadu ist kein Wortkorpus erforderlich, da stattdessen ein vortrainiertes Modell verwendet wird. Das Feld „Wortkorpus“ ist im Definitionsformular für vortrainierte Modelle nicht sichtbar.

      Weitere Informationen finden Sie unter Wortkorpus erstellen.

      Tabelle

      Wählen Sie die Tabelle aus, die Datensatztypen enthält, die Sie in einem oder mehreren Clustern gruppieren möchten. In diesem Anwendungsfall wählen Sie beispielsweise die Tabelle Incident [incident] aus, da sie Incident-Datensätze enthält, die Sie zur Analyse schwerwiegender Incidents gruppieren möchten.

      Wenn Sie einen Tabellenwert zuweisen, erscheint ein Link im Formular, der die Anzahl der Datensätze zeigt, die mit ihren aktuellen Bedingungen übereinstimmen.

      Felder Wählen Sie einen oder mehrere Eingabefeldtypen aus, anhand derer das System die Datensätze identifizieren kann, die Sie in Ihren Cluster aufnehmen möchten. Verwenden Sie in diesem Anwendungsfall Kurzbeschreibung.
      Hinweis:
      Wenn Sie ein Referenztypfeld auswählen, müssen Sie einen Dot-Walk zum Eigenschaftsnamen des Felds durchführen. Beispiel: Anstelle von short_descriptiongeben Sie short_description.nameein.
      Gruppe verwenden nach Aktivieren Sie dieses Kontrollkästchen nur, wenn Sie Eingabedatensätze nach einem Feld gruppieren möchten, bevor Sie Cluster erstellen.
      Hinweis:
      Durch Aktivieren dieses Kontrollkästchens wird die Liste „Gruppieren nach“ aktiviert. Wenn Sie das Kontrollkästchen nicht aktivieren, werden alle Tabellendatensätze in Clustern gruppiert.
      Gruppieren nach

      Die Auswahl eines Werts aus dieser Liste ist optional. Wenn Sie dies tun, gruppiert das System Datensätze basierend auf Ihrer Auswahl in einen oder mehrere Cluster.

      Reinheitsfelder Wählen Sie Felder aus Ihrer Tabelle aus, anhand derer das System die Klasse identifizieren kann, die im Cluster am häufigsten vorkommt. Wählen Sie in diesem Beispielszenario Kategorie und Zuweisungsgruppe.Name aus.
      Filter Fügen Sie Filterbedingungen hinzu, die auf die Eingabefeld-Datensätze angewendet werden, die Sie in Ihre Cluster aufnehmen möchten. Die Anzahl der Datensätze für das Clustering ist auf 300.000 beschränkt.
      Hinweis:
      Skripteinbindungen können nicht vom Filter referenziert werden. Verwenden Sie als Alternative Datenbankansichten.
      Verarbeitungs­sprache Wählen Sie die dominante Sprache des Datensatzes aus, den Sie anhand der Lösungsdefinition trainieren. Wenn die Datensatzsprache Italienisch ist, wählen Sie Italienisch aus. Außerdem werden alle Datensätze standardmäßig auch in Englisch verarbeitet. Wenn Sie beispielsweise Italienisch auswählen, verarbeitet das System die Daten sowohl in Englisch als auch in Italienisch.
      Hinweis:
      Der Begriff Verarbeitung beinhaltet einige der sprachspezifischen Schritte, die im Rahmen des Trainings einer Lösung verwendet werden. Zum Beispiel das Versehen von Wörtern mit Token, das Entfernen von Stoppwörtern und die Wortstammerkennung.
      Stoppwörter Wenn Sie die Verarbeitungssprache auswählen, fügt das System automatisch eine Stoppwortliste in dieser Sprache hinzu. Wenn Ihre Verarbeitungssprache beispielsweise Italienisch ist, wird die Liste für standardmäßige italienische Stoppwörter angezeigt. Die Liste der standardmäßigen englischen Stoppwörter ist ebenfalls enthalten. Wenn Sie eine anwenderdefinierte Stoppwortliste erstellen, können Sie diese im Feld Stoppwörter auswählen, um sie Ihrer Lösung hinzuzufügen.
      Aktualisierungshäufigkeit
      Wählen Sie aus, wie oft das System Ihre Cluster mit neuen und aktualisierten Datensätzen aktualisieren soll.
      Hinweis:
      Das System ruft Datensätze basierend auf den Filterbedingungen „Gruppieren nach“ ab, die Sie ggf. in Ihrer Clustering-Lösung festgelegt haben.

      Wenn Sie beispielsweise Alle 15 Minutenauswählen, erkennt das System, welche Datensätze innerhalb dieses Zeitrahmens eingegangen sind. Das System versucht, sie den vorhandenen Clustern zuzuweisen, oder erstellt, wenn möglich, ein neues Cluster.

      In diesem Beispiel kommen 20 neue Datensätze hinzu. Wenn 16 dieser Datensätze in einen vorhandenen Cluster aufgenommen werden und 4 nicht, erstellt das System einen neuen Cluster für die vier nicht zugewiesenen Datensätze.

      Sie können auch festlegen, dass Ihre Cluster überhaupt nicht aktualisiert werden sollen.

      Schulungs­häufigkeit Wählen Sie aus, wie oft das System alle vorherigen Clusterergebnisse verwirft und Cluster von Beginn an neu erstellt. Ihre Optionen reichen von täglich über jeden dritten bzw. siebten Tag bis zu monatlich. Sie können Ihren Cluster auch einmal trainieren.
      Hinweis:
      Der ML-Planer begrenzt die Anzahl der Trainings, die eine Instanz innerhalb eines 24-Stunden-Fensters committen kann, auf 50 neue ML-Trainingsanforderungen pro Instanz. Der Grenzwert schließt geplante erneute Schulungsanforderungen ein. Darüber hinaus sind Clustering- und Ähnlichkeitsupdates von diesem Grenzwert ausgeschlossen, selbst wenn die neuen Trainingsanforderungen innerhalb eines 24-Stunden-Fensters 50 überschreiten.
      Mindestanzahl der Datensätze pro Cluster Geben Sie die Mindestanzahl der Datensätze ein, die ein Cluster enthalten soll. Der eingegebene Wert muss 2 oder höher sein.
    4. Wählen Sie die entsprechende Kontextmenüoption oder Schaltfläche für Ihre Lösungsdefinition aus.
      OptionBeschreibung
      „Speichern“ oder „Speichern und schulen“ Speichern Sie den Lösungsdefinitionsdatensatz, damit Sie später dorthin zurückkehren können, oder speichern und übermitteln Sie ihn zum Trainieren.
      „Übermitteln“ oder „Übermitteln und schulen“ Erstellen Sie einen Lösungsdefinitionsdatensatz, und übermitteln Sie ihn, oder übermitteln und trainieren Sie ihn.
    5. Wenn Sie die Lösung zum Trainieren übermittelt haben, klicken Sie im Fenster „Trainingsaktivierung“ zur Bestätigung auf OK.

    Ergebnisse

    Das System trainiert die Lösung und benachrichtigt Sie in Echtzeit, wenn das Training abgeschlossen ist.

    Auf der Registerkarte Clustervisualisierung Ihres Formulars „Definition der Clusterlösung“ wird ein Treemap-Diagramm angezeigt. Die Darstellung zeigt die Cluster, die das System für Ihre Lösung gebildet hat, in absteigender Reihenfolge von der oberen linken Ecke zur unteren rechten Ecke. Die Knotenbezeichnungen der Verzeichnisübersicht sind das Clusterkonzept, das von den Top-Wörtern aus dem Cluster erstellt wird und hilft Ihnen, die wichtigsten Inhalte in jedem Cluster zu sehen.
    Hinweis:
    Das Clusterkonzept zeigt die häufigsten Wörter aus den verarbeiteten Eingabedaten in der Sprache der Daten an. Je nach Sprache kann das Clusterkonzept Wörter in ihrer Stammform anzeigen und daher gekürzt erscheinen.
    Jeder Knoten ist je nach Clusterqualität für diesen Knoten von rot nach grün gefärbt. Der Filter „ Gruppe auswählen“ wird nur angezeigt, wenn Sie im Formular „Clustering-Definition“ die Felder „Gruppieren nach verwenden“und „ Gruppieren nach“ auswählen. Wenn Sie auf einen Cluster zeigen, können Sie dessen Wert für Groupby, Clusteranzahl und Datensätze in Groupby sehen.
    Abbildung : 1. Beispiel für Clustervisualisierung
    Registerkarte Clustervisualisierung Ihres Formulars „Definition der Clustering-Lösung“. Zeigt die Cluster, die das System für Ihre Lösung gebildet hat, in absteigender Reihenfolge an.

    Um ein Cluster zu öffnen, können Sie darauf klicken oder es im Filter Alle Gruppen anzeigen auswählen.

    Innerhalb der Clustergruppierung können Sie die Ergebnisse weiter filtern, indem Sie die beiden Schieberegler für Clustergröße bzw. Clusterqualität verwenden. Sie können auch rückwärts navigieren, indem Sie auf die Schaltfläche Zurück klicken, die nur angezeigt wird, wenn eine Clustering-Hierarchie vorhanden ist. Wenn Sie auf einen Cluster auf dieser Ebene zeigen, werden die Perzentilwerte des Felds „Reinheit“ zusammen mit den Werten für Clusterkonzept, Qualität und Größe angezeigt.
    Abbildung : 2. Beispiel für Clustergruppen
    Clustergruppe Sie können nach Clustergröße und Clusterqualität filtern. Wenn Sie auf einen Cluster auf dieser Ebene zeigen, werden die Feldwerte Reinheit angezeigt.
    Wenn Sie auf einen Clusterknoten klicken, werden die zugehörigen ML-Clusterdetails in einer Listenansicht angezeigt.
    Abbildung : 3. Seite „Clusterdetails“.
    Die Tabelle „ML-Clusterdetails“ enthält die Datensatz-IDs für die Clusterlösung. Der Groupby-Knoten, der Name der ML-Lösung und der Rangfolgeprozentsatz werden in einer Listenansicht angezeigt.

    Nächste Maßnahme

    • Überprüfen Sie die Lösungsausgabe auf der Registerkarte „Lösungsstatistiken“ Ihrer Lösung. Wenn Sie mit den Ergebnissen Ihrer Clustering-Lösung nicht zufrieden sind, konfigurieren Sie die für Ihre Lösung festgelegten Werte neu, und trainieren Sie sie, bis Sie mit den Ergebnissen zufrieden sind.

    • Überprüfen Sie die Registerkarte Cluster-Zusammenfassung auf eine Listenansicht der Cluster-IDs, der Qualitätsgröße und der Groupby-Werte.
      Abbildung : 4. Beispiel für Clusterzusammenfassung
      Die Tabelle „Clusterzusammenfassung“ zeigt, dass alle Cluster nach Cluster-ID, Qualität, Größe und Wert für „groupby“ aufgelistet sind.
    • Überprüfen Sie auf der Registerkarte Cluster-Updates die Zusammenfassung der Änderungen an Clustern für jedes Cluster-Aktualisierungsintervall, das Sie in der Lösungsdefinition konfiguriert haben.
      Abbildung : 5. Beispiel für Cluster-Updates
      Auf der Registerkarte „Cluster-Updates“ werden Datensätze angezeigt, die anderen Clustern zugewiesen sind, neu erstellte Datensätze, wie viele Datensätze neuen Clustern zugewiesen wurden und wie hoch die Gesamtzahl der gruppierten Datensätze ist.