Konfigurieren Sie HDBSCAN für eine Clustering-Lösung

  • Freigeben Version: Washingtondc
  • Aktualisiert 1. Februar 2024
  • 1 Minute Lesedauer
  • Erwägen Sie die Anwendung der HDBSCAN-Codierung (Hierarchical Density Based Spatial Clustering of Applications with Rauschen) auf Ihre Clustering-Lösung. Der standardmäßige Clustering-Algorithmus ist k-means.

    Vorbereitungen

    Hinweis:
    Die Konfiguration von erweiterten Einstellungen für ML-Lösungen ist optional. Wenn Sie Einstellungen dieser Art konfigurieren, stellen Sie sicher, dass Sie gut über die Technologie informiert sind, die Sie in der Lösung aktivieren, und dass Sie einen Anwendungsfall haben, der von der Technologie profitiert.
    • Erstellen Sie eine Definition für eine Clustering-Lösung, oder verwenden Sie eine vorhandene.
    • Erforderliche Rolle: admin oder ml_admin

    Warum und wann dieser Vorgang ausgeführt wird

    Sie können den HDBSCAN-Algorithmus anwenden, um das System bei der Identifizierung von Datenbeispielen zu unterstützen, die keinem Cluster zugewiesen sind. Sie können beispielsweise HDBSCAN anwenden, um die Themenerkennung zu unterstützen.

    Standardmäßig verwendet Predictive Intelligence im Clustering-Framework den Algorithmus k-means. HSBSCAN ist ein weiterer Clustering-Algorithmus, der dem DBSCAN-Algorithmus ähnelt, außer dass er mit Clustern minimaler Größe funktioniert und dazu beitragen kann, stabilere und persistentere Cluster bereitzustellen. Eine Zusammenfassung der Funktionsweise von HDBSCAN finden Sie in diesem Artikel. Einen Vergleich zwischen DBSCAN und HDBSCAN finden Sie in diesem Artikel und in diesem Artikel.

    Hinweis:
    Mit HDBSCAN trainierte Clustering-Lösungen unterstützen keine Cluster-Updates. Updates für diese Lösungen schlagen fehl, und die Lösungen werden nicht in ml_cluster_detail_table protokolliert. Verwenden Sie die Trainingsmethoden DBSCAN oder K-Means, wenn Sie Cluster-Updates aktivieren möchten.

    Prozedur

    1. Navigieren zu Alle > Predictive Intelligence > Clustering > Lösungsdefinitionen.
      Der Navigationspfad von Predictive Intelligence zur Listenansicht der Clustering-Definitionen, in der Sie eine neue Clustering-Lösungsdefinition erstellen.
    2. Klicken Sie auf Neu.
    3. Erstellen Sie ein neues Definitionsformular für die Clustering-Lösung, oder verwenden Sie ein vorhandenes.
      In diesem Beispielszenario erstellen Sie das Clustering-Definitionsformular hdbscan-sf wie in der folgenden Abbildung dargestellt. Konfigurieren Sie die Felder wie folgt:
      • Bezeichnung:hdbscan-sf
      • Wortkorpus: incident_wcoder ein anderer Wortkorpus mit Incident-Datensatzdaten
      • Tabelle: Incident [incident]
      • Felder: Kurzbeschreibung
      • Aktualisierungshäufigkeit: Nicht aktualisieren
      • Stoppwörter: Standardmäßige englische Stoppwörter
      • Schulungshäufigkeit: Alle 30 Tage
      • Verarbeitungssprache: Englisch
      Eine Beispiel-Clustering-Lösungsdefinition, die Sie erstellen und auf die Sie den DBSCAN-Parameter anwenden.
    4. Klicken Sie auf Absenden und schulen.
    5. Wählen Sie auf der Registerkarte Erweiterte Lösungseinstellungen im Abschnitt „Zugehörige Links“ des trainierten Formulars Lösungsparameter aus der Auswahl aus, und klicken Sie dann auf Neu.
      So wählen Sie die Option „Lösungsparameter“ zum Erstellen des Parameters aus.
    6. Erstellen Sie einen Parameterdatensatz.
      1. Klicken Sie im Feld Lösungsparameter auf das Suchsymbol.
      2. Wählen Sie im Bildschirm „ML-Lösungsparameter“ die Option HDBSCAN für Clustering verwenden aus.
        So erstellen Sie den Parameterdatensatz, indem Sie auf die Schaltfläche „Suchen“ und dann auf die Kurzbeschreibung des HDBSCAN-Schlüssels klicken.
    7. Klicken Sie auf Absenden.
      Der Datensatz „Erweiterte Lösungseinstellung“ wird mit dem auf den Datensatz angewendeten HDBSCAN-Algorithmus angezeigt.
      Der neue Lösungsparameter-Datensatz, den Sie aus den soeben zugewiesenen Werten erstellen.
    8. Klicken Sie auf Absenden.
      Ergebnis: HDBSCAN ist für Ihre Clustering-Lösung konfiguriert. Der Lösungsparameter wird auf der Registerkarte „Erweiterte Lösungseinstellungen“ des Formulars zur Definition der Clustering-Lösung angezeigt.
      Wenn Sie den von Ihnen erstellten Datensatz übermitteln, wird der Lösungsparameter HDBSCAN in Ihrem Clustering-Lösungsdefinitionsformular angezeigt.