Klassifizierungslösung erstellen und trainieren

  • Freigeben Version: Xanadu
  • Aktualisiert 30. Juli 2024
  • 6 Minuten Lesedauer
  • Geben Sie die Datensätze an, die zum Trainieren einer Klassifizierungslösung verwendet werden, welche Felder eine Vorhersage auslösen und wie oft Ihre Lösung neu trainiert werden soll.

    Vorbereitungen

    Warum und wann dieser Vorgang ausgeführt wird

    Ein Vorhersagemodell ist nur so gut wie die Daten, die Sie zum Trainieren verwenden. Um geeignete Datensätze für das Training auszuwählen, prüfen Sie das Datenbankwörterbuch der Tabelle sowie die aktuelle Qualität der Datensatzwerte, die Sie verwenden möchten.

    Informationen zur Verwendung verschlüsselter Trainingsdaten finden Sie unter Datenverschlüsselung in Predictive Intelligence.

    Informationen zur minimalen und maximalen Anzahl von Datensätzen, die Sie für das Training verwenden können, finden Sie unter Predictive Intelligence -Eigenschaften.

    Hinweis:
    Klassen, deren Trainingsdatensatz weniger als 30 Datensätze enthält, werden vom Lösungstraining ausgeschlossen. Wenn das Training abgeschlossen ist, werden alle ausgeschlossenen Klassen im Abschnitt „Lösungsstatistiken“ Ihres ML-Lösungsformulars aufgeführt.

    Alle Klassen, die vom Lösungstraining ausgeschlossen wurden, sind im Abschnitt „Lösungsstatistiken“ des ML-Lösungsformulars Ihrer trainierten Lösung aufgeführt.

    Sie müssen für jedes Vorhersagemodell, das Sie unterstützen möchten, eine separate Lösungsdefinition erstellen. Im folgenden Verfahren wird erläutert, wie Sie eine neue Klassifizierungslösung erstellen. Sie können jedoch auch eine vorhandene Lösungsdefinition und ihre Konfiguration in einen neuen Datensatz kopieren, indem Sie im Kontextmenü die Option Lösungsdefinition kopieren auswählen. Bearbeiten Sie die Feldwerte im neuen Datensatz nach Bedarf.

    Prozedur

    1. Stellen Sie sicher, dass Sie sich im gewünschten Anwendungsbereich für Ihre Lösungsdefinition befinden, und navigieren Sie dann zu Alle > Predictive Intelligence > Klassifizierung > Lösungsdefinitionen.
    2. Wählen Sie in der Liste „Klassifizierungsdefinitionen“ Neuaus.
    3. Konfigurieren Sie im leeren Formular „Klassifizierungsdefinition“ die Felder gemäß der folgenden Anleitung.
      Feld Wert
      Bezeichnung Geben Sie einen eindeutigen Namen für den Lösungsdatensatz ein.
      Name Das System generiert den Wert dieses schreibgeschützten Felds auf Grundlage der von Ihnen eingegebenen Bezeichnung.
      Wortkorpus

      Wählen Sie einen Wortkorpus aus, der für Ihre Lösung relevant ist. Weitere Informationen finden Sie unter Wortkorpus erstellen.

      Hinweis:
      Wortkorpus ist kein Pflichtfeld für Kunden, die [] ab UtahPredictive Intelligence zum ersten Mal implementieren. Stattdessen wird ein vortrainiertes Modell verwendet. Das Feld „Wortkorpus“ wird für vortrainierte Modelle entfernt.
      Tabelle Wählen Sie die Tabelle aus, die die Zieldatensätze enthält, die das System vorhersagen soll.
      Ausgabefeld

      Wählen Sie das Feld aus, dessen Wert das Vorhersagemodell festlegen soll.

      Im Allgemeinen hat ein gutes Ausgabefeld diese Eigenschaften.
      • Dies ist ein Auswahlfeld oder ein Zeichenfolgenfeld mit einer endlichen Menge möglicher Werte.
      • Es besteht ein Kausalzusammenhang zu den Eingabefeldern.

      Beispiel: In der Standardlösungsdefinition für die Incident-Kategorisierung ist das Ausgabefeld auf Kategoriefestgelegt.

      Felder

      Wählen Sie die Eingabefelder aus, die die Lösung zum Generieren einer Vorhersage verwenden soll.

      Eingabefelder sind Felder in einem Datensatz, die die Klassifizierungsinformationen enthalten können, die ihre Vorhersagelösung benötigt, um erfolgreich zu sein. Wenn Sie beispielsweise die richtige Klasse für die Selektierung eines Incident-Datensatzes vorhersagen, sollte die Vorhersage Datensätze mit Text sammeln, der auf die Klasse verweist. Die meisten Datensätze weisen kontextbezogenen Text im Feld Kurzbeschreibung auf, weswegen es sich in der Regel empfiehlt, dieses Eingabefeld zu nutzen. Sie können auch Auflösungshinweise als Eingabefeld verwenden, da es in den detaillierten Hinweisen für den Incident ebenfalls auf die Incident-Klasse verweisen kann.

      Im Allgemeinen haben gute Eingabefelder diese Eigenschaften.
      • Die Felder stehen Benutzern beim Erstellen von Datensätzen zur Verfügung.
      • Der Datentyp des Felds kann Zeichenfolge, Referenz, Auswahl oder HTML sein. Je mehr Informationen ein Feld bereitstellt, desto häufiger kann eine Lösung eine Vorhersage treffen und desto häufiger sind Vorhersagen zutreffend.
      • Das Feld hat einen Standardwert und darf nicht leer sein.

      Alle standardmäßigen Lösungsdefinitionen verwenden das Feld Kurzbeschreibung.

      Filter

      Klicken Sie auf Filterbedingung hinzufügen, um Bedingungen auf die Datensätze anzuwenden, die Sie trainieren.

      Die Lösungsdefinition Incident-Kategorisierung verwendet beispielsweise einen Filter mit folgenden Bedingungen: [Erstellt][am][Letzte 12 Monate] UND [Aktiv][ist][false] UND [Status][ist Bestandteil von][Gelöst | Abgeschlossen].

      Um eine Lösung zu trainieren, muss der Filter mindestens einen Datensatz zurückgeben. Wenn Ihr Filter keine Datensätze zurückgibt, aktualisieren Sie ihn, bis er Datensätze zum Trainieren zurückgibt.
      Hinweis:
      Die empfohlene Anzahl von Datensätzen für das Trainieren einer guten Lösung liegt zwischen 30.000 und 300.000. Wenn Sie mehr als 300.000 Datensätze einreichen, werden die neuesten 300.000 Datensätze zum Trainieren der Lösung verwendet. Verwenden Sie nur authentische Datensätze aus der Datenbank.
      Im Allgemeinen hat ein guter Filter diese Eigenschaften.
      • Die Schulungsdatensätze sind inaktiv, und ihr Status gibt an, ob die Arbeit innerhalb Ihres Standardprozesses abgeschlossen wurde, z. B. gelöst oder geschlossen.
      • Die Zielfelder enthalten nur richtige Werte. Filtern Sie Datensätze mit unzuverlässigen Zielfeldwerten heraus. Wenn Sie beispielsweise die Zuweisungsgruppe/-kategorie vorhersagen und Ihre historischen Incident-Daten Zuweisungsgruppen/-kategorien enthalten, die nicht mehr verwendet werden, fügen Sie einen Filter hinzu, um diese Datensätze aus dem Training zu entfernen.
      • Die Trainingsdatensätze enthalten mehrere Beispiele für jeden Zielfeldwert, den die Lösung vorhersagen soll.
      • Die Trainingsdatensätze enthalten übliche Variationen der Eingabefelder.

      Verwenden Sie relative Datumsfilter wie letzte 3 Monate oder letzte 12 Monate. Verwenden Sie keine hartcodierten Datumsangaben, da diese Filter nicht aktualisiert werden, wenn die Lösungen erneut trainiert werden, es sei denn, Sie aktualisieren sie manuell.

      Verarbeitungs­sprache Wählen Sie die dominante Sprache des Datensatzes aus, den Sie für die Lösungsdefinition trainieren. Wenn die Datensatzsprache Italienisch ist, wählen Sie Italienisch aus. Außerdem werden alle Datensätze standardmäßig auch in Englisch verarbeitet. Wenn Sie beispielsweise Italienisch auswählen, verarbeitet das System die Daten sowohl in Englisch als auch in Italienisch.
      Hinweis:
      Der Begriff Verarbeitung beinhaltet einige der sprachspezifischen Schritte, die im Rahmen des Trainings einer Lösung verwendet werden. Zum Beispiel das Versehen von Wörtern mit Token, das Entfernen von Stoppwörtern und die Wortstammerkennung.
      Stoppwörter Wenn Sie die Verarbeitungssprache auswählen, fügt das System automatisch eine Stoppwortliste für diese Sprache hinzu. Wenn Ihre Verarbeitungssprache beispielsweise Italienisch ist, wird die Liste für standardmäßige italienische Stoppwörter angezeigt. Die Liste der standardmäßigen englischen Stoppwörter ist ebenfalls enthalten. Wenn Sie eine anwenderdefinierte Stoppwortliste erstellen, können Sie diese im Feld Stoppwörter auswählen, um sie Ihrer Lösung hinzuzufügen.
      Schulungs­häufigkeit
      Wählen Sie aus, wie oft das System die Lösung neu generiert. Die verfügbaren Optionen reichen von Einmal ausführen bis zu Alle 180 Tage.
      Hinweis:
      Die Mindestanzahl von Datensätzen, die für das Training der Klassifizierungslösung erforderlich sind, ist auf 10.000 festgelegt.

      Standardmäßig führt das System einmal ein Training durch. Dadurch haben Sie Zeit, die Lösungsdefinition zu überprüfen und zu aktualisieren, bis akzeptable Werte für Abdeckung und Genauigkeit bereitgestellt werden.

      Wenn Ihre Lösungsdefinition relativ stabil ist, sollten Sie regelmäßige Trainings in Betracht ziehen, da die Daten mit der Zeit altern können, wodurch die Genauigkeit Ihres Vorhersagemodells beeinträchtigt wird.

      Hinweis:
      Der ML-Planer begrenzt die Anzahl der Trainings, die eine Instanz innerhalb eines 24-Stunden-Fensters committen kann, auf 50 neue ML-Trainingsanforderungen pro Instanz. Dieser Grenzwert schließt Anforderungen für geplantes erneutes Trainieren, Clustering-Updates und Ähnlichkeitsupdates aus, auch wenn die neuen Trainingsanforderungen innerhalb eines 24-Stunden-Fensters 50 überschreiten.
    4. Wählen Sie die entsprechende Kontextmenüoption aus, bzw. klicken Sie auf die entsprechende Schaltfläche für die Lösungsdefinition.
      OptionBeschreibung
      „Speichern“ oder „Speichern und schulen“ Speichern Sie den Lösungsdefinitionsdatensatz, damit Sie später dorthin zurückkehren können, oder speichern und übermitteln Sie ihn zum Trainieren.
      „Übermitteln“ oder „Übermitteln und schulen“ Erstellen Sie einen Lösungsdefinitionsdatensatz, und übermitteln Sie ihn, oder übermitteln und trainieren Sie ihn.
    5. Wenn Sie die Lösung zum Trainieren übermittelt haben, klicken Sie im Fenster Trainingsaktivierung zur Bestätigung auf OK.
      • Das System plant das Trainieren der Lösung beim nächstgelegenen Trainingsservice. Das System sendet Ihnen bei Abschluss des Trainings eine Benachrichtigung und informiert Sie über alle aufgetretenen Fehler. Andere Benutzer können die Kategorie „Predictive Intelligence-Benachrichtigungen“ abonnieren. Nach Abschluss des Trainings lädt das System die Lösung als Anhangsdatensatz hoch.
      • Auf der Registerkarte „Lösungsvisualisierung“ Ihres Lösungsformulars wird ein Blasendiagramm angezeigt, das für alle von der Lösung abgedeckten Klassen die geschätzte Genauigkeit und Abdeckung darstellt. Die Größe der Blase gibt den Prozentsatz der Datensätze (Verteilung) an, die zu der Klasse gehören. Wenn Sie auf eine Blase zeigen, können Sie deren geschätzte Abdeckung, geschätzte Genauigkeit und Verteilung anzeigen.
      Die geschätzte Genauigkeit und Abdeckung für alle von der Lösung abgedeckten Klassen.

    Nächste Maßnahme

    Überprüfen Sie im Abschnitt „Klassenkonfidenz“ auf der Registerkarte „Lösungsstatistiken“ Ihrer Lösung die Statistiken zur Präzision und Abdeckung der trainierten Lösung.

    Auf der Registerkarte Testlösungen in Ihrer Lösung können Sie die Vorhersageausgabe testen, indem Sie Werte aus den Eingabefeldern eingeben, z. B. Kurzbeschreibung.

    Testen der Vorhersageausgabe für die Datensätze, die Sie als Eingabe für die Vorhersage verwendet haben, indem Sie Werte aus den Eingabefeldern eingeben, z. B. Kurzbeschreibung