Klassifizierungslösung erstellen und trainieren

Freigeben Version: Washingtondc

Aktualisiert 1. Februar 2024

6 Minuten Lesedauer

Geben Sie die Datensätze an, die zum Trainieren einer Klassifizierungslösung verwendet werden, welche Felder eine Vorhersage auslösen und wie oft Ihre Lösung neu trainiert werden soll.

Vorbereitungen

Erstellen Sie eine benutzerdefinierte Stoppwortliste.
Erforderliche Rolle: admin oder ml_admin

Warum und wann dieser Vorgang ausgeführt wird

Predictive Intelligence unterstützt Trainingslösungen, in denen die Quelldaten von diesen Arten der Verschlüsselung geschützt werden.

FDE (Vollständige Datenträgerverschlüsselung).
Verschlüsselung auf Spaltenebene. Stellen Sie bei Verwendung der Verschlüsselung auf Spaltenebene sicher, dass der Benutzer „sharedservice.worker“ dieselbe Verschlüsselungsmodulrolle hat, die für die Verschlüsselung verwendet wurde.

Hinweis:

Predictive Intelligenceunterstützt keine Trainingslösungen, in denen die Quelldaten durch Edge Encryption verschlüsselt werden.

Ein Vorhersagemodell ist nur so gut wie die Daten, mit denen es trainiert wird. Um geeignete Trainingsdatensätze auszuwählen, machen Sie sich mit dem Dictionary der Tabellendatenbank und mit der aktuellen Qualität der zu verwendenden Datensatzwerte vertraut.

Sie müssen für jedes Vorhersagemodell, das Sie unterstützen möchten, einen separaten Lösungsdefinitions-Datensatz erstellen. Sie können einen Lösungsdefinitionsdatensatz und seine Konfiguration in ein neues Formular kopieren, indem Sie im Kontextmenü auf Lösungsdefinition kopieren klicken. Sie können den neuen Datensatz verwenden, um weitere Lösungsaktualisierungen vorzunehmen, ohne die gesamte Lösungsdefinition neu zu konfigurieren.

Hinweis:

Klassen mit weniger als 30 Datensätzen in Ihrem Trainingsdatensatz werden vom Lösungstraining ausgeschlossen. Wenn das Training abgeschlossen ist, werden alle ausgeschlossenen Klassen im Abschnitt „Lösungsstatistiken“ Ihres ML-Lösungsformulars aufgeführt.

Alle Klassen, die von Ihrem Lösungstraining ausgeschlossen wurden, werden im Abschnitt „Lösungsstatistiken“ des ML-Lösungsformulars Ihrer trainierten Lösung aufgelistet.

Prozedur

Navigieren zu Alle > Predictive Intelligence > Klassifizierung > Lösungsdefinitionen.
Klicken Sie in der Liste „Klassifizierungsdefinitionen“ auf Neu.

Konfigurieren Sie diese Felder im leeren Formular „Klassifizierungsdefinition“ gemäß der folgenden Anleitung.


Feld	Wert
Bezeichnung	Geben Sie einen eindeutigen Namen für den Lösungsdatensatz ein.
Name	Das System generiert den Wert dieses schreibgeschützten Felds auf Grundlage der von Ihnen eingegebenen Bezeichnung.
Wortkorpus	Wählen Sie einen vorhandenen, für Ihre Lösung relevanten Wortkorpus aus. In diesem Anwendungsfall wählen Sie beispielsweise einen Wortkorpus mit einem Titel wie Incidents in den letzten 3 Monaten aus. Wenn Sie keinen relevanten Wortkorpus haben, führen Sie die Schritte zum Erstellen eines Wortkorpus aus. Wenn der Wortkorpus vollständig ist, können Sie ihn im Feld Wortkorpus im Formular „Klassifizierungsdefinition“ auswählen. Hinweis: Wortkorpus ist kein Pflichtfeld für Kunden, die Predictive Intelligence erstmals in Utah implementieren. Stattdessen wird ein vortrainiertes Modell verwendet.
Tabelle	Wählen Sie die Tabelle aus, die die Zieldatensätze enthält, die das System vorhersagen soll.
Ausgabefeld	Wählen Sie das Feld aus, dessen Wert das Vorhersagemodell festlegen soll. Im Allgemeinen hat ein gutes Ausgabefeld diese Eigenschaften. Dies ist ein Auswahlfeld oder ein Zeichenfolgenfeld mit einer endlichen Menge möglicher Werte. Es besteht ein Kausalzusammenhang zu den Eingabefeldern. Zum Beispiel wird für die standardmäßige Lösungsdefinition Incident-Kategorisierung das Feld Kategorie als Ausgabefeld verwendet.
Felder	Wählen Sie die Eingabefelder aus, die die Lösung zum Generieren einer Vorhersage verwenden soll. Eingabefelder sind Felder in einem Datensatz, die die Klassifizierungsinformationen enthalten können, die ihre Vorhersagelösung benötigt, um erfolgreich zu sein. Wenn Sie beispielsweise die richtige Klasse für die Selektierung eines Incident-Datensatzes vorhersagen, sollte die Vorhersage Datensätze mit Text sammeln, der auf die Klasse verweist. Die meisten Datensätze weisen kontextbezogenen Text im Feld Kurzbeschreibung auf, weswegen es sich in der Regel empfiehlt, dieses Eingabefeld zu nutzen. Sie können auch Auflösungshinweise als Eingabefeld verwenden, da es in den detaillierten Hinweisen für den Incident ebenfalls auf die Incident-Klasse verweisen kann. Im Allgemeinen haben gute Eingabefelder diese Eigenschaften. Die Felder stehen Benutzern beim Erstellen von Datensätzen zur Verfügung. Der Datentyp des Felds kann Zeichenfolge, Referenz, Auswahl oder HTML sein. Je mehr Informationen ein Feld bereitstellt, desto häufiger kann eine Lösung eine Vorhersage treffen und desto häufiger sind Vorhersagen genau. Das Feld hat einen Standardwert und darf nicht leer sein. Alle standardmäßigen Lösungsdefinitionen verwenden das Feld Kurzbeschreibung.
Filter	Klicken Sie auf Filterbedingung hinzufügen, um Bedingungen auf die Datensätze anzuwenden, die Sie trainieren. Die Lösungsdefinition Incident-Kategorisierung verwendet beispielsweise einen Filter mit folgenden Bedingungen: [Erstellt][am][Letzte 12 Monate] UND [Aktiv][ist][false] UND [Status][ist Bestandteil von][Gelöst \| Abgeschlossen]. Um eine Lösung zu trainieren, muss der Filter mindestens einen Datensatz zurückgeben. Wenn Ihr Filter keine Datensätze zurückgibt, aktualisieren Sie ihn, bis er Datensätze zum Trainieren zurückgibt. Hinweis: Die empfohlene Anzahl von Datensätzen für das Trainieren einer guten Lösung liegt zwischen 30.000 und 300.000. Wenn Sie mehr als 300.000 Datensätze einreichen, werden die neuesten 300.000 Datensätze zum Trainieren der Lösung verwendet. Verwenden Sie nur authentische Datensätze aus der Datenbank. Eine Lösung ist nur so gut wie die Daten, die Sie zum Trainieren der Lösung verwenden. Im Allgemeinen hat ein guter Filter diese Eigenschaften. Die Trainingsdatensätze sind inaktiv und besitzen einen Aufgabenstatus, der in Ihrem Standardprozess dafür steht, dass die Arbeit abgeschlossen wurde, z. B. „Gelöst“ oder „Geschlossen“. Die Trainingsdatensätze enthalten nur korrekte Werte für das Zielfeld. Filtern Sie Datensätze mit unzuverlässigen Zielfeldwerten heraus. Wenn Sie beispielsweise die Zuweisungsgruppe/Kategorie vorhersagen und Ihre historischen Incident-Daten Zuweisungsgruppen/Kategorien enthalten, die nicht mehr verwendet werden, fügen Sie einen Filter hinzu, um solche Incident-Datensätze aus dem Training zu entfernen. Die Trainingsdatensätze enthalten mehrere Beispiele für jeden Zielfeldwert, den die Lösung vorhersagen soll. Die Trainingsdatensätze enthalten übliche Variationen der Eingabefelder. Verwenden Sie keine hartcodierten Datumsangaben als Filter, da diese Filter nicht aktualisiert werden, wenn die Lösungen neu trainiert werden, es sei denn, Sie aktualisieren sie vor jedem neuen Training manuell. Verwenden Sie stattdessen relative Datumsfilter, wie z. B. letzte 3 Monate, letzte 6 Monate oder letzte 12 Monate.
Verarbeitungssprache	Wählen Sie die dominante Sprache des Datensatzes aus, den Sie anhand der Lösungsdefinition trainieren. Wenn die Datensatzsprache Italienisch ist, wählen Sie Italienisch aus. Außerdem werden alle Datensätze standardmäßig auch in Englisch verarbeitet. Wenn Sie beispielsweise Italienisch auswählen, verarbeitet das System die Daten sowohl in Englisch als auch in Italienisch. Hinweis: Der Begriff Verarbeitung beinhaltet einige der sprachspezifischen Schritte, die im Rahmen des Trainings einer Lösung verwendet werden. Zum Beispiel das Versehen von Wörtern mit Token, das Entfernen von Stoppwörtern und die Wortstammerkennung.
Stoppwörter	Nachdem Sie die Verarbeitungssprache ausgewählt haben, fügt das System automatisch eine Stoppwortliste in derselben Sprache hinzu. Wenn Ihre Verarbeitungssprache beispielsweise Italienisch ist, wird die Liste für standardmäßige italienische Stoppwörter angezeigt. Die Liste der standardmäßigen englischen Stoppwörter wird ebenfalls in Ihrer Auswahl angezeigt. Wenn Sie eine benutzerdefinierte Stoppwortliste erstellen, können Sie sie im Feld „Stoppwörter“ auswählen, um sie Ihrer Lösung hinzuzufügen.
Schulungshäufigkeit	Wählen Sie aus, wie oft das System die Lösung basierend auf den Datensätzen, die dem Filter entsprechen, neu generiert. Folgende Optionen stehen zur Verfügung: Einmal ausführen Alle 30 Tage Alle 60 Tage Alle 90 Tage Alle 120 Tage Alle 180 Tage Hinweis: Die Mindestanzahl der für das Training der Klassifizierungslösung erforderlichen Datensätze ist auf 10.000 festgelegt. Standardmäßig führt das System einmal ein Training durch. Dies gibt Ihnen Zeit, die Lösungsdefinition zu überprüfen und nach Bedarf zu aktualisieren, bis sie akzeptable Werte für Abdeckung und Genauigkeit liefert. Wenn Ihre Lösungsdefinition relativ stabil ist, sollten Sie regelmäßige Trainings in Betracht ziehen, da die Daten mit der Zeit altern können, wodurch die Genauigkeit Ihres Vorhersagemodells beeinträchtigt wird. Hinweis: Der ML-Planer begrenzt die Anzahl der Schulungen, die eine Instanz innerhalb eines 24-Stunden-Fensters auf 50 neue ML-Trainingsanforderungen pro Instanz festlegen kann. Dieses Limit schließt geplante Neutrainingsanforderungen, Clustering-Aktualisierungen und Ähnlichkeitsaktualisierungen aus, selbst wenn die neuen Trainingsanforderungen innerhalb eines 24-Stunden-Fensters 50 überschreiten.

Wählen Sie die entsprechende Kontextmenüoption aus, bzw. klicken Sie auf die entsprechende Schaltfläche für die Lösungsdefinition.

Option	Beschreibung
„Speichern“ oder „Speichern und schulen“	Speichern Sie den Lösungsdefinitionsdatensatz, damit Sie später dorthin zurückkehren können, oder speichern und übermitteln Sie ihn zum Trainieren.
„Übermitteln“ oder „Übermitteln und schulen“	Erstellen Sie einen Lösungsdefinitionsdatensatz, und übermitteln Sie ihn, oder übermitteln und trainieren Sie ihn.

Wenn Sie die Lösung zum Trainieren übermittelt haben, klicken Sie im Fenster Trainingsaktivierung zur Bestätigung auf OK.
- Das System plant das Trainieren der Lösung beim nächstgelegenen Trainingsservice. Das System sendet Ihnen bei Abschluss des Trainings eine Benachrichtigung und informiert Sie über alle aufgetretenen Fehler. Auch alle anderen Benutzer können die Kategorie „Predictive Intelligence-Benachrichtigungen“ abonnieren. Nach Abschluss des Trainings lädt das System die Lösung als Anhangsdatensatz hoch.
- Auf der Registerkarte „Lösungsvisualisierung“ Ihres Lösungsformulars wird ein Blasendiagramm angezeigt, das für alle von der Lösung abgedeckten Klassen die geschätzte Genauigkeit und Abdeckung darstellt. Die Größe der Blase gibt den Prozentsatz der Datensätze an (Verteilung), die zur Klasse gehören. Wenn Sie auf eine Blase zeigen, können Sie deren geschätzte Abdeckung, geschätzte Genauigkeit und Verteilung anzeigen.

Nächste Maßnahme

Überprüfen Sie im Abschnitt „Klassenkonfidenz“ auf der Registerkarte „Lösungsstatistiken“ Ihrer Lösung die Statistiken zur Präzision und Abdeckung der trainierten Lösung.

Auf der Registerkarte Testlösungen in Ihrer Lösung können Sie die Vorhersageausgabe testen, indem Sie Werte aus den Eingabefeldern eingeben, z. B. die Kurzbeschreibung.

So testen Sie die Vorhersageausgabe für die Datensätze, die Sie als Eingabe für die Vorhersage verwendet haben, indem Sie Werte aus den Eingabefeldern eingeben, z. B. die Kurzbeschreibung