Erstellen und trainieren Sie eine Regressionslösung

  • Freigeben Version: Xanadu
  • Aktualisiert 1. August 2024
  • 6 Minuten Lesedauer
  • Trainieren Sie Ihre Lösung, indem Sie Verlaufsdaten verwenden, um numerische Ausgaben vorherzusagen, z. B. Temperatur oder Aktienkurs. Beispielsweise können Sie mithilfe der Regression schätzen, wie lange es dauert, einen Incident oder Fall zu lösen.

    Vorbereitungen

    Wichtig:
    Die Unterstützung für neue Regressionslösungen ist ab Release Xanadu veraltet. Sie können vorhandene Lösungen weiterhin bearbeiten und trainieren, aber Sie können keine neuen erstellen.

    Erforderliche Rolle: ml_admin oder admin

    Warum und wann dieser Vorgang ausgeführt wird

    Mit Regressionslösungen können Sie einen Zeitpunkt schätzen und ein Intervall vorhersagen. Das resultierende Modell liefert die folgenden Statistiken:
    • Der mittlere absolute Fehler (Mean Absolute Error, MAE) misst die durchschnittliche Abweichung eines vorhergesagten Werts vom Ist-Wert. Diese Metrik ist nützlich, da sie leicht zu verstehen ist, da ihre Skala mit der ihres Ziels identisch ist. MAE ist jedoch ungebunden, was den Vergleich zwischen Modellen erschwert.
    • Der symmetrische mittlere absolute prozentuale Fehler (Symmetric Mean Absolute Percentage Error, SMAPE) ist ein Prozentwert der Abweichung vom Vorhersagewert zum Istwert. SMAPE ist eine begrenzte Version von MAE, hat jedoch einen Wertebereich zwischen 0 und 100. Je niedriger der SMAPE-Wert, desto besser ist die Modellgenauigkeit.
    • Die Bereichsgenauigkeit ist der Prozentsatz der Ist-Werte innerhalb eines vorhergesagten Bereichs. Mit anderen Worten: Es handelt sich um den Bereich zwischen der Ober- und Untergrenze der Vorhersage. Wenn beispielsweise vier von fünf Ist-Werten innerhalb des vorhergesagten Bereichs liegen, beträgt die Bereichsgenauigkeit 80 %.
    • Diedurchschnittliche Intervallbreite ist die Differenz zwischen der Ober- und Untergrenze der Vorhersage. Diese Metrik erklärt, wie aussagekräftig das Intervall ist. Je kleiner die durchschnittliche Breite, desto besser das Modell

    Bei Vorhersagen können Sie mit der Regression auch ein Konfidenzniveau für das Vorhersageintervall (Bereich) angeben.

    In diesem Beispielverfahren erstellen und trainieren Sie eine Regressionslösungsdefinition, um vorherzusagen, wie lange die Wiederherstellung einer Cloud-Datenbank dauert.

    Prozedur

    1. Navigieren zu Alle > Predictive Intelligence > Regression > Lösungsdefinitionen.
    2. Klicken Sie in der Liste „Regressionsdefinitionen“ auf Neu.
    3. Konfigurieren Sie diese Felder im Formular „Regressionsdefinition“ gemäß der folgenden Anleitung.
      Feld Wert
      Bezeichnung Geben Sie einen eindeutigen Namen für die Regressionslösung ein. In diesem Anwendungsfall können Sie beispielsweise Regressionstest für DB-Wiederherstellungeingeben.
      Name Wenn Sie eine Lösungsbezeichnung eingeben, wird dieses Feld automatisch mit einem vom System zugewiesenen Namen gefüllt, der Ihrem Bezeichnungswert ähnelt.
      Wortkorpus

      Wählen Sie einen vorhandenen, für Ihre Lösung relevanten Wortkorpus aus. In diesem Anwendungsfall wählen Sie beispielsweise einen Wortkorpus mit einem Titel wie Incidents in den letzten 3 Monaten aus.

      Wenn Sie keinen relevanten Wortkorpus haben, führen Sie die Schritte aus, um zuerst einen Wortkorpus zu erstellen. Wenn der Wortkorpus vollständig ist, können Sie ihn im Feld „Wortkorpus“ in Ihrem Formular für Regressionsdefinitionen auswählen.

      Die Auswahl des Wortkorpus ist jedoch optional. Wenn Ihre Eingabedaten Textspalten enthalten und Sie keinen Wortkorpus auswählen, trainiert Ihre Regressionslösung ein neues Wortkorpusmodell anhand der Textspalten in Ihren Eingabedaten. Der resultierende Wortkorpus kann in einer anderen Regressionslösung oder einem anderen ML-Lösungstyp wiederverwendet werden.

      Hinweis:
      Für Benutzer, die Predictive Intelligence ab Utahaktiviert haben, wird anstelle des Wortkorpus ein vortrainiertes Modell verwendet.
      Tabelle Wählen Sie die Datenbanktabelle aus, auf die Sie die Regression anwenden. Die Tabelle sollte Verlaufsdatensätze enthalten, die das System verwenden kann, um die Dauer der Datenbankwiederherstellung vorherzusagen.
      Ausgabefeld

      Wählen Sie das Feld aus, dessen Wert das Vorhersagemodell festlegen soll.

      Im Allgemeinen ist ein gutes Ausgabefeld ein numerisches Feld, ein Ganzzahlfeld oder ein Gleitkommafeld.

      In diesem Beispielszenario verwenden Sie das Feld Dauer, um eine Zeitspanne zu messen. Das Ausgabefeld sollte einen numerischen Wert generieren.

      Felder Wählen Sie einen oder mehrere Feldtypen aus, die das System beim Identifizieren der Datensätze unterstützen, die Sie mithilfe der Regression trainieren möchten. In diesem Beispielszenario verwenden Sie Kurzbeschreibung, Quellrechenzentrum, Zielrechenzentrumund Datenbankgröße. (short_description, Sourcedc, Targetdc und Dbsize.) Eingabefelder können Zeichenfolge, Nennwert oder Numerisch sein.
      Filter (Optional) Fügen Sie den Ausgabefeld-Datensätzen, die Sie mithilfe der Regression trainieren möchten, Filterbedingungen hinzu.
      Hinweis:
      • Die Mindestanzahl von Datensätzen für das Regressionstraining beträgt 10.000 Datensätze.
      • Die Höchstanzahl von Datensätzen für das Regressionstraining ist auf 300.000 beschränkt.
      Verarbeitungs­sprache Wählen Sie die primäre Sprache des Datensatzes aus, den Sie für die Lösungsdefinition trainieren. Wenn die Datensatzsprache Italienisch ist, wählen Sie Italienisch aus. Außerdem werden alle Datensätze standardmäßig auch in Englisch verarbeitet. Wenn Sie beispielsweise Italienisch auswählen, verarbeitet das System die Daten sowohl in Englisch als auch in Italienisch.
      Hinweis:
      Der Begriff Verarbeitung beinhaltet einige der sprachspezifischen Schritte, die im Rahmen des Trainings einer Lösung verwendet werden. Diese Schritte umfassen das Tokenisieren von Wörtern, das Entfernen von Stoppwörtern und die Wortstammerkennung.
      Stoppwörter Nachdem Sie die Verarbeitungssprache ausgewählt haben, fügt das System automatisch eine Stoppwortliste in derselben Sprache hinzu. Wenn Ihre Verarbeitungssprache beispielsweise Italienisch ist, wird die Liste der standardmäßigen italienischen Stoppwörter angezeigt. Die Liste der standardmäßigen englischen Stoppwörter wird ebenfalls in Ihrer Auswahl angezeigt. Wenn Sie eine benutzerdefinierte Stoppwortliste erstellen, können Sie sie im Feld „Stoppwörter“ auswählen, um sie Ihrer Lösung hinzuzufügen. In diesem Szenario verwenden Sie die Liste für standardmäßige englische Stoppwörter.
      Schulungs­häufigkeit
      Wählen Sie aus, wie oft das System die Lösung basierend auf den Datensätzen, die dem Filter entsprechen, neu generiert. Folgende Optionen stehen zur Verfügung:
      • Einmal ausführen
      • Alle 30 Tage
      • Alle 60 Tage
      • Alle 90 Tage
      • Alle 120 Tage
      • Alle 180 Tage

      In diesem Szenario wählen Sie „Alle 30 Tage“ aus.

      Standardmäßig führt das System einmal ein Training durch. Dies gibt Ihnen Zeit, die Lösungsdefinition zu überprüfen und nach Bedarf zu aktualisieren, bis sie akzeptable Werte für Abdeckung und Genauigkeit liefert.

      Hinweis:
      • Die Mindestanzahl von Datensätzen, die für das Training der Regressionslösung erforderlich sind, ist auf 10.000 festgelegt.
      • Der ML-Planer begrenzt die Anzahl der Trainings, die eine Instanz innerhalb eines 24-Stunden-Fensters committen kann, auf 50 neue ML-Trainingsanforderungen pro Instanz. Dieser Grenzwert schließt geplante Anforderungen für erneutes Trainieren ein. Darüber hinaus sind Clustering- und Ähnlichkeitsupdates von diesem Grenzwert ausgeschlossen, selbst wenn die neuen Trainingsanforderungen innerhalb eines 24-Stunden-Fensters 50 überschreiten.
    4. Wählen Sie die entsprechende Kontextmenüoption aus, bzw. klicken Sie auf die entsprechende Schaltfläche für die Lösungsdefinition.
      OptionBeschreibung
      „Speichern“ oder „Speichern und schulen“ Speichern Sie den Lösungsdefinitionsdatensatz, damit Sie später dorthin zurückkehren können, oder speichern und übermitteln Sie ihn zum Trainieren.
      „Übermitteln“ oder „Übermitteln und schulen“ Erstellen Sie einen Lösungsdefinitionsdatensatz, und übermitteln Sie ihn, oder übermitteln und trainieren Sie ihn.
    5. Wenn Sie die Lösung zum Trainieren übermittelt haben, klicken Sie im Fenster Trainingsaktivierung zur Bestätigung auf OK.

      Das System plant das Trainieren der Lösung beim nächstgelegenen Trainingsservice. Das System sendet Ihnen bei Abschluss des Trainings eine Benachrichtigung und informiert Sie über alle aufgetretenen Fehler. Auch alle anderen Benutzer können die Kategorie „Predictive Intelligence-Benachrichtigungen“ abonnieren. Nach Abschluss des Trainings lädt das System die Lösung als Anhangsdatensatz hoch.

    Nächste Maßnahme

    In diesem Beispielszenario haben Sie eine ML-Lösung aus Ihrer Lösungsdefinition erstellt. Die Registerkarten Lösungsstatistiken, Testlösung und Lösungsdefinition werden im Abschnitt „Zugehörige Links“ Ihrer ML-Lösung angezeigt.

    Überprüfen Sie auf der Registerkarte Lösungsstatistiken die von Ihrer Lösung generierten Statistiken zur Punktschätzung und zum Bereich (Vorhersageintervall).

    Vorhersagestatistiken für die von Ihnen erstellte und trainierte Lösung.

    Auf der Registerkarte Testlösungen Ihrer Lösung können Sie die Vorhersageausgabe für die Datensätze testen, die Sie als Eingabe für die Vorhersage verwendet haben, indem Sie Werte für die Eingabefelder eingeben, z. B. Quellrechenzentrum, Zielrechenzentrumund Datenbankgröße. Sie können das Standard-Konfidenzniveau der Vorhersage von 95 verwenden oder einen anderen Wert zwischen 0 und 100 eingeben. Die Verwendung von 95 als Wert bedeutet, dass das System zu 95 % sicher ist, dass die tatsächliche Vorhersage in das Vorhersageintervall fällt. Klicken Sie auf die Schaltfläche Test ausführen, um die Vorhersageausgabe zu suchen.

    Die Werte, die Sie eingeben müssen, um einen Vorhersageausgabetest auszuführen.

    Nachdem Sie den Test ausgeführt haben, werden die Ausgabestatistiken der Vorhersage angezeigt. Die „Punktschätzung“ im Bildschirm ist ein einzelner Wert: ein bestimmter Zeitpunkt. Beispielsweise dauert die Datenbankwiederherstellung 134,47 Sekunden. Die Unter- und Obergrenzen auf dem Bildschirm geben einen Bereichsgenauigkeitswert an. Beispielsweise dauert die Datenbankwiederherstellung zwischen 84,53 und 185,41 Sekunden.

    Die Testausgabewerte für die Vorhersagen „Punktschätzung“ und „Bereichsgenauigkeit“.