Erstellen und trainieren Sie eine Regressionslösung

  • Freigeben Version: Washingtondc
  • Aktualisiert 1. Februar 2024
  • 6 Minuten Lesedauer
  • Trainieren Sie Ihre Lösung, indem Sie Verlaufsdaten verwenden, um numerische Ausgaben wie Temperatur oder Aktienkurs vorherzusagen. Beispielsweise können Sie die Regression verwenden, um die Zeit zu schätzen, die zur Lösung eines Incident oder Falls benötigt wird.

    Vorbereitungen

    Wichtig:
    Die Unterstützung für neue Regressionslösungen ist ab Release Washington DC veraltet. Sie können vorhandene Lösungen weiterhin bearbeiten und trainieren, aber Sie können keine neuen erstellen.

    Erforderliche Rolle: ml_admin oder admin

    Warum und wann dieser Vorgang ausgeführt wird

    Mit Regressionslösungen können Sie einen Zeitpunkt schätzen und ein Intervall vorhersagen. Das resultierende Modell liefert die folgenden Statistiken:
    • Mean Absolute Error (MAE), der die durchschnittliche Abweichung eines vorhergesagten Werts vom tatsächlichen Wert misst. Diese Metrik ist nützlich, da sie leicht zu verstehen ist, da ihre Skala mit der ihres Ziels identisch ist. MAE ist jedoch unbegrenzt, was den modellübergreifenden Vergleich erschwert.
    • Dersymmetrische mittlere absolute prozentuale Fehler (SMAPE) ist ein Prozentwert der Abweichung vom vorhergesagten zum tatsächlichen Wert. SMAPE ist eine begrenzte Version von MAE, hat jedoch einen Wertebereich zwischen 0 und 100. Je niedriger der SMAPE-Wert, desto besser die Modellgenauigkeit.
    • Die Bereichsgenauigkeit ist der Prozentsatz der tatsächlichen Werte zwischen einem vorhergesagten Bereich. Mit anderen Worten, es ist der Bereich zwischen der oberen und der unteren Grenze der Vorhersage. Wenn beispielsweise vier von fünf Ist-Werten innerhalb des vorhergesagten Bereichs liegen, beträgt die Bereichsgenauigkeit 80 %.
    • Diedurchschnittliche Intervallbreite ist die Differenz zwischen der oberen und der unteren Grenze der Vorhersage. Diese Metrik erklärt, wie aussagekräftig das Intervall ist. Je kleiner die durchschnittliche Breite, desto besser das Modell

    Bei Vorhersagen können Sie mit der Regression auch ein Konfidenzniveau für das Vorhersageintervall (Bereich) angeben.

    In diesem Beispielverfahren erstellen und trainieren Sie eine Regressionslösungsdefinition, um vorherzusagen, wie lange die Wiederherstellung einer Cloud-Datenbank dauern wird.

    Prozedur

    1. Navigieren zu Alle > Predictive Intelligence > Regression > Lösungsdefinitionen.
    2. Klicken Sie in der Liste „Regressionsdefinitionen“ auf Neu.
    3. Konfigurieren Sie diese Felder im Formular „Regressionsdefinition“ gemäß der folgenden Anleitung.
      Feld Wert
      Bezeichnung Geben Sie einen eindeutigen Namen für die Regressionslösung ein. In diesem Anwendungsfall können Sie beispielsweise Regressionstest für DB-Wiederherstellungeingeben.
      Name Wenn Sie eine Lösungsbezeichnung eingeben, wird dieses Feld automatisch mit einem vom System zugewiesenen Namen gefüllt, der Ihrem Bezeichnungswert ähnelt.
      Wortkorpus

      Wählen Sie einen vorhandenen, für Ihre Lösung relevanten Wortkorpus aus. In diesem Anwendungsfall wählen Sie beispielsweise einen Wortkorpus mit einem Titel wie Incidents in den letzten 3 Monaten aus.

      Wenn Sie keinen relevanten Wortkorpus haben, führen Sie die Schritte zum Erstellen eines Wortkorpus aus. Wenn der Wortkorpus vollständig ist, können Sie ihn im Feld „Wortkorpus“ in Ihrem Formular für Regressionsdefinitionen auswählen.

      Die Auswahl des Wortkorpus ist jedoch optional. Wenn Ihre Eingabedaten Textspalten enthalten und Sie keinen Wortkorpus auswählen, trainiert Ihre Regressionslösung ein neues Wortkorpusmodell anhand der Textspalten in Ihren Eingabedaten. Der resultierende Wortkorpus kann in einer anderen Regressionslösung oder einem anderen ML-Lösungstyp wiederverwendet werden.

      Hinweis:
      Für Benutzer, die Predictive Intelligence ab Utahaktiviert haben, wird anstelle des Wortkorpus ein vortrainiertes Modell verwendet.
      Tabelle Wählen Sie die Datenbanktabelle aus, auf die Sie die Regression anwenden. Die Tabelle sollte Verlaufsdatensätze enthalten, mit denen das System die Dauer der Datenbankwiederherstellung vorhersagen kann.
      Ausgabefeld

      Wählen Sie das Feld aus, dessen Wert das Vorhersagemodell festlegen soll.

      Im Allgemeinen ist ein gutes Ausgabefeld ein numerisches Feld, ein Ganzzahlfeld oder ein Gleitkommafeld.

      In diesem Beispielszenario verwenden Sie das Feld Dauer, um die Dauer zu messen. Das Ausgabefeld sollte einen numerischen Wert generieren.

      Felder Wählen Sie einen oder mehrere Feldtypen aus, die das System beim Identifizieren der Datensätze unterstützen, die Sie mithilfe der Regression trainieren möchten. In diesem Beispielszenario verwenden Sie Kurzbeschreibung, Quellrechenzentrum, Zielrechenzentrumund Datenbankgröße. (short_description, Sourcedc, Targetdc und Dbsize.) Eingabefeldtypen können Zeichenfolge, Nominal oder numerisch sein.
      Filter (Optional) Fügen Sie den Ausgabefelddatensätzen, die Sie mithilfe der Regression trainieren möchten, Filterbedingungen hinzu.
      Hinweis:
      • Die Mindestanzahl von Datensätzen für das Regressionstraining beträgt 10.000 Datensätze.
      • Die Höchstanzahl von Datensätzen für das Regressionstraining ist auf 300.000 beschränkt.
      Verarbeitungs­sprache Wählen Sie die primäre Sprache des Datensatzes aus, den Sie anhand der Lösungsdefinition trainieren. Wenn die Datensatzsprache Italienisch ist, wählen Sie Italienisch aus. Außerdem werden alle Datensätze standardmäßig auch in Englisch verarbeitet. Wenn Sie beispielsweise Italienisch auswählen, verarbeitet das System die Daten sowohl in Englisch als auch in Italienisch.
      Hinweis:
      Der Begriff Verarbeitung beinhaltet einige der sprachspezifischen Schritte, die im Rahmen des Trainings einer Lösung verwendet werden. Diese Schritte umfassen das Tokenisieren von Wörtern, das Entfernen von Stoppwörtern und die Wortstammerkennung.
      Stoppwörter Nachdem Sie die Verarbeitungssprache ausgewählt haben, fügt das System automatisch eine Stoppwortliste in derselben Sprache hinzu. Wenn Ihre Verarbeitungssprache beispielsweise Italienisch ist, wird die Liste der standardmäßigen italiänischen Stoppwörter angezeigt. Die Liste der standardmäßigen englischen Stoppwörter wird auch in Ihrer Auswahl angezeigt. Wenn Sie eine benutzerdefinierte Stoppwortliste erstellen, können Sie sie im Feld „Stoppwörter“ auswählen, um sie Ihrer Lösung hinzuzufügen. In diesem Szenario verwenden Sie die Liste für standardmäßige englische Stoppwörter.
      Schulungs­häufigkeit
      Wählen Sie aus, wie oft das System die Lösung basierend auf den Datensätzen, die dem Filter entsprechen, neu generiert. Folgende Optionen stehen zur Verfügung:
      • Einmal ausführen
      • Alle 30 Tage
      • Alle 60 Tage
      • Alle 90 Tage
      • Alle 120 Tage
      • Alle 180 Tage

      In diesem Szenario wählen Sie „Alle 30 Tage“ aus.

      Standardmäßig führt das System einmal ein Training durch. Dies gibt Ihnen Zeit, die Lösungsdefinition zu überprüfen und nach Bedarf zu aktualisieren, bis sie akzeptable Werte für Abdeckung und Genauigkeit liefert.

      Hinweis:
      • Die Mindestanzahl der für das Regressionslösungstraining erforderlichen Datensätze ist auf 10.000 festgelegt.
      • Der ML-Planer begrenzt die Anzahl der Schulungen, die eine Instanz innerhalb eines 24-Stunden-Fensters auf 50 neue ML-Trainingsanforderungen pro Instanz festlegen kann. Dieser Grenzwert schließt geplante Anforderungen für ein erneutes Training aus. Darüber hinaus sind Clustering- und Ähnlichkeitsaktualisierungen auch dann von diesem Grenzwert ausgeschlossen, wenn die neuen Trainingsanforderungen innerhalb eines 24-Stunden-Fensters 50 überschreiten.
    4. Wählen Sie die entsprechende Kontextmenüoption aus, bzw. klicken Sie auf die entsprechende Schaltfläche für die Lösungsdefinition.
      OptionBeschreibung
      „Speichern“ oder „Speichern und schulen“ Speichern Sie den Lösungsdefinitionsdatensatz, damit Sie später dorthin zurückkehren können, oder speichern und übermitteln Sie ihn zum Trainieren.
      „Übermitteln“ oder „Übermitteln und schulen“ Erstellen Sie einen Lösungsdefinitionsdatensatz, und übermitteln Sie ihn, oder übermitteln und trainieren Sie ihn.
    5. Wenn Sie die Lösung zum Trainieren übermittelt haben, klicken Sie im Fenster Trainingsaktivierung zur Bestätigung auf OK.

      Das System plant das Trainieren der Lösung beim nächstgelegenen Trainingsservice. Das System sendet Ihnen bei Abschluss des Trainings eine Benachrichtigung und informiert Sie über alle aufgetretenen Fehler. Auch alle anderen Benutzer können die Kategorie „Predictive Intelligence-Benachrichtigungen“ abonnieren. Nach Abschluss des Trainings lädt das System die Lösung als Anhangsdatensatz hoch.

    Nächste Maßnahme

    In diesem Beispielszenario haben Sie eine ML-Lösung aus Ihrer Lösungsdefinition erstellt. Die Registerkarten Lösungsstatistiken, Testlösung und Lösungsdefinition werden im Abschnitt „Zugehörige Links“ Ihrer ML-Lösung angezeigt.

    Überprüfen Sie auf der Registerkarte Lösungsstatistiken die Statistiken für Point Estimate (Punktschätzung) und Range (Vorhersageintervall), die von Ihrer Lösung generiert wurden.

    Die Vorhersagestatistiken für die von Ihnen erstellte und trainierte Lösung.

    Auf der Registerkarte Lösungen testen Ihrer Lösung können Sie die Vorhersageausgabe für die Datensätze testen, die Sie als Eingabe für die Vorhersage verwendet haben, indem Sie Werte für die Eingabefelder eingeben, z. B. Quellrechenzentrum, Zielrechenzentrumund Datenbankgröße. Sie können das Standard-Konfidenzniveau der Vorhersage von 95 verwenden oder einen anderen Wert zwischen 0 und 100 eingeben. Die Verwendung von 95 als Wert bedeutet, dass das System zu 95 % sicher ist, dass die tatsächliche Vorhersage in das Vorhersageintervall fällt. Klicken Sie auf die Schaltfläche Test ausführen, um die Vorhersageausgabe zu suchen.

    Die Werte, die Sie eingeben müssen, um einen Vorhersageausgabetest auszuführen.

    Nachdem Sie den Test ausgeführt haben, werden die Ausgabestatistiken der Vorhersage angezeigt. Die „Punktschätzung“ im Bildschirm ist ein einzelner Wert: ein bestimmter Zeitpunkt. Zum Beispiel dauert die Datenbankwiederherstellung 134,47 Sekunden. Die Untere und Obere Grenze auf dem Bildschirm geben einen Bereichsgenauigkeitswert an. Zum Beispiel dauert die Datenbankwiederherstellung zwischen 84,53 und 185,41 Sekunden.

    Die Testausgabewerte für die Vorhersagen „Punktschätzung“ und „Bereichsgenauigkeit“.