Metrikdaten verstehen

Washington DC IT Operations Management

Release

washingtondc

ft:locale

de-DE

ft:publication_title

Washington DC IT Operations Management

ft:clusterId

itom

bundleId

itom

workflow

Technology

Metrikdaten verstehen

Freigeben Version: Washingtondc

Aktualisiert 1. Februar 2024

8 Minuten Lesedauer

Verwenden Sie Metrikdaten, um potentielle Serviceausfälle zu erkennen und zu verhindern. Metrikdaten, das auf historischen Metrikdaten basiert, weist auf anomales Verhalten von CIs hin, das von Events möglicherweise nicht erfasst wird. Anomaliewarnungen können zu regulären IT-Warnungen heraufgestuft werden und im Service Operations-Arbeitsbereich und im Dashboard zur Serviceintegrität für vorbeugende Maßnahmen angezeigt werden.

Ab Release New York ist Metric Intelligence Teil von ITOM-Integrität im Produkt IT Operations Management.

Anomalie-Erkennung

Metrikdaten werden von verschiedenen Datenquellen wie SCOM, dem SolarWinds-Überwachungssystem oder dem Nagios XI-Server (einige sind teilweise standardmäßig für die Metriksammlung konfiguriert) gesammelt. Diese Überwachungssysteme sammeln regelmäßig Metrikdaten aus der Quellumgebung. Metrikdaten erfasst die Rohdaten aus diesen Überwachungssystemen und verwendet Ereignisregeln und die CMDB-Identifizierungs-Engine, um Daten zu bestehenden CIs und deren Ressourcen zuzuordnen. Die Daten werden dann analysiert, um Anomalien zu erkennen und andere statistische Punktzahlen bereitzustellen.

Metrikdaten verwendet historische Metrikdaten, um statistische Modelle zu erstellen. Diese Modelle erleichtern die Projektion der erwarteten Metrikwerte zusammen mit der oberen und der unteren Grenze. Metrikdaten verwendet dann diese Projektionen, um statistische Ausreißer zu erkennen und Anomaliepunktzahlen zu berechnen. Anomalien werden in einem Bereich von 0 bis 10 bewertet. Hohe Anomaliepunktzahlen für CI-Metriken können darauf hinweisen, dass bei einem CI das Risiko eines Serviceausfalls besteht.

Nach der Verarbeitung zeigt der Explorer für Einblicke Metrikstatistiken und Diagramme an, und die Anomaliezuordnung zeigt über eine Zeitleiste korrelierte Punktzahlen für die CIs mit den höchsten Anomaliepunktzahlen an.

Gegebenenfalls empfiehlt es sich, die Anomalie-Erkennung während der Systemwartung zu deaktivieren, da Anomalien irrelevant sein können, wenn sie während der Wartung erkannt werden. Legen Sie dazu die Eigenschaft mid.mi.anomaly_detection.disable auf true fest.

Wenden Sie sich an den Kundensupport, um die Anzeige von Anomalien für Metriken anzupassen, die als nahezu konstant klassifiziert sind.

Metrikdaten ist verfügbar, wenn Sie das Plugin Metrikdaten (com.snc.sa.metric) aktivieren.

Mit Metrikdaten verwendete Begriffe

Quellmetriktyp: Eine Metrik wie „% freier Speicherplatz“ oder „Aktuelle Bandbreite“, die von einer Datenquelle für ein CI gemessen werden kann. Für jede Datenquelle können Sie auswählen, welcher der möglichen Quellmetriktypen verarbeitet wird. Beispielsweise sind etwa 380 Quellmetriktypen für die SCOM-Datenquelle standardmäßig aktiv.
Abweichung: Daten, die außerhalb der Kontrollgrenzen liegen, werden als statistische Ausreißer betrachtet. Diese Ausreißer werden zur Berechnung einer Anomaliepunktzahl verwendet, die einem Wert zwischen 0 und 10 entspricht und den Grad angibt, zu dem die Metrik unwahrscheinlich erscheint. Wenn eine Anomaliepunktzahl über einem Schwellenwert liegt, wird eine Anomaliewarnung generiert. Anomaliewarnungen werden getrennt von regulären IT-Warnungen gemeldet.
Ressource: Eine Komponente eines CI, die aus mehreren einzelnen Komponenten ähnlichen Typs besteht, wobei jede Unterkomponente separat überwacht werden kann. Beispielsweise einzelne Webseiten oder bestimmte Datenträger wie „Datenträger C:“ und „Datenträger D:“.
Zeitreihen: Eine Reihe von Werten (z. B. Metrikwerte) über einen Zeitbereich, die einem CI und einem Metriktyp zugeordnet sind. Da für jede Metrik eine Anomaliepunktzahl ausgewertet wird, entspricht die Reihe der Anomaliepunktzahlen über einen Zeitraum auch einer Zeitreihe. Zeitreihen werden vom statistischen Modell berechnet, das für eine Metrikdatenreihe erstellt wurde, und werden mit Metrikdatenwerten, Anomaliepunktzahlen sowie der oberen und der unteren Kontrollgrenze verwendet.

Statistische Modelle

Metric Intelligence-Aufträge lernen aus vergangenen Metrikdaten (bis zu 32 Tage alt). Ein Modelltrainingsprozess analysiert historische Daten, um ein Modell zu erstellen, das zukünftige Werte projiziert. In der Regel sind Modelle bis zur nächsten Ausführung des Modelllernprozesses gültig. Diese Modelle werden zur Berechnung der oberen und der unteren Grenze verwendet. Eingehende Werte, die diese Grenzen überschreiten und deren statistische Signifikanz von den erwarteten Werten abweicht, generieren Anomalien. Jedes Modell weist ein eindeutiges Muster auf und ist mit einem Klassifizierer versehen, der das allgemeine Verhalten des Modells veranschaulicht. Diese Klassifizierung bestimmt, ob eine Anomalie-Erkennung angewendet werden kann. Die meisten Modelle können projizieren, welche zukünftigen Werte von den erwarteten Werten abweichen. Derartige Modelle sind Kontrollgrenzen zugeordnet und die Anomalie-Erkennung kann angewendet werden (falls aktiviert).

Für einige Modelle sind jedoch nicht genügend Daten vorhanden, um zu bestimmen, welche Werte anomal sind. In diesem Fall kann die Anomalie-Erkennung nicht ohne zusätzliche Informationen angewendet werden (selbst wenn die Anomalie-Erkennung aktiviert ist).

Die gelernten Datenmodelle werden in der Tabelle „Metrikzeitreihenmodell“ [sa_time_series] gespeichert.

Die folgenden statistischen Modelle und Klassifizierer werden bei der Anomalie-Erkennung verwendet:

Statistisches Zeitreihenmodell

Nach der Einrichtung passt sich ein Zeitreihenmodell nicht an Änderungen in den eingehenden Metrikdaten an. Wenn sich daher das Muster eingehender Daten ändert, werden diese Änderungen wahrscheinlich als anomal eingestuft. Die obere und die untere Kontrollgrenze bleiben, nachdem sie erlernt wurden, bis zur nächsten Ausführung des Lernprozesses bestehen (Daten werden jeden Tag gelernt).

Wöchentlich

Daten mit einem Muster, das sich über wöchentliche Intervalle wiederholt (saisonales Modell).

Erfordert Daten von mindestens 15 Tagen in der Reihe, wie in der Konfigurationseinstellung week_model_min_days festgelegt.

Wöchentlicher Klassifizierer

Täglich

Daten mit einem Muster, das sich über tägliche Intervalle wiederholt (saisonales Modell).

Erfordert Daten von mindestens 3 Tagen in der Reihe, wie in der Konfigurationseinstellung daily_model_min_days festgelegt.

Täglicher Klassifizierer

Mit Trend

Daten mit einem linearen Trend mit einer gewissen Steigung und mit einigem Rauschen.

Erfordert mindestens 30 Datenpunkte in der Reihe, wie durch die Konfigurationseinstellung corrupt_data_count_threshold festgelegt.

Trend-Klassifizierer

Verrauscht

Typische verrauschte Daten, die eine grundlegende Musterklassifizierung in einem Datenmodell darstellen. Das Muster lässt sich nicht mit einem bestimmten Trend oder einer bestimmten Saisonabhängigkeit identifizieren.

Erfordert mindestens 30 Datenpunkte in der Reihe, wie durch die Konfigurationseinstellung corrupt_data_count_threshold festgelegt.

Verrauschter Klassifizierer

Positiv abgeschnitten verrauscht

Ähnlich dem verrauschten Klassifizierer mit Ausnahme der unteren Grenze, die auf 0 festgelegt ist.

Erfordert mindestens 30 Datenpunkte in der Reihe, wie durch die Konfigurationseinstellung corrupt_data_count_threshold festgelegt.

Positiv abgeschnittener verrauschter Klassifizierer

Zentriert verrauscht

Verrauschte Daten, die sich typischerweise symmetrisch zwischen der benutzerdefinierten oberen und unteren Grenze ausbreiten. Die Formel, die zum Festlegen von Begrenzungen und Breitenwerten verwendet wird, ignoriert die statistischen Daten, und die untere und die obere Breite haben einen identischen Wert.

Erfordert, dass die Anzahl der Datenpunkte in der Reihe gleich Null ist.

Weitere Informationen finden Sie unter Benutzerdefinierte Ober- und Untergrenzen für Metriken festlegen.

Zentrierter verrauschter Klassifizierer

Verzerrt verrauscht

Erfordert mindestens einen Datenpunkt in der Reihe.

Weitere Informationen finden Sie unter Benutzerdefinierte Ober- und Untergrenzen für Metriken festlegen.

Verzerrter verrauschter Klassifizierer

Verzerrtes Rauschen – Allgemeine Extremwertverteilung (Genaralized Extreme Value, GEV)

Verrauschte Daten, die nicht gleichmäßig zwischen der benutzerdefinierten oberen und unteren Grenze verteilt sind, sondern sich stattdessen tendenziell näher an einer der Grenzen konzentrieren. Außerdem weist die Datenverteilung ein langes Verteilungsende oder einen schweren Rand auf. Der vom Rand/Ende der Verteilung abgeleitete Median der Daten wird dazu verwendet, gesondert eine obere und eine untere Breite zu berechnen. Die Serie muss mindestens einen Datenpunkt enthalten.

Akkumulator

Datenmuster ähnlich dem Trend-Klassifizierer, aber mit monotonem Anstieg und ohne Rauschen. Für diesen Klassifizierer gibt es kein Datenmodell und keine Anomalie-Erkennung.

Erfordert mindestens 30 Datenpunkte in der Reihe, wie durch die Konfigurationseinstellung corrupt_data_count_threshold festgelegt.

Diagramm des Akkumulatorklassifizierers

Nahezu konstant

Nahezu konstante Daten, bei denen die meisten Werte einem spezifisch konstanten Wert entsprechen. Für diesen Klassifizierer gibt es kein Datenmodell und keine Anomalie-Erkennung.

Erfordert mindestens 30 Datenpunkte in der Reihe, wie durch die Konfigurationseinstellung corrupt_data_count_threshold festgelegt.

Diagramm des nahezu konstanten Klassifizierers

Multinomial

Datenmuster, in dem alle Werte zu einer relativ kleinen Anzahl von Werten gehören. Beispielsweise lauten die Werte immer 100 oder 99,9. Für diesen Klassifizierer gibt es kein Datenmodell und keine Anomalie-Erkennung.

Erfordert mindestens 400 Datenpunkte in der Reihe, berechnet als 10-facher Wert der Konfigurationseinstellung multinomial_count_threshold.

Multinomialer Klassifizierer

Beschädigt

Die Daten haben nicht genügend Datenpunkte, um ein Muster zu identifizieren. Für diesen Klassifizierer gibt es kein Datenmodell und keine Anomalie-Erkennung.

Erfordert, dass die Anzahl der Datenpunkte in der Reihe kleiner als der Wert der Konfigurationseinstellung corrupt_data_count_threshold (standardmäßig 30) ist.

Kalman-Filter – statistisches Modell

Add-on zum statistischen Zeitreihenmodell, das nur auf den verrauschten und positiv verrauschten Klassifizierer anwendbar ist. Dieses Modell ist eine allgemeine Methode zum Schätzen von Modellparametern aus einem Datenstrom, bei dem das Level der einzige Parameter im Modell ist. Das Kalman-Filtermodell kann an neue Werte in eingehenden Metrikdaten angepasst werden. Wenn das Rauschen keine eindeutigen Muster aufweist oder zu viel Rauschen vorhanden ist, wird das Kalman-Filtermodell nicht verwendet.

Lokales Level

Wenn eingehende Daten entsprechend den aktuellen Kontrollgrenzen um einen neuen Wert herum gruppiert werden, passt der Lernende das Datenmodell an, um einer permanenten Änderung Rechnung zu tragen. Dieses Clustering wird als neuer Wert im Datenmodell erkannt, sodass die meisten eingehenden Daten wieder innerhalb der Kontrollgrenzen liegen und nicht anomal sind. Eine solche Change-Erkennung ist nützlich, wenn z. B. einem Server Kerne oder Arbeitsspeicher hinzugefügt werden, die sich auf die Baselines auswirkt.

Erfordert mindestens 30 Datenpunkte in der Reihe, wie durch die Konfigurationseinstellung corrupt_data_count_threshold festgelegt.

Diagramm des Kalman-Filter-Klassifizierers auf lokalem Level

Nicht erkannt

Wenn Daten nicht zum Klassifizierer auf lokalem Level passen, werden Klassifizierer für Zeitreihen verwendet. Dies geschieht, wenn es nicht möglich ist, das Abweichungsverhältnis in einem erlernten Modell auf lokalem Level auf angemessene Werte anzupassen.

Nicht-parametrisches statistisches Modell

Add-on zum positiven verrauschten Klassifizierer. Im nicht-parametrischen Modell ist die Rauschverteilung nicht symmetrisch und entspricht keinem saisonalen Muster. Das nicht-parametrische Modell erstellt Kontrollgrenzen, die besser zu den tatsächlichen Daten passen, und die einmal gelernten Kontrollgrenzen bleiben bis zum nächsten Lernzyklus erhalten. Dieses Modell passt sich nicht an Änderungen in den Daten an, und es dauert länger, bis eine Abweichung als Anomalie erkannt wird.

Stationär, nicht parametrisch

Daten, die nicht zeitabhängig sind, was bedeutet, dass es bei der zeitlichen Verschiebung von Daten zu keiner signifikanten Verschiebung von Parametern wie Mittelwert und Abweichung kommt.

Erfordert mindestens 5.000 Datenpunkte in der Reihe, wie durch die Konfigurationseinstellung snpm_minimum_data_count festgelegt.

Diagramm des nicht parametrischen, stationären Klassifizierers

Nicht erkannt

Wenn Daten nicht zum stationären Klassifizierer passen, werden Klassifizierer für Zeitreihen verwendet.

Statistisches Modell der mittleren absoluten Abweichung vom Median (Median Absolute Deviation, MAD)

Ein Add-on zum verzerrten verrauschten Klassifizierer. Bei diesem Datentyp ist die Rauschverteilung nicht symmetrisch und entspricht keinem saisonalen Muster. Darüber hinaus entsprechen die Daten einer Verteilung mit langem Verteilungsende oder schwerem Rand. Im statistischen Modell der mittleren absoluten Abweichung vom Median werden Kontrollgrenzen erstellt, die besser zu den tatsächlichen Daten passen; die einmal gelernten Kontrollgrenzen bleiben dabei bis zum nächsten Lernzyklus erhalten. Durch Verwendung dieses Modells fällt die Entschlüsselung der Datenerfassung etwa 30 % effizienter aus.