Warnungen bei Schwellenwert für MID-Server-Ressource

  • Freigeben Version: Yokohama
  • Aktualisiert 30. Januar 2025
  • 7 Minuten Lesedauer
  • Die Instanz zeigt Warnungen an, wenn ein MID-Server seine Ressourcenschwellenwerte für die CPU- und JVM-Arbeitsspeicherauslastung verletzt. Dadurch können Benutzer E-Mail-Benachrichtigungen oder benutzerdefinierte Skripts erstellen, wenn ein Verstoß auftritt.

    Die Tabelle „MID-Server“ [ecc_agent_issue] warnt Benutzer, wenn ein MID-Server die konfigurierten Schwellenwerte der zugewiesenen CPU- und Speicherressourcen überschreitet. Diese Warnungen werden veröffentlicht, bevor der MID-Server eine Leistungsverschlechterung oder einen Fehler aufgrund von nicht genügendem Arbeitsspeicher aufweist. Dadurch kann der Administrator die Ressourcen erhöhen und Ausfallzeiten vermeiden. Administratoren können ein registriertes Event verwenden, um eine E-Mail-Benachrichtigung an ausgewählte Empfänger zu senden, sie über Schwellenwertverletzungen zu informieren oder ein benutzerdefiniertes Skript für andere Aufgaben zu erstellen. Die Instanz aktualisiert weiterhin die Tabelle „MID-Serverproblem“ [ecc_agent_issue], um die nicht gelösten Probleme aktuell zu halten.

    Standardmäßig sind CPU- und Speicherschwellenalarme deaktiviert, und es werden keine Alarme in der Tabelle „MID-Serverproblem“ [ecc_agent_issue] veröffentlicht. Um beide Arten der Benachrichtigung zu aktivieren, fügen Sie diese Eigenschaften der Tabelle „Systemeigenschaft“ [sys_properties] hinzu, und setzen Sie deren Werte auf true:
    • mid.threshold.resource.breach.enable.cpu.alerts
    • mid.threshold.resource.breach.enable.memory.alerts
    Weitere Informationen zum Hinzufügen von Systemeigenschaften zur Plattform finden Sie unter Eigenschaften mit sys_properties.list hinzufügen.

    Auswertungsvorgang

    Diese Verarbeitung erfolgt unabhängig davon, ob die Alarmierung aktiviert ist oder nicht:
    1. Alle 10 Minuten übermittelt jeder MID-Server seine CPU- und Speicherverbrauchsmesswerte an die Instanz. Die Instanz fügt CPU-Metriken in das Feld Mittlere CPU-Auslastung % der Tabelle „ECC-Agent-Skalarmetriken“ [ecc_agent_scalar_metric] und Speichermetriken in das Feld Max. verwendeter Speicher % der Tabelle „ECC-Agent-Speichermetriken“ [ecc_agent_memory_metric] ein.
    2. Nach dem erfolgreichen Einfügen werden für jede Tabelle die folgenden Business Rules ausgeführt, die eine Skripteinbindung aufrufen, die eine entsprechende Funktion aufruft. Für jede Funktion wird ein Durchschnitt der in die Tabellen eingefügten Metrik-Sets basierend auf den konfigurierten Samplingintervallen ermittelt.
      • CPU-Mittelwert für den MID-Serverstatus aktualisieren: Ruft die Skripteinbindung MIDResourceThresholdBreach.checkCpuUsage() auf.
      • Maximalen Speicher des MID-Serverstatus aktualisieren: Ruft die Skripteinbindung MIDResourceThresholdBreach.checkMemoryUsage auf.
      Für jede Funktion wird ein Durchschnitt der in die Tabellen eingefügten Metrik-Sets basierend auf den konfigurierten Schwellenwerten und Samplingintervallen ermittelt. Die Instanz sucht zunächst bei jedem MID-Server nach Konfigurationsparametern, die benutzerdefinierte Schwellenwerte oder Samplingintervalle für diesen MID-Server festlegen. Wenn keine Konfigurationsparameter für diese Attribute gefunden werden, sucht die Instanz in der Tabelle „Systemeigenschaften“ [sys_properties] nach benutzerdefinierten Werten, die verwendet werden sollen. Wenn keine Eigenschaften gefunden werden, verwendet die Instanz den Standardschwellenwert und die Intervallwerte aus dem Code.
      Hinweis:
      Sowohl die Prozentsätze der Schwellenwerte als auch die Samplingintervalle sind konfigurierbar. Unter Schwellenwerte und Samplingintervalle konfigurieren finden Sie weitere Details.

    Alarmierungsprozess

    Wenn die Warnung für CPU- oder Speicherschwellenwerte aktiviert ist, findet folgende Verarbeitung statt:
    1. Wenn der aggregierte durchschnittliche Metrikwert den konfigurierten Prozentschwellenwert erreicht oder überschreitet, löst die Instanz das Ereignis mid.threshold.resource.breach aus. Administratoren können dieses Ereignis verwenden, um E-Mail-Benachrichtigungen für Warnungen über Schwellenwerte zu erstellen oder ein anwenderdefiniertes Skript zu erstellen.
    2. Die Instanz fügt einen Datensatz des Verstoßes mit dem Status Neu und der Anzahl 1 in die Tabelle „MID-Serverproblem“ [ecc_agent_issue] ein und veröffentlicht dann eine Nachricht mit allen relevanten Details des Verstoßes. Ein Beispiel für diese Nachricht ist Mittlere CPU-Auslastung % hat Schwellenwert (96>=91) für eine 40-Minuten-Intervall überschritten, der nach dem Startdatum 2017-01-11 14:25:19 auftritt. Diese Meldung erscheint im Feld Kurzbeschreibung des Formulars „MID-Serverproblem“ und im Event. Sie können einen beliebigen Teil der Nachricht in Ihre E-Mail-Benachrichtigungen kopieren.

    MID-Serverproblemstatus

    Wenn der Administrator zum ersten Mal ein Problem in der Tabelle „MID-Serverproblem“ [ecc_agent_issue] überprüft, kann der Administrator den Status des Problems in Bestätigt ändern, um anzuzeigen, dass das Problem angegangen wird. Jedes Mal, wenn die Instanz einen Verstoß entdeckt, versucht sie, den Verstoß mit einem vorhandenen Problem abzugleichen. Wenn für einen MID-Server bereits ein Problemdatensatz für diese Verletzung mit dem Status Neu oder Bestätigt vorhanden ist, aktualisiert die Instanz das Feld Zuletzt erkannt mit dem aktuellen Datum und der aktuellen Uhrzeit und erhöht das Feld Anzahl im vorhandenen Datensatz. Dadurch wird die Erstellung doppelter Datensätze in der Tabelle „MID-Serverproblem“ [ecc_agent_issue] verhindert und die Anzahl der Wiederholungen des Incidents nach dem ersten Incident aufgezeichnet. Der Administrator kann die MID-Server-Ressourcen schrittweise erhöhen und die Auswirkungen auf das Feld Anzahl beobachten. Wenn der Zähler aufgehört hat, die Werte zu erhöhen, weiß der Administrator, dass der MID-Server über ausreichende Ressourcen verfügt. Wenn die MID-Server-Ressource entsprechend angepasst wurde, setzt der Administrator den Status auf Gelöst. Wenn eine neue Schwellenwertverletzung protokolliert wird, die zu einem MID-Serverproblem mit einem Status von Gelöst passt, erstellt die Instanz einen neuen Problemdatensatz.
    Hinweis:
    Jeder Datensatz in der Tabelle „MID-Serverproblem“ [ecc_agent_issue], der seit 30 Tagen nicht aktualisiert wurde, wird unabhängig von seinem Status gelöscht.

    Empfehlungen zur Lösung von Ressourcenproblemen

    Administratoren haben die Möglichkeit, Ressourcenprobleme mit einem MID-Server zu beheben, wenn sie über das Event benachrichtigt werden. Folgen Sie diesen Empfehlungen, um die Belastung der MID-Server-Ressourcen zu reduzieren:
    • JVM-Speicher:
      • Weisen Sie dem MID-Server mehr maximalen Arbeitsspeicher zu. Weitere Informationen finden Sie unter Legt die Größe des MID-Server-JVM-Arbeitsspeichers fest.
      • Fügen Sie weitere MID-Server hinzu, um die Arbeitsauslastung gemeinsam zu nutzen. Weitere Informationen finden Sie unter MID-Server-Cluster.
      • Reduzieren Sie den Umfang der gleichzeitigen Verarbeitung für den MID-Server. Dies umfasst die Segmentierung von IP-Adressbereichen in kleinere Segmente für einen Discovery-Zeitplan oder das Laden kleinerer Datensegmente innerhalb eines Importauftrags.
    • CPU: Reduzieren Sie die Aktivität auf dem Host oder migrieren Sie den MID-Server auf einen neuen Host mit mehr verfügbaren Ressourcen.
      Hinweis:
      Der MID-Server kann während der Discovery eine Spitze bei der Ressourcennutzung erzeugen, insbesondere bei der Erkennung einer großen Anzahl von Zielen oder der Ausführung mehrerer Power Shell-Sitzungen gleichzeitig. Die Ressourcennutzung des MID-Server-Hosts wird automatisch wieder normalisiert, nachdem die Discovery-Ausführung erfolgreich beendet wurde. Hosten Sie den MID-Server auf einem dedizierten Computer, um die CPU-Auslastung zu verringern. Wenn Probleme mit der Ressourcennutzung auftreten, stellen Sie sicher, dass auf jedem dedizierten Hostcomputer nur ein MID-Server ausgeführt wird. Wenn der MID-Server in einer Public Cloud gehostet wird, fügen Sie mehr CPU-Ressourcen hinzu, und vermeiden Sie das Problem der lauten Nachbargeräte. Weitere Informationen finden Sie unter Hohe CPU-Auslastung auf Host mit MID-Servern [KB0597639].

    Tabellen, die für die Auswertung der Ressourcenschwellenwerte verwendet werden

    Tabelle Beschreibung
    MID-Serverproblem [ecc_agent_issue] Speichert Daten zu verschiedenen Arten von MID-Server-Problemen, einschließlich Verstößen gegen konfigurierte CPU- und Speicherschwellenwerte. Felder, die für Verletzungen gegen Ressourcenschwellenwerte verwendet werden, sind:
    • count: Häufigkeit, mit der ein zuvor gemeldeter Schwellenwertverstoß auftritt, wenn das Event nicht als Gelöst markiert ist.
    • last_detected: Aktuelles Datum und Uhrzeit, zu dem ein Schwellenwertverstoß erkannt wurde. Dieses Feld wird jedes Mal aktualisiert, wenn ein zuvor erkannter Verstoß gefunden wird, sofern er nicht als Gelöst markiert ist.
    • message: Beschreibende Nachricht, die die Bedingungen zusammenfasst, unter denen das Schwellenwertverletzungs-Event ausgelöst wurde. Diese Meldung enthält den tatsächlich berechneten Prozentsatz an CPU und Arbeitsspeicher sowie die konfigurierten Schwellenwerte, die verletzt wurden.
    • mid_server: Name des MID-Servers, bei dem die Verletzung des Ressourcenschwellenwerts auftritt.
    • Quelle: Die Problemquelle für den Verstoß. Dies sind die möglichen Ursachen:
      • CpuMIDResourceThresholdBreach: Ursachen der CPU-Schwellenwertprobleme.
      • MemoryMIDResourceThresholdBreach: Ursachen für das Schwellenwertproblem des Arbeitsspeichers.
    MID-Serverstatus [ecc_agent_status] Speichert die für CPU- und Speicherressourcen verwendeten Prozentsätze, gemittelt über konfigurierbare Intervalle für jede Ressource. Die verwendeten Felder sind:
    • Mittlere CPU-Auslastung %
    • Max. genutzter Speicher %
    ECC-Agent-Skalarmetrik [ecc_agent_scalar_metric] Speichert die von jedem MID-Server eingefügten CPU-Auslastungsdaten alle 10 Minuten. Das Tabellenfeld, das für die Warnung des Ressourcenschwellenwerts verwendet wird, lautet Mittelwert.
    ECC-Agent-Speichermetrik [ecc_agent_memory_metric] Speichert die von jedem MID-Server eingefügten Speicherbelegungsdaten alle 10 Minuten. Das Tabellenfeld, das für die Warnung der Ressourcenschwellenwerte verwendet wird, lautet max_used_pct.

    Business Rules, die auf Schwellenwertverletzungen prüfen

    Business Rule Beschreibung
    Den CPU-Mittelwert für den MID-Serverstatus aktualisieren Wird ausgeführt, nachdem der MID-Server einen Datensatz in die Tabelle „ECC-Agent-Skalarmetrik“ [ecc_agent_scalar_metric] eingefügt hat. Diese Business Rule löst die Skripteinbindungsfunktion MIDResourceThresholdBreach aus, die Schwellenwerteinstellungen auswertet, um festzustellen, ob der MID-Server seine konfigurierten CPU-Ressourcenschwellenwerte verletzt hat.
    Aktualisieren Sie den maximalen Speicher des MID-Serverstatus Wird ausgeführt, nachdem der MID-Server einen Datensatz in die Tabelle „ECC-Agent-Speichermetrik“ [ecc_agent_memory_metric] eingefügt hat. Diese Business Rule löst die Skripteinbindungsfunktion MIDResourceThresholdBreach aus, die Schwellenwerteinstellungen auswertet, um festzustellen, ob der MID-Server die konfigurierten Schwellenwerte für Speicherressourcen verletzt hat.

    Schwellenwerte und Samplingintervalle konfigurieren

    Sie können die standardmäßigen Prozentsätze der Schwellenwerte und Samplingintervalle verwenden oder benutzerdefinierte Werte mit einer der folgenden Methoden konfigurieren:
    Die Systemeigenschaften und die Konfigurationsparameter verwenden dieselben Namen.
    Eigenschafts-/Konfigurationsparameter Beschreibung
    mid.threshold.mean_cpu.aggregate_interval_span Anzahl der 10-Minuten-Einheiten im Intervall für das Sampling von CPU-Auslastungsdaten. Das Standardintervall beträgt 30 Minuten (3 x 10 Minuten).

    Standard: 3

    mid.threshold.mean_cpu.percent Prozentsatz der Nutzung der gesamten CPU-Ressourcen, die eine Alarmmeldung zur Schwellenwertverletzung auslösen.

    Standard: 95

    mid.threshold.mean_max_memory.aggregate_interval_span Anzahl von 10-Minuten-Einheiten im Intervall für das Sampling von Speicherbelegungsdaten. Das Standardintervall beträgt 30 Minuten (3 x 10 Minuten).

    Standard: 3

    mid.threshold.mean_max_memory.percent Prozentsatz der Nutzung der gesamten Speicherressourcen, die eine Warnmeldung zur Schwellenwertverletzung auslösen.

    Standard: 95

    MID Server-Ressourcenberichte

    Das MID Server-Dashboard enthält zwei Berichte, die Ihnen Einblick in den Verbrauch von CPU- und JVM-Speicherressourcen geben. Diese Berichte zeigen die Nutzung der letzten 30 Tage an.
    • Durchschnittlicher Prozentsatz der verwendeten CPU: Der tägliche Durchschnitt der CPU-Auslastung zeigt, wie viel CPU-Verarbeitung der MID-Server-Host verbraucht. Auf demselben Host bereitgestellte MID-Server melden dieselbe CPU-Auslastung.
    • Durchschn. Prozentsatz des max. verwendeten Arbeitsspeichers: Der maximal verwendete Prozentsatz (max_used_pct) ist eine nützliche Metrik, um zu bestimmen, ob der MID-Server über genügend Arbeitsspeicherressourcen verfügt. Diese Metrik ist ein Prozentsatz des maximal verwendeten Speichers im Verhältnis zum insgesamt verfügbaren Speicher. Wenn Sie dies im Laufe der Zeit ändern, wird visualisiert, wie viel Speicher der MID-Server benötigt.