Alertes de seuil de ressources de Serveur MID

  • Rversion finale: Washingtondc
  • Mis à jour 1 févr. 2024
  • 9 minutes de lecture
  • L’instance affiche des avertissements lorsqu’un MID Server dépasse ses seuils de ressources pour l’utilisation du processeur et de la mémoire JVM, ce qui permet aux utilisateurs de créer des notifications par e-mail ou des scripts personnalisés lorsqu’une violation se produit.

    La table Problèmes de MID Server [ecc_agent_issue] avertit les utilisateurs lorsqu’un MID Server dépasse les seuils configurés de ses ressources de processeur et de mémoire allouées. Ces avertissements sont publiés avant que le MID Server ne subisse une dégradation des performances ou une erreur de mémoire, ce qui permet à l’administrateur d’augmenter les ressources et d’éviter les temps d’arrêt. Les administrateurs peuvent utiliser un événement enregistré pour envoyer une notification par e-mail à des destinataires sélectionnés, les informant de tout dépassement de seuil, ou pour créer un script personnalisé afin d’effectuer un autre type de travail. L’instance continue de mettre à jour la table Problèmes de MID Server [ecc_agent_issue] pour maintenir les problèmes non résolus à jour.

    Par défaut, les alertes de seuil de processeur et de mémoire sont désactivées et aucune alerte n’est publiée dans la table Problème de MID Server [ecc_agent_issue]. Pour activer les deux types d’alertes, ajoutez ces propriétés à la table Propriétés système [sys_properties], puis définissez leurs valeurs sur true :
    • mid.threshold.resource.breach.enable.cpu.alerts
    • seuil.mid.ressource.breach.enable.memory.alerts
    Pour plus d’informations sur l’ajout de propriétés système à la plateforme, consultez Ajouter une propriété à l’aide de sys_properties.list.

    Processus d’évaluation

    Ce traitement se produit, que l’alerte soit activée ou non :
    1. Toutes les 10 minutes, chaque MID Server transmet ses mesures de consommation de processeur et de mémoire à l’instance. L’instance insère les mesures de processeur dans le champ % moyen d’utilisation du processeur de la table Mesures scalaires de l’agent ECC [ecc_agent_scalar_metric] et les mesures de mémoire dans le champ % maximal de mémoire utilisée de la table Mesures de mémoire de l’agent ECC [ecc_agent_memory_metric].
    2. Si l’insertion réussit, les règles métier suivantes s’exécutent sur chaque table, appelant un script include qui appelle une fonction appropriée. Chaque fonction utilise une moyenne des jeux de mesures insérés dans les tables, en fonction des intervalles d’échantillonnage configurés.
      • Mettre à jour la moyenne du processeur sur l’état du serveur MID : appelle le script include MIDResourceThresholdBreach.checkCpuUsage().
      • Mettre à jour la mémoire maximale sur le serveur MID État : appelle le script include MIDResourceThresholdBreach.checkMemoryUsage .
      Chaque fonction utilise une moyenne des ensembles de mesures insérés dans les tables, en fonction des seuils et des intervalles d’échantillonnage configurés. L’instance examine d’abord chaque MID Server pour les paramètres de configuration qui définissent des valeurs de seuil ou des intervalles d’échantillonnage personnalisés pour ce MID Server. Si aucun paramètre de configuration n’est trouvé pour ces attributs, l’instance recherche les valeurs personnalisées à utiliser dans la table Propriétés système [sys_properties]. Si aucune propriété n’est trouvée, l’instance utilise les valeurs de seuil et d’intervalle par défaut du code.
      Remarque :
      Les pourcentages de seuil et les intervalles d’échantillonnage sont configurables. Consultez Configuration des seuils et des intervalles d’échantillonnage pour en savoir plus.

    Processus d’alerte

    Lorsque l’alerte relative aux seuils de processeur ou de mémoire est activée, le traitement suivant se produit :
    1. Si la valeur de mesure moyenne agrégée est égale ou supérieure au seuil de pourcentage configuré, l’instance déclenche l’événement mid.threshold.resource.breach . Les administrateurs peuvent utiliser cet événement pour créer des notifications par e-mail pour les alertes de violation de seuil ou pour créer un script personnalisé.
    2. L’instance insère un enregistrement de la violation dans la table Problème [ecc_agent_issue] du MID Server avec la valeur ÉtatNouveau et le Nombre de 1, puis publie un message contenant tous les détails pertinents de la violation. Voici un exemple de ce message : le % moyen de l’utilisation du processeur a dépassé le seuil (96>=91) pendant un intervalle de 40 minutes, se produisant après la date de début 2017-01-11 14 :25 :19. Ce message s’affiche dans le champ Brève description du formulaire Problème de MID Server et dans l’événement. Vous pouvez copier n’importe quelle partie du message dans vos notifications par e-mail.

    États des problèmes de MID Server

    Lorsque l’administrateur examine pour la première fois un problème dans la table Problème de MID Server [ecc_agent_issue], il peut modifier l’état du problème sur Authentifié pour indiquer que le problème est résolu. Chaque fois que l’instance détecte une violation, elle tente de faire correspondre la violation avec un problème existant. Si un MID Server dispose déjà d’un enregistrement de problème pour cette violation à l’étatNouveau ou Confirmé, l’instance met à jour le champ Dernier détecté avec la date/l’heure actuelles et incrémente le champ Nombre dans l’enregistrement existant. Cela empêche la création d’enregistrements en double dans la table Problème de MID Server [ecc_agent_issue] et enregistre le nombre de fois que la violation s’est reproduite après l’incident initial. L’administrateur peut augmenter progressivement les ressources du MID Server et surveiller l’effet sur le champ Nombre . Lorsque le compteur arrête d’incrémenter, l’administrateur sait que le MID Server dispose des ressources adéquates. Lorsque les ressources du MID Server ont été ajustées de manière appropriée, l’administrateur définit l’état sur Résolu. Si une nouvelle violation de seuil est consignée et qu’elle correspond à un problème de MID Server avec un étatRésolu, l’instance crée un nouvel enregistrement de problème.
    Remarque :
    Tout enregistrement de la table Problèmes de MID Server [ecc_agent_issue] qui n’a pas été mis à jour depuis 30 jours est supprimé, quel que soit son état.

    Recommandations pour résoudre les problèmes de ressources

    Les administrateurs ont la possibilité de résoudre tout problème de ressources avec un MID Server lorsqu’ils reçoivent une notification de l’événement. Suivez ces recommandations pour réduire la pression sur les ressources du serveur MID :
    • Mémoire JVM :
      • Allouez plus de mémoire maximale au MID Server. Pour plus d'informations, consultez Définir la taille de la mémoire JVM du MID Server.
      • Ajoutez des MID Servers supplémentaires pour partager la charge de travail. Pour plus d'informations, consultez Grappes de Serveur MID.
      • Réduisez la quantité de traitement simultané pour le MID Server. Cela inclut la segmentation des plages d’adresses IP en segments plus petits pour une planification Discovery ou le chargement de segments de données plus petits dans une tâche d’importation.
    • Processeur : réduisez l’activité sur l’hôte ou migrez le MID Server vers un nouvel hôte disposant de plus de ressources disponibles.
      Remarque :
      MID Server peut générer un pic d’utilisation des ressources pendant la détection, en particulier la détection sur un grand nombre de cibles ou l’exécution simultanée de plusieurs sessions Power Shell. L’utilisation des ressources de l’hôte du MID Server revient automatiquement à la normale après l’arrêt réussi de l’exécution de détection. Pour réduire l’utilisation du processeur, hébergez le MID Server sur un ordinateur dédié. Si vous rencontrez des problèmes d’utilisation des ressources, assurez-vous qu’un seul MID Server est exécuté sur chaque ordinateur hôte dédié. Si le MID Server est hébergé dans un cloud public, ajoutez plus de ressources de processeur et évitez le problème de voisinage bruyant. Pour plus d’informations, consultez Utilisation élevée du processeur sur un hôte avec un ou plusieurs MID Server [KB0597639].

    Tables utilisées pour l’évaluation du seuil de ressources

    Table Description
    Problème de serveur MID [ecc_agent_issue] Stocke des données sur divers types de problèmes de MID Server, y compris les violations des seuils configurés de processeur et de mémoire. Les champs utilisés pour les violations de seuil de ressources sont les suivants :
    • nombre : nombre de fois qu’une violation de seuil précédemment signalée se produit, si l’événement n’est pas marqué comme Résolu.
    • last_detected : date et heure actuelles auxquelles une violation de seuil est détectée. Ce champ est mis à jour chaque fois qu’une violation précédemment détectée est détectée, si elle n’est pas marquée comme résolue.
    • message : message descriptif résumant les conditions qui ont déclenché l’événement de violation de seuil. Ce message inclut le pourcentage réel de CPU et de mémoire calculé et les seuils configurés qui ont été dépassés.
    • mid_server : nom du MID Server qui subit la violation du seuil de ressources.
    • source : la source du problème pour la violation. Les sources possibles sont les suivantes :
      • CpuMIDResourceThresholdBreach : sources des problèmes de seuil du processeur.
      • MemoryMIDResourceThresholdBreach : sources des problèmes de seuil de mémoire.
    État du serveur MID [ecc_agent_status] Stocke les pourcentages utilisés pour les ressources de processeur et de mémoire, moyennés selon des intervalles configurables pour chaque ressource. Les champs utilisés sont les suivants :
    • % moyen utilisation du processeur
    • % max. mémoire utilisée
    Mesure scalaire d’agent ECC [ecc_agent_scalar_metric] Stocke les données d’utilisation du processeur insérées par chaque MID Server toutes les 10 minutes. Le champ de table utilisé par l’alerte de seuil de ressource est moyen.
    Mesure de la mémoire d’agent ECC [ecc_agent_memory_metric] Stocke les données d’utilisation de la mémoire insérées par chaque MID Server toutes les 10 minutes. Le champ de table utilisé par l’alerte de seuil de ressources est max_used_pct.

    Règles métier qui vérifient les dépassements de seuil

    Règle métier Description
    Mettre à jour la moyenne du processeur sur l’état du serveur MID S’exécute après que le MID Server a inséré un enregistrement dans la table Mesure scalaire d’agent ECC [ecc_agent_scalar_metric]. Cette règle métier déclenche la fonction de script include MIDResourceThresholdBreach qui évalue les paramètres de seuil pour déterminer si le MID Server a dépassé les seuils de ressources de processeur configurés.
    Mettre à jour la mémoire maximale sur l’état du serveur MID S’exécute après que le MID Server a inséré un enregistrement dans la table Mesure de la mémoire de l’agent ECC [ecc_agent_memory_metric]. Cette règle métier déclenche la fonction de script include MIDResourceThresholdBreach qui évalue les paramètres de seuil pour déterminer si le MID Server a dépassé les seuils de ressources de mémoire configurés.

    Configuration des seuils et des intervalles d’échantillonnage

    Vous pouvez utiliser les pourcentages de seuil et les intervalles d’échantillonnage par défaut ou configurer des valeurs personnalisées à l’aide de l’une des méthodes suivantes :
    Les propriétés système et les paramètres de configuration utilisent les mêmes noms.
    Paramètre de propriété/de configuration Description
    mid.threshold.mean_cpu.intervalle_agrégat span Nombre d’unités de 10 minutes dans l’intervalle d’échantillonnage des données d’utilisation du processeur. L’intervalle par défaut est de 30 minutes (3 x 10 minutes).

    Par défaut : 3

    mid.threshold.mean_cpu,pour cent Pourcentage d’utilisation des ressources de processeur totales qui déclenche une alerte de violation de seuil.

    Par défaut : 95

    mid.threshold.mean_max_memory.aggregate_interval_span Nombre d’unités de 10 minutes dans l’intervalle pour l’échantillonnage des données d’utilisation de la mémoire. L’intervalle par défaut est de 30 minutes (3 x 10 minutes).

    Par défaut : 3

    mid.threshold.mean_max_memory,pour cent Pourcentage d’utilisation des ressources de mémoire totales qui déclenche une alerte de violation de seuil.

    Par défaut : 95

    Génération de rapports sur les ressources du Serveur MID

    Le tableau de bord du MID Server contient deux rapports qui vous donnent des vues sur la consommation des ressources de mémoire CPU et JVM. Ces rapports montrent l’utilisation au cours des 30 derniers jours.
    • Pourcentage moyen d’utilisation du processeur : la tendance de la moyenne quotidienne de l’utilisation du processeur permet d’illustrer la quantité de traitement du processeur consommée par l’hôte du MID Server. Les MID Servers déployés sur le même hôte signalent la même utilisation du processeur.
    • Pourcentage moyen de mémoire maximale utilisée : le pourcentage maximal utilisé (max_used_pct) est une mesure utile pour déterminer si le MID Server dispose de ressources de mémoire suffisantes. Cette mesure correspond à un pourcentage de la mémoire maximale utilisée par rapport à la mémoire totale disponible. La tendance dans le temps fournit une visualisation de la quantité de mémoire requise par le MID Server.