Regroupement d’alertes et cas d’utilisation

  • Rversion finale: Australia
  • Mis à jour 12 mars 2026
  • 8 minutes de lecture
  • Les méthodes de regroupement d’alertes vont des approches définies par l’utilisateur, telles que manuelles et basées sur des règles, aux algorithmes avancés et affinables, notamment le regroupement automatique, mixte, basé sur le texte, l’analyse de journaux et le regroupement basé sur le trafic réseau.

    Tableau 1. Types de groupes d’alertes et cas d’utilisation
    Type Description Cas d'utilisation
    Regroupement d’analyse de journaux Les alertes sont regroupées en fonction de l’analyse des données du journal. Cela implique de corréler les entrées de journal pour identifier les alertes et les problèmes connexes. En exploitant les modèles et les séquences de journal, cette méthode peut détecter des problèmes complexes en plusieurs étapes dans l’ensemble de l’environnement informatique.

    Une société de jeux en ligne améliore la stabilité du serveur en mettant en œuvre une analyse proactive des journaux. Ils surveillent les journaux des serveurs de jeux en temps réel et utilisent des outils d’analyse pour détecter les modèles d’erreurs qui se produisent avant les plantages.

    Par exemple, l’analyse révèle que certains modèles d’erreur apparaissent environ 30 minutes avant les pannes de serveur. En configurant des alertes automatisées pour ces modèles, l’entreprise peut initier des actions de correction, telles que le redémarrage des services ou la réallocation des ressources, avant qu’un incident ne se produise. Cette approche proactive permet d’éviter les perturbations, de minimiser les temps d’arrêt et d’améliorer l’expérience de jeu en résolvant les problèmes avant qu’ils n’affectent les joueurs.

    Regroupement basé sur des règles Les alertes sont regroupées en fonction de règles prédéfinies et de critères définis par les utilisateurs. Ces règles peuvent inclure des conditions spécifiques, telles que des seuils ou des types d’événements. Cette méthode est efficace pour obtenir des modèles cohérents et reproductibles, mais nécessite une maintenance des règles.

    Dans un centre de données gérant un site Web de commerce électronique, le regroupement d’alertes basé sur des règles permet de gérer un trafic élevé lors d’événements tels que les ventes flash. Les alertes concernant des problèmes de serveur, tels qu’une utilisation élevée du processeur, sont désignées comme des alertes parentes. Ces alertes parentes sont liées à des alertes enfants qui signalent des problèmes connexes, tels que des requêtes de base de données lentes.

    Les règles garantissent que les alertes liées au serveur sont regroupées avec leurs symptômes, ce qui permet à l’équipe informatique d’identifier et de résoudre rapidement les problèmes de surcharge du serveur. Cette approche améliore l’efficacité de la résolution des problèmes et minimise les temps d’arrêt.

    Regroupement automatisé

    Les algorithmes avancés identifient et regroupent automatiquement les alertes connexes en fonction des modèles et des similitudes des données d’alerte. Cette méthode exploite le machine learning et l’IA pour s’adapter aux problèmes nouveaux et inconnus, offrant ainsi une gestion proactive des alertes.

    Gestion des événements Regroupe les alertes similaires, mais pas nécessairement identiques, en fonction de la proximité dans le temps de la dernière génération d’événement. Les alertes avec le même CI et le même identificateur de modèle sont regroupées.

    Le regroupement automatique d’alertes se compose des composants suivants.
    • Apprenant d’agrégation d’alertes (Apprenant d’agrégation d’alertes Analyse de services : quotidien) : cette tâche hors connexion s’exécute quotidiennement pour traiter les alertes passées et effectuer une analyse statistique pour créer des schémas d’alerte. Pour plus de détails, voir Configurer le regroupement d’alertes basé sur des modèles.
    • Tâche d’agrégation d’alertes en temps réel (Analyse de services regroupe les alertes à l’aide de RCA/Agrégation d’alertes) : cette tâche s’exécute toutes les minutes pour générer des groupes d’agrégation d’alertes basés sur les schémas d’alerte, les relations CMDB, la similarité du texte, les balises de mise en grappe d’alertes définies par l’utilisateur et la connexion du trafic réseau entre les processus.

    Une grande institution financière utilise le machine learning pour gérer les alertes provenant de nombreux serveurs et applications. Le système analyse les données d’alerte historiques pour reconnaître des modèles, tels que les défaillances de serveur de base de données souvent accompagnées d’erreurs de connexion client. Il regroupe ensuite automatiquement les alertes connexes. Par exemple, lorsqu’une nouvelle alerte de défaillance de serveur de base de données est détectée, elle est regroupée avec les alertes d’erreur de connexion précédentes.

    Ce regroupement automatisé aide les équipes informatiques et de sécurité à identifier et à résoudre rapidement les problèmes, ce qui améliore les temps de réponse et réduit les temps d’arrêt.

    Regroupement mixte La méthode de regroupement mixte combine les alertes utilisant plusieurs stratégies de regroupement, telles que le regroupement basé sur CMDB et le regroupement basé sur les balises, en un seul groupe cohérent. Il exploite les points forts de chaque stratégie pour réduire le bruit des alertes, améliorer la corrélation des alertes et mettre en évidence la véritable cause première des incidents.
    • Regroupement basé sur CMDB : les alertes sont regroupées en fonction des relations des éléments de configuration (CI) et des dépendances de la Base de données de gestion des configurations (CMDB). Cette approche garantit que les alertes liées à des composants ou à des services d’infrastructure spécifiques sont regroupées, ce qui permet une gestion des alertes contextuelle.
    • Regroupement de grappes de balises : les alertes sont classées et regroupées à l’aide de balises ou d’étiquettes représentant des attributs communs, tels que l’application, le type de serveur ou l’emplacement géographique. Cette méthode permet un regroupement flexible et dynamique basé sur des stratégies de balisage évolutives.

    Cas d’utilisation du regroupement basé sur CMDB :

    Une entreprise de télécommunications utilise les données CMDB pour gérer les alertes liées à son infrastructure réseau. Les alertes relatives à un routeur réseau spécifique et à ses appareils connectés sont regroupées en fonction de leurs relations CMDB, ce qui permet à l’équipe réseau de voir tous les problèmes associés et de traiter efficacement la cause première.

    Cas d’utilisation pour le regroupement de grappes de balises :

    Une organisation sans CMDB gère un serveur Linux qui exécute divers services. L’équipe informatique utilise un champ Nœud dans chaque alerte pour identifier le serveur et regroupe tous les événements associés aux services sur le même serveur en fonction de cette valeur de nœud. Par exemple, ils regroupent les alertes telles que le service A en panne et l’utilisation élevée du processeur du service B s’ils partagent la même valeur de nœud.

    Cette approche aide l’équipe informatique à résoudre plus efficacement les problèmes liés aux serveurs. En regroupant les alertes pour le même nœud, la même application ou la même adresse IP, l’équipe rationalise ses efforts de réponse et résout les problèmes plus efficacement, même sans CMDB.

    Regroupement basé sur le trafic réseau Le regroupement d’alertes basé sur le trafic réseau analyse les connexions réseau entre les processus à travers les hôtes pour identifier les alertes connexes. Cette méthode exploite les candidats de service détectés via ML Service Mapping, garantissant que les alertes liées aux problèmes de trafic réseau sont regroupées pour un meilleur contexte et une résolution plus rapide des alertes.

    Une plateforme de commerce électronique basée sur le cloud connaît des ralentissements de transaction, entraînant des retards dans le traitement des paiements. Les alertes traditionnelles génèrent des alertes distinctes pour les délais d’API, les retards de base de données et les problèmes de réseau, ce qui rend difficile l’identification de la cause première.

    Avec le regroupement basé sur le trafic réseau, les alertes sont automatiquement regroupées en fonction des connexions de processus à processus identifiées via ML Service Mapping. Le système détecte que les services de passerelle de paiement, la détection des fraudes et le traitement des commandes font partie du même candidat de service. Cela révèle qu’un processus de détection des fraudes surchargé provoque des goulots d’étranglement dans les transactions. En faisant évoluer le service, l’équipe résout rapidement le problème, en minimisant les temps d’arrêt et en améliorant l’expérience client.

    Regroupement basé sur du texte Les alertes sont regroupées en analysant le contenu textuel des alertes afin d’identifier les similitudes et les problèmes connexes. Les techniques de traitement du langage naturel (NLP) permettent de trouver des points communs dans la description de l’alerte, le nom de la mesure et la classe CI, ce qui rend cette méthode efficace pour les données non structurées.

    Dans une organisation qui utilise Zoom Room pour des réunions virtuelles, l’équipe informatique reçoit de nombreuses alertes lorsque le serveur Zoom Room subit une panne. Chaque alerte peut indiquer qu’une salle Zoom différente est en panne, comme Zoom Room n° 10 est en panne, Zoom Room n° 11 est en panne, et ainsi de suite, la seule différence étant le numéro de la salle.

    Pour les organisations disposant d’une CMDB, ces alertes peuvent être regroupées à l’aide de relations CMDB, car le système peut corréler les alertes en fonction de l’impact du serveur sur toutes les Zoom rooms associées. Toutefois, pour les organisations qui ne disposent pas d’une CMDB, il est possible d’utiliser un regroupement basé sur du texte. Le système applique le traitement du langage naturel pour regrouper les alertes avec des descriptions similaires, ce qui aide l’équipe informatique à identifier rapidement que plusieurs salles Zoom sont affectées par le même problème de serveur sous-jacent. Cette approche permet à l’équipe informatique de s’attaquer efficacement à la cause première du problème, en réduisant les temps d’arrêt et en améliorant les temps de réponse.

    Regroupement manuel Les utilisateurs sélectionnent et regroupent manuellement les alertes connexes en fonction de leur expertise et de leur compréhension du système. Cette approche permet un contrôle précis, mais peut prendre du temps et manquer les corrélations automatisées. Un administrateur système reçoit plusieurs alertes concernant différents services défaillants sur un seul serveur. L’administrateur regroupe manuellement ces alertes, en reconnaissant qu’elles sont toutes liées à une seule défaillance matérielle sur ce serveur, et donne la priorité à la résolution du problème matériel pour restaurer tous les services.
    Le regroupement d’alertes manuel et basé sur des règles diffère du regroupement basé sur un algorithme principalement par la façon dont l’alerte parente est choisie. Dans le regroupement manuel, basé sur des règles ou d’analyse de journaux, l’une des alertes réelles est désignée comme alerte parente. Dans les modes Automatique, CMDB, Texte, Grappe de balises et Trafic réseau, une alerte virtuelle, représentant l’alerte la plus ancienne et la plus grave du groupe, est créée en tant qu’alerte parente.
    Remarque :
    Dans les environnements séparés par domaine, les groupes d’alertes sont créés uniquement pour les alertes situées au sein d’un même domaine.

    Pour plus d’informations sur les travaux planifiés et les paramètres, reportez-vous à .Travaux planifiés et paramètres pour le regroupement d’alertes Pour en savoir plus sur les différents types de regroupement, reportez-vous à la section Types de regroupement d’alertes et méthodes de création.