Agrupamento de alertas

  • Versão de lançamento: Xanadu
  • Atualizado 1 de ago. de 2024
  • 5 min. de leitura
  • O agrupamento de alertas é o processo de organização e consolidação de alertas relacionados em conjuntos com base em características ou critérios comuns. Isso ajuda a simplificar o gerenciamento de alertas, reduzindo o ruído, facilitando a priorização, o acompanhamento e a resolução de problemas com eficiência. Os alertas agrupados fornecem uma visão geral mais clara dos incidentes relacionados, facilitando a análise e a correção mais rápidas da causa raiz.

    Abordagens para o agrupamento de alertas

    Existem várias abordagens disponíveis para o agrupamento de alertas. Alguns métodos dependem de lógica definida pelo usuário, como Manual, Baseado em regras ou Cluster de marcadores, enquanto outros usam algoritmos avançados que podem ser ajustados, incluindo Automático, CMDB, Baseado em texto e Análise de logs.

    Tabela 1. Tipos de agrupamento de alertas e casos de uso
    Tipo Descrição Caso de uso
    Agrupamento de análise de log Os alertas são agrupados com base na análise dos dados de log. Isso envolve a correlação de entradas de log para identificar incidentes e problemas relacionados. Ao aproveitar padrões e sequências de log, este método pode detectar problemas complexos de várias etapas em todo o ambiente de TI. Uma empresa de jogos on-line monitora os logs de seus servidores de jogos para detectar problemas. A análise de log identifica um padrão de erros que ocorrem antes que o servidor falhe. Esses alertas relacionados são agrupados, permitindo que a equipe de TI investigue e corrija a causa raiz, como um erro específico no código do jogo que está causando as falhas.
    Agrupamento baseado em regras Os alertas são agrupados de acordo com regras e critérios predefinidos definidos pelos usuários. Essas regras podem incluir condições específicas, como limites ou tipos de evento. Este método é eficaz para padrões consistentes e repetíveis, mas requer manutenção das regras. Uma empresa configura regras para agrupar alertas de seu site de comércio eletrônico durante períodos de alto tráfego. Durante uma venda flash, vários alertas sobre tempos de resposta lentos e tempos limites são agrupados com base em regras predefinidas que identificam essas condições específicas, permitindo que a equipe de TI identifique e resolva rapidamente o problema subjacente de sobrecarga do servidor.
    Agrupamento automatizado

    Algoritmos avançados identificam e agrupam automaticamente os alertas relacionados com base em padrões e semelhanças nos dados do alerta. Este método aproveita o aprendizado de máquina e a IA para se adaptar a problemas novos e desconhecidos, fornecendo gerenciamento proativo de alertas.

    Gestão de eventos agrupa alertas semelhantes, mas não necessariamente idênticos, com base na proximidade no tempo da última geração de eventos. Alertas com o mesmo IC são agrupados.

    O agrupamento automático de alertas consiste nos seguintes componentes.
    • Aprendiz de agregação de alertas ( Aprendiz de agregaçãode alertas de Análise de serviços - Diariamente): este trabalho off-line é executado diariamente para processar alertas anteriores e executar análises estatísticas para criar padrões de alerta. Para obter detalhes, consulte Configurar agregação de alertas baseada em padrões.
    • Trabalho de Agregação de alertas em tempo real (Análise de serviços agrupa alertas usando RCA/Agregação de alertas): este trabalho é executado a cada minuto para gerar grupos de agregação de alertas com base em padrões de alerta, relações do CMDB e semelhança de texto.
    Uma grande instituição financeira precisa gerenciar alertas de milhares de servidores e aplicações. Os algoritmos de aprendizado de máquina analisam padrões nos dados de alerta e agrupam automaticamente os alertas relacionados, como uma série de alertas de segurança que indicam uma possível violação, permitindo que a equipe de segurança resolva rapidamente a ameaça.
    Agrupamento baseado em CMDB Os alertas são agrupados com base nos relacionamentos e nas dependências do item de configuração (IC) do Configuration Management Database (CMDB). Essa abordagem garante que os alertas relacionados a componentes ou serviços de infraestrutura específicos sejam agrupados, fornecendo gerenciamento de incidentes baseado em contexto. Uma empresa de telecomunicações usa dados do CMDB para gerenciar alertas relacionados à infraestrutura de rede. Os alertas relacionados a um roteador de rede específico e seus dispositivos conectados são agrupados com base em seus relacionamentos no CMDB, permitindo que a equipe de rede veja todos os problemas relacionados e resolva a causa raiz com eficiência.
    Agrupamento baseado em texto Os alertas são agrupados analisando o conteúdo de texto dos alertas para identificar semelhanças e problemas relacionados. As técnicas de processamento de linguagem natural (NLP) geralmente são usadas para encontrar semelhanças em descrições de alerta, tornando este método eficaz para dados não estruturados. Uma central de serviços de TI recebe um grande número de alertas com descrições variadas. Usando o processamento de linguagem natural, o sistema agrupa alertas que mencionam problemas semelhantes, como erro de conexão ao banco de dados ou não consegue se conectar ao banco de dados, ajudando a equipe de TI a identificar um problema generalizado no banco de dados que afeta vários serviços.
    Agrupamento de cluster de marcador Os alertas são categorizados e agrupados usando marcadores ou rótulos que representam atributos comuns, como aplicação, tipo de servidor ou localização geográfica. Este método permite o agrupamento flexível e dinâmico com base na evolução das estratégias de marcação. Uma organização marca os alertas por região geográfica para gerenciar sua infraestrutura de TI global com mais eficiência. Todos os alertas de servidores localizados na Irlanda são agrupados automaticamente usando marcadores de local, ajudando a equipe de TI a ver e responder rapidamente a problemas regionais, como uma queda de energia que afeta esse datacenter específico.
    Agrupamento manual Os usuários selecionam e agrupam manualmente os alertas relacionados com base em sua experiência e compreensão do sistema. Essa abordagem permite um controle preciso, mas pode ser demorada e pode perder correlações automatizadas. Um administrador do sistema recebe vários alertas sobre diferentes serviços com falha em um único servidor. O administrador agrupa manualmente esses alertas, reconhecendo que todos estão relacionados a uma única falha de hardware nesse servidor e prioriza a correção do problema de hardware para restaurar todos os serviços.
    O agrupamento de alertas manual e baseado em regras difere do agrupamento baseado em algoritmo principalmente na forma como o alerta primário é escolhido. No agrupamento de análise manual, baseado em regras ou em log, um dos alertas reais é designado como o alerta primário. Nos modos Automático, CMDB, Baseado em texto e Cluster de marcador, um alerta virtual, que representa o alerta mais antigo e grave do grupo, é criado como o alerta primário.
    Nota:
    Em ambientes separados por domínio, os grupos de alertas são criados somente para alertas no mesmo domínio.

    Para obter informações sobre trabalhos agendados e parâmetros, consulte Trabalhos agendados e parâmetros para agrupamento de alertas. Para obter informações detalhadas sobre diferentes tipos de agrupamento, consulte Tipos de agrupamento de alertas.

    Benefícios do agrupamento de alertas

    • Criar grupos de alertas automatizados agregando alertas com base em padrões predefinidos.
    • Correlacionar alertas usando carimbos de data/hora e identificação de IC para formar grupos de alertas automatizados.
    • Formando CMDBagrupamento de alertas baseado em correlacionando alertas com base em relacionamentos de IC no CMDB.
    • Correlacione alertas com base na semelhança de texto de alertas usando o NLP (Natural Language Processing).
    • Gerar padrões para adicionar alerta a um grupo de alertas e criar grupos de alertas automatizados de acordo.