Agrupamento de alertas e casos de uso

  • Versão de lançamento: Zurich
  • Atualizado 31 de jul. de 2025
  • 8 min. de leitura
  • Os métodos de agrupamento de alertas variam de abordagens definidas pelo usuário, como Manual E baseados em regras para algoritmos avançados e ajustáveis, incluindo automático, misto, baseado em texto, Log Analytics e agrupamento baseado em tráfego de rede.

    Tabela 1. Tipos de agrupamento de alertas e casos de uso
    Tipo Descrição Caso de uso
    Agrupamento de análise de log Os alertas são agrupados com base na análise de dados de log. Correlacionar entradas de log para identificar alertas e problemas relacionados. Ao aproveitar padrões e sequências de log, esse método pode detectar problemas complexos de várias etapas em todo o ambiente DE TI.

    Uma empresa de jogos on-line melhora a estabilidade do servidor implementando análise proativa de log. Eles monitoram logs de servidores de jogos em tempo real e usam ferramentas de análise para detectar padrões de erros que ocorrem antes de falhas.

    Por exemplo, a análise revela que determinados padrões de erro aparecem cerca de 30 minutos antes de falhas do servidor. Ao configurar alertas automatizados para esses padrões, a empresa pode iniciar ações de correção, como reiniciar serviços ou realocar recursos, antes que ocorra uma falha. Esta abordagem proativa evita interrupções, minimiza o tempo de inatividade e melhora a experiência de jogo, resolvendo problemas antes que eles afetem os jogadores.

    Agrupamento baseado em regras Os alertas são agrupados de acordo com regras predefinidas e critérios definidos pelos usuários. Essas regras podem incluir condições específicas, como limites ou tipos de evento. Este método é eficaz para padrões consistentes e repetíveis, mas requer a manutenção das regras.

    Em um datacenter que gerencia um site de e-commerce, o agrupamento de alertas baseado em regras ajuda a lidar com alto tráfego durante eventos como vendas relâmpago. Alertas sobre problemas do servidor, como alto uso de CPU, são designados como alertas primários. Esses alertas primários estão vinculados a alertas secundários que relatam problemas relacionados, como consultas lentas ao banco de dados.

    As regras garantem que os alertas relacionados ao servidor sejam agrupados com seus sintomas, permitindo que a equipe DE TI identifique e resolva rapidamente os problemas de sobrecarga do servidor. Essa abordagem melhora a eficiência da resolução de problemas e minimiza o tempo de inatividade.

    Agrupamento automatizado

    Algoritmos avançados identificam e agrupam automaticamente alertas relacionados com base em padrões e semelhanças nos dados de alerta. Este método aproveita o aprendizado de máquina e a IA para se adaptar a problemas novos e desconhecidos, fornecendo gestão proativa de alertas.

    Gestão de eventos agrupa alertas semelhantes, mas não necessariamente idênticos, com base na proximidade no tempo da última geração de evento. Os alertas com o mesmo IC e o mesmo identificador de padrão são agrupados.

    O agrupamento automático de alertas consiste nos seguintes componentes.
    • Agregação de alertas ( Aluno de Agregação de alertas da Análise de serviços - Diariamente ): Este trabalho off-line é executado diariamente para processar alertas anteriores e executar análises estatísticas para criar padrões de alerta. Para obter detalhes, consulte Configurar agrupamento de alertas baseado em padrão.
    • Trabalho de agregação de alertas em tempo real ( Alertas de grupo da Análise de serviços usando RCA/Agregação de alertas ): Este trabalho é executado a cada minuto para gerar grupos de agregação de alertas com base em padrões de alerta, relacionamentos do CMDB, semelhança de texto, marcadores de cluster de alertas definidos pelo usuário e conexão de tráfego de rede entre processos.

    Uma grande instituição financeira usa aprendizado de máquina para gerenciar alertas de vários servidores e aplicações. O sistema analisa dados de alertas históricos para reconhecer padrões, como falhas do servidor de banco de dados frequentemente acompanhadas por erros de conexão do cliente. Em seguida, ele agrupa automaticamente os alertas relacionados. Por exemplo, quando um novo alerta de falha do servidor de banco de dados é detectado, ele é agrupado com alertas de erro de conexão anteriores.

    Esse agrupamento automatizado ajuda as equipes DE TI e de segurança a identificar e resolver problemas rapidamente, melhorando os tempos de resposta e reduzindo o tempo de inatividade.

    Agrupamento misto O método de agrupamento misto combina alertas usando várias estratégias de agrupamento, como agrupamento baseado em CMDB e agrupamento baseado em marcador, em um único grupo coeso. Aproveita os pontos fortes de cada estratégia para reduzir o ruído de alerta, melhorar a correlação de alertas e destacar a verdadeira causa raiz dos incidentes.
    • Agrupamento baseado no CMDB: Os alertas são agrupados com base nos relacionamentos e dependências do Item de configuração (IC) do Configuration Management Database (CMDB). Essa abordagem garante que os alertas relacionados a componentes ou serviços de infraestrutura específicos sejam agrupados, fornecendo gestão de alertas com reconhecimento de contexto.
    • Agrupamento de clusters de marcadores: Os alertas são categorizados e agrupados usando marcadores ou rótulos que representam atributos comuns, como aplicação, tipo de servidor ou localização geográfica. Este método permite o agrupamento flexível e dinâmico com base nas estratégias de marcação em evolução.

    Caso de uso para agrupamento baseado em CMDB:

    Uma empresa de telecomunicações usa dados do CMDB para gerenciar alertas relacionados à infraestrutura de rede. Os alertas relacionados a um roteador de rede específico e seus dispositivos conectados são agrupados com base em seus relacionamentos do CMDB, permitindo que a equipe de rede veja todos os problemas relacionados e resolva a causa raiz com eficiência.

    Caso de uso para agrupamento de clusters de marcador:

    Uma organização sem um CMDB gerencia um servidor Linux que executa vários serviços. A equipe DE TI usa um campo em cada alerta para identificar o servidor e eles agrupam todos os eventos relacionados a serviços no mesmo servidor com base nesse valor de nó. Por exemplo, eles agrupam alertas como Serviço A inativo e Serviço B alto uso de CPU juntos se compartilharem o mesmo valor de nó.

    Essa abordagem ajuda a equipe DE TI a lidar com problemas relacionados ao servidor com mais eficiência. Agrupando alertas para o mesmo nó, aplicação ou endereço IP, a equipe simplifica seus esforços de resposta e resolve problemas de forma mais eficaz, mesmo sem um CMDB.

    Agrupamento baseado em tráfego de rede O agrupamento de alertas baseado no tráfego de rede analisa as conexões de rede entre processos em hosts para identificar alertas relacionados. Este método aproveita os candidatos de serviço detectados por meio do Mapeamento de serviços DE ML, garantindo que os alertas relacionados a problemas de tráfego de rede sejam agrupados para melhor contexto e resolução de alertas mais rápida.

    Uma plataforma de comércio eletrônico baseada em nuvem sofre lentidão nas transações, causando atrasos no processamento de pagamentos. Alertas tradicionais geram alertas separados para tempos limite de API, atrasos de banco de dados e problemas de rede, dificultando a identificação da causa raiz.

    Com o Agrupamento baseado no tráfego de rede, os alertas são agrupados automaticamente com base nas conexões processo a processo identificadas por meio do Mapeamento de serviços DE ML. O sistema detecta que os serviços de gateway de pagamento, a detecção de fraudes e o processamento de pedidos fazem parte do mesmo candidato ao serviço. Isso revela que um processo de detecção de fraude sobrecarregado está causando gargalos de transação. Ao expandir o serviço, a equipe resolve rapidamente o problema, minimizando o tempo de inatividade e melhorando a experiência do cliente.

    Agrupamento baseado em texto Os alertas são agrupados analisando o conteúdo de texto dos alertas para identificar semelhanças e problemas relacionados. As técnicas de processamento de linguagem natural (NLP) são usadas para encontrar semelhanças na descrição do alerta, no nome da métrica e na classe de ic, tornando esse método eficaz para dados não estruturados.

    Em uma organização que usa salas do Zoom para reuniões virtuais, a equipe DE TI recebe vários alertas quando o servidor da sala do Zoom sofre uma indisponibilidade. Cada alerta pode indicar que uma sala do Zoom diferente está inativa, como a sala do Zoom nº 10 está inativa, a sala do Zoom nº 11 está inativa e assim por diante, com a única diferença sendo o número da sala.

    Para organizações com um CMDB, esses alertas podem ser agrupados usando relações do CMDB, pois o sistema pode correlacionar os alertas com base no impacto do servidor em todas as salas do Zoom associadas. No entanto, para organizações sem um CMDB, agrupamento baseado em texto pode ser usado. O sistema aplica processamento de linguagem natural a alertas de grupo com descrições semelhantes, ajudando a equipe DE TI a identificar rapidamente que várias salas do Zoom são afetadas pelo mesmo problema subjacente do servidor. Essa abordagem permite que a equipe DE TI resolva com eficiência a causa raiz do problema, reduzindo o tempo de inatividade e melhorando os tempos de resposta.

    Agrupamento manual Os usuários selecionam e agrupam manualmente alertas relacionados com base em sua experiência e compreensão do sistema. Esta abordagem permite um controle preciso, mas pode ser demorada e pode perder correlações automatizadas. Um administrador do sistema recebe vários alertas sobre diferentes serviços que falham em um único servidor. O administrador agrupa manualmente esses alertas, reconhecendo que todos eles estão relacionados a uma única falha de hardware nesse servidor e prioriza a correção do problema de hardware para restaurar todos os serviços.
    O agrupamento de alertas manual e baseado em regras difere do agrupamento baseado em algoritmo principalmente na forma como o alerta primário é escolhido. No agrupamento de análise manual, baseado em regras ou de log, um dos alertas reais é designado como o alerta primário. Em Automático, CMDB, Baseado em texto, Modos de cluster de marcador e Tráfego de rede, um alerta virtual, que representa o alerta mais antigo e grave do grupo, é criado como o alerta primário.
    Nota:
    Em ambientes separados por domínio, os grupos de alertas são criados somente para alertas no mesmo domínio.

    Para obter informações sobre trabalhos agendados e parâmetros, consulte Trabalhos agendados e parâmetros para agrupamento de alertas. Para obter informações detalhadas sobre diferentes tipos de agrupamento, consulte Tipos de agrupamento de alertas e métodos de criação.