Casos de uso e agrupamento de alertas

Versão de lançamento: Yokohama

Atualizado 30 de jan. de 2025

6 min. de leitura

Os métodos de agrupamento de alertas variam de abordagens definidas pelo usuário, como manual, baseado em regras e cluster de marcadores, a avançado, algoritmos ajustáveis, incluindo Automático, CMDB, Baseado em texto, Análise de log, e agrupamento baseado em tráfego de rede.

Tabela 1. Casos de uso e tipos de agrupamento de alertas
Tipo	Descrição	Caso de uso
Agrupamento de análise de log	Os alertas são agrupados com base na análise de dados de log. Isso envolve correlacionar entradas de log para identificar incidentes e problemas relacionados. Ao aproveitar padrões e sequências de log, esse método pode detectar problemas complexos de várias etapas em todo o ambiente DE TI.	Uma empresa de jogos on-line melhora a estabilidade do servidor implementando análise proativa de log. Eles monitoram logs de servidores de jogos em tempo real e usam ferramentas de análise para detetar padrões de erros que ocorrem antes de falhas. Por exemplo, a análise revela que determinados padrões de erro aparecem cerca de 30 minutos antes das falhas do servidor. Ao configurar alertas automatizados para esses padrões, a empresa pode iniciar ações de correção, como reiniciar serviços ou realocar recursos, antes que ocorra uma falha. Essa abordagem proativa evita interrupções, minimiza o tempo de inatividade e melhora a experiência de jogo, abordando problemas antes que eles afetem os jogadores.
Agrupamento baseado em regras	Os alertas são agrupados de acordo com regras predefinidas e critérios definidos pelos usuários. Essas regras podem incluir condições específicas, como limites ou tipos de evento. Este método é eficaz para padrões consistentes e repetíveis, mas requer a manutenção das regras.	Em um datacenter que gerencia um site de comércio eletrônico, o agrupamento de alertas baseado em regras ajuda a lidar com alto tráfego durante eventos como vendas relâmpago. Os alertas sobre problemas do servidor, como alto uso da CPU, são designados como alertas primários. Esses alertas primários estão vinculados a alertas secundários que relatam problemas relacionados, como consultas lentas ao banco de dados. As regras garantem que os alertas relacionados ao servidor sejam agrupados com seus sintomas, permitindo que a equipe DE TI identifique e resolva rapidamente problemas de sobrecarga do servidor. Essa abordagem melhora a eficiência da resolução de problemas e minimiza o tempo de inatividade.
Agrupamento automatizado	Os algoritmos avançados identificam e agrupam automaticamente alertas relacionados com base em padrões e semelhanças nos dados de alerta. Esse método aproveita o aprendizado de máquina e a IA para se adaptar a problemas novos e desconhecidos, fornecendo gestão proativa de alertas. Gestão de eventos agrupa alertas semelhantes, mas não necessariamente idênticos, com base na proximidade no tempo da última geração de evento. Os alertas com o mesmo IC e o mesmo identificador de padrão são agrupados. O agrupamento automático de alertas consiste nos seguintes componentes. Agregação de alertas do aluno ( Aluno de agregação de alertas de Análise de serviços - Diariamente ): Este trabalho off-line é executado diariamente para processar alertas anteriores e executar análise estatística para criar padrões de alerta. Para obter detalhes, consulte Configure o agrupamento de alertas baseado em padrão. Trabalho de agregação de alertas em tempo real ( Alertas de grupo da Análise de serviços usando RCA/Agregação de alertas ): Este trabalho é executado a cada minuto para gerar grupos de agregação de alertas com base em padrões de alerta, relacionamentos do CMDB, semelhança de texto, marcadores de cluster de alertas definidos pelo usuário e conexão de tráfego de rede entre processos.	Uma grande instituição financeira usa aprendizado de máquina para gerenciar alertas de vários servidores e aplicações. O sistema analisa dados de alertas históricos para reconhecer padrões, como falhas do servidor de banco de dados que frequentemente são acompanhadas por erros de conexão do cliente. Em seguida, agrupa automaticamente os alertas relacionados. Por exemplo, quando um novo alerta de falha do servidor de banco de dados é detectado, ele é agrupado com alertas de erro de conexão anteriores. Esse agrupamento automatizado ajuda as equipes DE TI e de segurança a identificar e resolver problemas rapidamente, melhorando os tempos de resposta e reduzindo o tempo de inatividade.
Agrupamento baseado em CMDB	Os alertas são agrupados com base nos relacionamentos e nas dependências do item de configuração (IC) do banco de dados de gestão de configurações (CMDB). Essa abordagem garante que os alertas relacionados a componentes ou serviços específicos da infraestrutura sejam agrupados, fornecendo gestão de alertas com reconhecimento de contexto.	Uma empresa de telecomunicações usa dados do CMDB para gerenciar alertas relacionados à infraestrutura de rede. Os alertas relacionados a um roteador de rede específico e seus dispositivos conectados são agrupados com base em seus relacionamentos do CMDB, permitindo que a equipe de rede veja todos os problemas relacionados e resolva a causa raiz com eficiência.
Agrupamento baseado em texto	Os alertas são agrupados analisando o conteúdo de texto dos alertas para identificar semelhanças e problemas relacionados. As técnicas de processamento de linguagem natural (NLP) são usadas para encontrar semelhanças na descrição do alerta, no nome da métrica e na classe de ic, tornando esse método eficaz para dados não estruturados.	Em uma organização que usa salas do Zoom para reuniões virtuais, a equipe DE TI recebe vários alertas quando o servidor da sala do Zoom sofre uma indisponibilidade. Cada alerta pode indicar que uma sala do Zoom diferente está inativa, como a sala do Zoom nº 10 está inativa, a sala do Zoom nº 11 está inativa e assim por diante, com a única diferença sendo o número da sala. Para organizações com um CMDB, esses alertas podem ser agrupados usando relações do CMDB, pois o sistema pode correlacionar os alertas com base no impacto do servidor em todas as salas do Zoom associadas. No entanto, para organizações sem CMDB, agrupamento baseado em texto pode ser usado. O sistema aplica o processamento de linguagem natural a alertas de grupo com descrições semelhantes, ajudando a equipe DE TI a identificar rapidamente que várias salas do Zoom são afetadas pelo mesmo problema de servidor subjacente. Essa abordagem permite que a equipe DE TI resolva com eficiência a causa raiz do problema, reduzindo o tempo de inatividade e melhorando os tempos de resposta.
Agrupamento de clusters de marcadores	Os alertas são categorizados e agrupados usando marcadores ou rótulos que representam atributos comuns, como aplicação, tipo de servidor ou localização geográfica. Este método permite o agrupamento flexível e dinâmico com base nas estratégias de marcação em evolução.	Uma organização sem um CMDB gerencia um servidor Linux que executa vários serviços. A equipe DE TI usa um Nó campo em cada alerta para identificar o servidor e eles agrupam todos os eventos relacionados a serviços no mesmo servidor com base nesse valor de nó. Por exemplo, eles agrupam alertas como Serviço A inativo e Serviço B alto uso de CPU juntos se compartilharem o mesmo valor de nó. Essa abordagem ajuda a equipe DE TI a lidar com problemas relacionados ao servidor com mais eficiência. Ao agrupar alertas para o mesmo nó, aplicação ou endereço IP, a equipe simplifica os esforços de resposta e resolve problemas de forma mais eficaz, mesmo sem um CMDB.
Agrupamento manual	Os usuários selecionam e agrupam manualmente alertas relacionados com base em sua experiência e compreensão do sistema. Essa abordagem permite um controle preciso, mas pode ser demorada e pode perder correlações automatizadas.	Um administrador do sistema recebe vários alertas sobre diferentes serviços que falham em um único servidor. O administrador agrupa manualmente esses alertas, reconhecendo que todos eles estão relacionados a uma única falha de hardware nesse servidor e prioriza a correção do problema de hardware para restaurar todos os serviços.

O agrupamento de alertas manual e baseado em regras difere do agrupamento baseado em algoritmo principalmente na forma como o alerta primário é escolhido. No agrupamento de análise manual, baseada em regras ou de log, um dos alertas reais é designado como o alerta primário. Nos modos Automático, CMDB, Baseado em texto, Cluster de marcadores e. Tráfego de rede , um alerta virtual, que representa o alerta mais antigo e grave do grupo, é criado como o alerta primário.

Nota:

Em ambientes separados por domínio, os grupos de alertas são criados somente para alertas no mesmo domínio.

Para obter informações sobre trabalhos agendados e parâmetros, consulte Trabalhos agendados e parâmetros para agrupamento de alertas. Para obter informações detalhadas sobre diferentes tipos de agrupamento, consulte Tipos de agrupamento de alertas e métodos de criação.