Casos de uso e agrupamento de alertas
Os métodos de agrupamento de alertas variam de abordagens definidas pelo usuário, como manual, baseado em regras e cluster de marcadores, a avançado, algoritmos ajustáveis, incluindo Automático, CMDB, Baseado em texto, Análise de log, e agrupamento baseado em tráfego de rede.
| Tipo | Descrição | Caso de uso |
|---|---|---|
| Agrupamento de análise de log | Os alertas são agrupados com base na análise de dados de log. Isso envolve correlacionar entradas de log para identificar incidentes e problemas relacionados. Ao aproveitar padrões e sequências de log, esse método pode detectar problemas complexos de várias etapas em todo o ambiente DE TI. |
Uma empresa de jogos on-line melhora a estabilidade do servidor implementando análise proativa de log. Eles monitoram logs de servidores de jogos em tempo real e usam ferramentas de análise para detetar padrões de erros que ocorrem antes de falhas. Por exemplo, a análise revela que determinados padrões de erro aparecem cerca de 30 minutos antes das falhas do servidor. Ao configurar alertas automatizados para esses padrões, a empresa pode iniciar ações de correção, como reiniciar serviços ou realocar recursos, antes que ocorra uma falha. Essa abordagem proativa evita interrupções, minimiza o tempo de inatividade e melhora a experiência de jogo, abordando problemas antes que eles afetem os jogadores. |
| Agrupamento baseado em regras | Os alertas são agrupados de acordo com regras predefinidas e critérios definidos pelos usuários. Essas regras podem incluir condições específicas, como limites ou tipos de evento. Este método é eficaz para padrões consistentes e repetíveis, mas requer a manutenção das regras. |
Em um datacenter que gerencia um site de comércio eletrônico, o agrupamento de alertas baseado em regras ajuda a lidar com alto tráfego durante eventos como vendas relâmpago. Os alertas sobre problemas do servidor, como alto uso da CPU, são designados como alertas primários. Esses alertas primários estão vinculados a alertas secundários que relatam problemas relacionados, como consultas lentas ao banco de dados. As regras garantem que os alertas relacionados ao servidor sejam agrupados com seus sintomas, permitindo que a equipe DE TI identifique e resolva rapidamente problemas de sobrecarga do servidor. Essa abordagem melhora a eficiência da resolução de problemas e minimiza o tempo de inatividade. |
| Agrupamento automatizado |
Os algoritmos avançados identificam e agrupam automaticamente alertas relacionados com base em padrões e semelhanças nos dados de alerta. Esse método aproveita o aprendizado de máquina e a IA para se adaptar a problemas novos e desconhecidos, fornecendo gestão proativa de alertas. Gestão de eventos agrupa alertas semelhantes, mas não necessariamente idênticos, com base na proximidade no tempo da última geração de evento. Os alertas com o mesmo IC e o mesmo identificador de padrão são agrupados. O agrupamento automático de alertas consiste nos seguintes componentes.
|
Uma grande instituição financeira usa aprendizado de máquina para gerenciar alertas de vários servidores e aplicações. O sistema analisa dados de alertas históricos para reconhecer padrões, como falhas do servidor de banco de dados que frequentemente são acompanhadas por erros de conexão do cliente. Em seguida, agrupa automaticamente os alertas relacionados. Por exemplo, quando um novo alerta de falha do servidor de banco de dados é detectado, ele é agrupado com alertas de erro de conexão anteriores. Esse agrupamento automatizado ajuda as equipes DE TI e de segurança a identificar e resolver problemas rapidamente, melhorando os tempos de resposta e reduzindo o tempo de inatividade. |
| Agrupamento baseado em CMDB | Os alertas são agrupados com base nos relacionamentos e nas dependências do item de configuração (IC) do banco de dados de gestão de configurações (CMDB). Essa abordagem garante que os alertas relacionados a componentes ou serviços específicos da infraestrutura sejam agrupados, fornecendo gestão de alertas com reconhecimento de contexto. | Uma empresa de telecomunicações usa dados do CMDB para gerenciar alertas relacionados à infraestrutura de rede. Os alertas relacionados a um roteador de rede específico e seus dispositivos conectados são agrupados com base em seus relacionamentos do CMDB, permitindo que a equipe de rede veja todos os problemas relacionados e resolva a causa raiz com eficiência. |
| Agrupamento baseado em texto | Os alertas são agrupados analisando o conteúdo de texto dos alertas para identificar semelhanças e problemas relacionados. As técnicas de processamento de linguagem natural (NLP) são usadas para encontrar semelhanças na descrição do alerta, no nome da métrica e na classe de ic, tornando esse método eficaz para dados não estruturados. |
Em uma organização que usa salas do Zoom para reuniões virtuais, a equipe DE TI recebe vários alertas quando o servidor da sala do Zoom sofre uma indisponibilidade. Cada alerta pode indicar que uma sala do Zoom diferente está inativa, como a sala do Zoom nº 10 está inativa, a sala do Zoom nº 11 está inativa e assim por diante, com a única diferença sendo o número da sala. Para organizações com um CMDB, esses alertas podem ser agrupados usando relações do CMDB, pois o sistema pode correlacionar os alertas com base no impacto do servidor em todas as salas do Zoom associadas. No entanto, para organizações sem CMDB, agrupamento baseado em texto pode ser usado. O sistema aplica o processamento de linguagem natural a alertas de grupo com descrições semelhantes, ajudando a equipe DE TI a identificar rapidamente que várias salas do Zoom são afetadas pelo mesmo problema de servidor subjacente. Essa abordagem permite que a equipe DE TI resolva com eficiência a causa raiz do problema, reduzindo o tempo de inatividade e melhorando os tempos de resposta. |
| Agrupamento de clusters de marcadores | Os alertas são categorizados e agrupados usando marcadores ou rótulos que representam atributos comuns, como aplicação, tipo de servidor ou localização geográfica. Este método permite o agrupamento flexível e dinâmico com base nas estratégias de marcação em evolução. |
Uma organização sem um CMDB gerencia um servidor Linux que executa vários serviços. A equipe DE TI usa um Nó campo em cada alerta para identificar o servidor e eles agrupam todos os eventos relacionados a serviços no mesmo servidor com base nesse valor de nó. Por exemplo, eles agrupam alertas como Serviço A inativo e Serviço B alto uso de CPU juntos se compartilharem o mesmo valor de nó. Essa abordagem ajuda a equipe DE TI a lidar com problemas relacionados ao servidor com mais eficiência. Ao agrupar alertas para o mesmo nó, aplicação ou endereço IP, a equipe simplifica os esforços de resposta e resolve problemas de forma mais eficaz, mesmo sem um CMDB. |
| Agrupamento manual | Os usuários selecionam e agrupam manualmente alertas relacionados com base em sua experiência e compreensão do sistema. Essa abordagem permite um controle preciso, mas pode ser demorada e pode perder correlações automatizadas. | Um administrador do sistema recebe vários alertas sobre diferentes serviços que falham em um único servidor. O administrador agrupa manualmente esses alertas, reconhecendo que todos eles estão relacionados a uma única falha de hardware nesse servidor e prioriza a correção do problema de hardware para restaurar todos os serviços. |
Para obter informações sobre trabalhos agendados e parâmetros, consulte Trabalhos agendados e parâmetros para agrupamento de alertas. Para obter informações detalhadas sobre diferentes tipos de agrupamento, consulte Tipos de agrupamento de alertas e métodos de criação.