Agrupamento de alertas automatizado

Zurich IT Operations Management

Release

zurich

ft:locale

pt-BR

ft:publication_title

Zurich IT Operations Management

ft:clusterId

itom

bundleId

itom

workflow

Technology

Agrupamento de alertas automatizado

Versão de lançamento: Zurich

Atualizado 31 de jul. de 2025

3 min. de leitura

O agrupamento automatizado de alertas é um processo que usa dados históricos para organizar automaticamente alertas semelhantes em grupos. Esses alertas podem ser problemas do sistema, como erros do servidor ou indisponibilidades de rede. Ao agrupar alertas relacionados, ele ajuda as equipes a identificar padrões rapidamente, gerenciar problemas recorrentes e reduzir o ruído de muitos alertas individuais.

Imagine que você está monitorando o sistema de tráfego de uma cidade. Você recebe muitos alertas, como relatórios de acidentes, engarrafamentos e fechamentos de estradas. O agrupamento automatizado de alertas funciona como um assistente inteligente que organiza esses alertas com base em padrões, para que você possa ver os problemas relacionados juntos e responder com mais eficiência. Esses grupos de alertas automatizados são exibidos no Lista expressa em Espaço de operações de serviços.

Como você habilita este agrupamento

Para habilitar a automação baseada em aprendizado de máquina para correlação de alertas, defina a propriedade Habilitar correlação de automação baseada em ML (sa_analytics.specific_patterns_enabled) como verdadeiro.

Se o Domain Support - Domain Extensions Installer estiver ativado, os padrões de agregação de alertas serão criados com base no nível de domínio definido na propriedade sa_analytics.agg.learner_domain_level. Por padrão, este nível de domínio é definido como dois, o que corresponde ao segundo nível na hierarquia de domínio. Por exemplo, em uma empresa, o nível 1 pode representar a própria empresa, enquanto o nível 2 pode representar departamentos ou equipes dentro da empresa. Os alertas são agrupados com base neste segundo nível, como classificá-los por departamento ou equipe.Para obter mais detalhes, Separação de domínios e Gestão de eventos.

Como isso funciona

O agrupamento automatizado de alertas usa aprendizado de máquina (ML) e dados históricos para identificar padrões entre alertas. Ele analisa características específicas, chamadas de identificadores de padrão, como o tipo de problema, o sistema afetado, IC ou métrica que aconteceu várias vezes em um período de tempo semelhante, para determinar se os alertas estão relacionados. O Aluno de Agregação de Alertas usa algoritmos para agrupar alertas com base em padrões. Especificamente, ele usa algoritmos baseados em padrões e métodos probabilísticos para analisar alertas de entrada e identificar os relacionados.

Pense nisso como perceber que os acidentes geralmente acontecem em um cruzamento específico na hora do rush. O sistema agrupa alertas semelhantes (como engarrafamentos recorrentes no mesmo ponto) com base em determinados identificadores (como local ou tipo de problema). O sistema segue estas etapas principais para agrupar alertas com eficácia:

Analisar dados históricos: O sistema estuda alertas anteriores para aprender padrões e relacionamentos.
Aplicar aprendizado de máquina: Os algoritmos DE ML analisam dados históricos de alertas para identificar padrões e relacionamentos entre alertas. Ele permite que o sistema aprenda com incidentes passados e melhore sua capacidade de agrupar alertas semelhantes ao longo do tempo.
Alertas semelhantes do grupo: Os alertas com padrões correspondentes são agrupados automaticamente.

Imagine que você está gerenciando o sistema de tráfego de uma cidade e recebe vários alertas:

8:00: Acidente na Main Street
8:05: Engarrafamento perto da Main Street
8:10: Fechamento da estrada na Main Street

O agrupamento automatizado de alertas funciona como um assistente inteligente, analisando esses alertas e reconhecendo um padrão. Agrupa-os juntos porque todos eles se relacionam com a Main Street, provavelmente decorrentes do mesmo acidente. Isso ajuda você a ver o panorama geral rapidamente e se concentrar na resolução da causa raiz (o acidente), em vez de abordar cada alerta separadamente.

Benefícios

Encontrar problemas recorrentes: Identifique padrões rapidamente (como um servidor superaquecendo consistentemente).
Lidar com grupos de alertas relacionados em vez de alertas individuais.
Melhorar resposta: Concentre-se em corrigir a causa raiz em vez de lidar com problemas dispersos.