Noções básicas do Inteligência para métricas

Xanadu IT Operations Management

Release

xanadu

ft:locale

pt-BR

ft:publication_title

Xanadu IT Operations Management

ft:clusterId

itom

bundleId

itom

workflow

Technology

Noções básicas do Inteligência para métricas

Versão de lançamento: Xanadu

Atualizado 1 de ago. de 2024

9 min. de leitura

Use Inteligência para métricas para identificar e evitar possíveis indisponibilidades de serviço. Inteligência para métricas, com base em dados de métrica históricos, indica o comportamento anômalo de ICs que os eventos podem não capturar. Os alertas de anomalia podem ser promovidos a alertas de TI regulares e aparecem no Espaço de operações de serviços e no painel de integridade de serviço para ações preventivas.

A partir da versão New York, a Inteligência para métricas faz parte de Integridade do ITOM no produto IT Operations Management.

Detecção de anomalia

Os dados de métrica são coletados por várias fontes de dados, como SCOM, sistema de monitoramento SolarWinds ou servidor Nagios XI (alguns parcialmente configurados para coleta de métrica por padrão). Esses sistemas de monitoramento coletam dados de métrica do ambiente de origem regularmente. Inteligência para métricas captura os dados brutos desses sistemas de monitoramento e usa regras de evento e o mecanismo de identificação do CMDB para mapear dados para ICs existentes e seus recursos. Os dados são analisados para detectar anomalias e fornecer outras pontuações estatísticas.

Inteligência para métricas usa dados de métrica históricos para criar modelos estatísticos. Esses modelos facilitam a projeção de valores de métrica esperados junto com limites superiores e inferiores. Inteligência para métricas usa essas projeções para detectar exceções estatísticas e calcular pontuações de anomalia. As anomalias são pontuadas em um intervalo de 0 a 10. Pontuações altas de anomalia para métricas de IC podem indicar que um IC corre o risco de causar uma indisponibilidade de serviço.

Após o processamento, o Gerenciador de insights mostra estatísticas de métrica e gráficos, e o Mapa de anomalias mostra pontuações correlacionadas para ICs com as pontuações de anomalia mais altas, em uma linha do tempo.

Você pode desabilitar a detecção de anomalias durante a manutenção do sistema, pois as anomalias podem ser irrelevantes quando detectadas enquanto a manutenção está em andamento. Para fazer isso, defina a propriedade mid.mi.anomaly_detection.disable como verdadeira.

Para personalizar a exibição de anomalias para métricas classificadas como quase constantes, entre em contato com o suporte ao cliente.

Inteligência para métricas está disponível quando você ativa o plug-in Inteligência para métricas (com.snc.sa.metric).

Termos usados com Inteligência para métricas

Tipo de métrica de origem: Uma métrica como "% de espaço livre" ou "largura de banda atual" que pode ser medida por uma fonte de dados para um IC. Para cada fonte de dados, você pode escolher quais tipos de métrica de origem possíveis são processados. Por exemplo, há cerca de 380 tipos de métrica de origem que estão ativos por padrão para a fonte de dados SCOM.
Anomalia: Os dados que estão fora dos limites de controle são considerados uma exceção estatística. Esses valores atípicos são usados para calcular uma pontuação de anomalia, que é um valor entre 0 e 10 que indica o grau em que a métrica parece improvável. Quando uma pontuação de anomalia está acima de um limite, um alerta de anomalia é gerado. Os alertas de anomalia são relatados separadamente dos alertas de TI regulares.
Recurso: Um componente de um IC que consiste em vários componentes individuais de tipo semelhante, em que cada subcomponente pode ser monitorado separadamente. Por exemplo, páginas da Web individuais ou discos específicos, como "Disco C:" e "Disco D:".
Série de tempo: Uma série de valores (como valores de métrica) ao longo de um intervalo de tempo, associados a um IC e a um tipo de métrica. Como uma pontuação de anomalia é avaliada para cada métrica, a série de pontuações de anomalia ao longo de um período de tempo também é uma série temporal. As séries temporais são calculadas pelo modelo estatístico criado para uma série de dados de métrica e são usadas com valores de dados de métrica, pontuações de anomalia e limites de controle superiores e inferiores.

Modelos estatísticos

Os trabalhos de Inteligência para métricas são aprendidos com dados de métricas anteriores (até 32 dias). Um processo de treinamento de modelo analisa dados históricos para construir um modelo que projeta valores futuros. Normalmente, os modelos estão em vigor até a próxima vez em que o processo de aprendizado do modelo for executado. Esses modelos são usados para calcular limites superiores e inferiores. Valores de entrada que estão além desses limites e que se desviam com significância estatística dos valores esperados geram anomalias. Cada modelo tem um padrão exclusivo e é rotulado com um classificador que ilustra o comportamento geral do modelo. Esta classificação determina se a detecção de anomalias pode ser aplicada. Para a maioria dos modelos, é possível projetar quais valores futuros se desviam dos valores esperados. Esses modelos estão associados a limites de controle e a detecção de anomalias pode ser aplicada (se habilitada).

No entanto, para alguns modelos, não há dados suficientes para determinar quais valores são anômalos e a detecção de anomalias não pode ser aplicada sem informações adicionais (mesmo se a detecção de anomalias estiver habilitada).

Os modelos de dados aprendidos são armazenados na tabela Modelos de série temporal de métrica [sa_time_series].

Os seguintes modelos estatísticos e classificadores são usados na detecção de anomalias:

Modelo estatístico de série temporal

Depois de estabelecido, um modelo de série temporal não se ajusta a mudanças nos dados de métrica de entrada. Portanto, se o padrão de dados de entrada mudar, essas mudanças provavelmente serão identificadas como anômalas. Os limites de controle superiores e inferiores, depois de aprendidos, persistem até a próxima vez em que o processo de aprendizado for executado (os dados são aprendidos todos os dias).

Semanalmente

Dados com um padrão que se repete em intervalos semanais (modelo sazonal).

Requer um mínimo de 15 dias de dados na série, conforme definido pela definição de configuração week_model_min_days.

Classificador semanal

Diariamente

Dados com um padrão que se repete em um intervalo diário (modelo sazonal).

Requer um mínimo de 3 dias de dados na série, conforme definido pela definição de configuração Daily_model_min_days.

Classificador diário

Na moda

Dados que têm uma tendência linear com algum declive e com algum ruído.

Requer um mínimo de 30 pontos de dados na série, conforme definido pela configuração corrupt_data_count_threshold.

Classificador da moda

Barulhento

Dados com ruídos típicos que são uma classificação de padrão básica em um modelo de dados. O padrão não pode ser identificado com uma tendência ou sazonalidade específica.

Requer um mínimo de 30 pontos de dados na série, conforme definido pela configuração corrupt_data_count_threshold.

Classificador com ruído

Ruído positivo recortado

Semelhante ao classificador com ruído, exceto o limite inferior que é fixado em 0.

Requer um mínimo de 30 pontos de dados na série, conforme definido pela configuração corrupt_data_count_threshold.

Classificador de ruído positivo recortado

Ruído centralizado

Dados com ruído que normalmente se espalham simetricamente entre os limites superior e inferior especificados pelo usuário. A fórmula usada para definir limites e valores de largura ignora os dados estatísticos e as larguras inferior e superior têm um valor idêntico.

Requer que o número de pontos de dados na série seja zero.

Para obter mais informações, consulte Especificar limites de métrica superiores e inferiores personalizados.

Classificador de ruído centralizado

Distorcido com ruído

Dados com ruído que não estão distribuídos uniformemente entre os limites superior e inferior especificados pelo usuário, mas tendem a se concentrar mais perto de um dos limites. A mediana dos dados é usada para calcular separadamente uma largura superior e uma largura inferior.

Requer no mínimo um ponto de dados na série.

Para obter mais informações, consulte Especificar limites de métrica superiores e inferiores personalizados.

Classificador de ruído distorcido

Distorção de ruído - Distribuição de valor extremo generalizado (GEV)

Dados com ruído que estão distribuídos de forma desigual entre os limites superior e inferior especificados pelo usuário e se concentram mais perto de um dos limites. Além disso, a distribuição de dados demonstra uma cauda longa ou pesada. A mediana de dados derivados da parte final da distribuição é usada para calcular separadamente uma largura superior e uma largura inferior. Deve haver pelo menos um ponto de dados na série.

Acumulador

Padrão de dados semelhante ao classificador da moda, mas com um aumento monótono e sem ruído. Para este classificador, não há modelo de dados nem detecção de anomalias.

Requer um mínimo de 30 pontos de dados na série, conforme definido pela configuração corrupt_data_count_threshold.

Diagrama do classificador do acumulador.

Constante próxima

Dados quase constantes, nos quais a maioria dos valores é um valor constante específico. Para este classificador, não há modelo de dados nem detecção de anomalias.

Requer um mínimo de 30 pontos de dados na série, conforme definido pela configuração corrupt_data_count_threshold.

Diagrama do classificador de constante próxima.

Multinomial

Padrão de dados no qual todos os valores são um de um número relativamente pequeno de valores. Por exemplo, os valores são sempre 100 ou 99,9. Para este classificador, não há modelo de dados nem detecção de anomalias.

Requer um mínimo de 400 pontos de dados na série, calculados como 10 vezes o valor da definição de configuração multinomial_count_threshold.

Classificador multinomial

Corrompido

Os dados não têm pontos de dados suficientes para identificar um padrão. Para este classificador, não há modelo de dados nem detecção de anomalias.

Requer que o número de pontos de dados na série seja menor que o valor da definição de configuração corrupt_data_count_threshold (30 por padrão).

Modelo estatístico de filtro de Calman

Adicione ao modelo estatístico de série de tempo e aplicável somente aos classificadores com ruído e com ruído positivo. Este modelo é um método geral de estimativa de parâmetros do modelo a partir de um fluxo de dados em que o nível é o único parâmetro no modelo. O modelo de filtro de Calman pode se ajustar a novos valores nos dados de métrica de entrada. Quando não há padrões claros no ruído ou se há muito ruído, o modelo de Filtro de Kálman não é usado.

Nível local

Quando os dados de entrada se agrupam em torno de um novo valor de acordo com os limites de controle atuais, o Aprendizado ajusta o modelo de dados para acomodar uma mudança permanente. Esse agrupamento em cluster é detectado como um novo valor no modelo de dados para que a maioria dos dados de entrada esteja novamente dentro dos limites de controle, em vez de anômalos. Essa detecção de mudança é útil quando, por exemplo, núcleos ou memória são adicionados a um servidor, o que afeta as linhas de base.

Requer um mínimo de 30 pontos de dados na série, conforme definido pela configuração corrupt_data_count_threshold.

Diagrama do classificador de nível local de filtro de Calman.

Não reconhecido

Quando os dados não se ajustam ao classificador de nível local, são usados classificadores de série temporal. Isso acontece quando não é possível ajustar a taxa de variância em um modelo de nível local aprendido para valores razoáveis.

Modelo estatístico não paramétrico

Adicione ao classificador de ruído positivo. No modelo não paramétrico, a distribuição de ruído não é simétrica e não se ajusta a nenhum padrão sazonal. O modelo não paramétrico cria limites de controle que se ajustam melhor aos dados reais e, depois de aprendidos, os limites de controle persistem até o próximo ciclo de aprendizado. Este modelo não se ajusta a mudanças nos dados e leva mais tempo para que um desvio seja identificado como uma anomalia.

Estacionário não paramétrico

Dados que não dependem do tempo, o que significa que não há mudança significativa em parâmetros como média e variância ao mudar os dados no tempo.

Requer um mínimo de 5.000 pontos de dados na série, conforme definido pela configuração snpm_minimum_data_count.

Diagrama do classificador estacionário não paramétrico.

Não reconhecido

Quando os dados não se ajustam ao classificador estacionário, são usados classificadores de série temporal.

Modelo estatístico de desvio absoluto mediano (MAD)

Um complemento para o classificador de ruídos distorcidos. Neste tipo de dados, a distribuição de ruído não é simétrica e não se ajusta a nenhum padrão sazonal. Além disso, os dados refletem uma distribuição pesada ou de cauda longa. O modelo estatístico MAD cria limites de controle que se ajustam melhor aos dados e, depois de aprendidos, os limites de controle persistem até o próximo ciclo de aprendizado. O uso deste modelo aprimora a decifração da coleta de dados com aproximadamente 30% a mais de eficiência.