Noções básicas do Inteligência para métricas

Yokohama Gestão de operações de TI

Release

yokohama

ft:locale

pt-BR

ft:publication_title

Yokohama Gestão de operações de TI

ft:clusterId

itom

bundleId

itom

workflow

Technology

Noções básicas do Inteligência para métricas

Versão de lançamento: Yokohama

Atualizado 30 de jan. de 2025

10 min. de leitura

Uso Inteligência para métricaspara identificar e evitar possíveis indisponibilidades de serviço. Inteligência para métricas, Com base em dados de métricas históricas, indica comportamento anômalo de ICs que os eventos podem não capturar. Os alertas de anomalia podem ser promovidos a alertas DE TI regulares e aparecer no Espaço de operações de serviços e no painel de integridade do serviço para ações preventivas.

Detecção de anomalias

Os dados de métrica são coletados por várias fontes de dados, como SCOM, sistema de monitoramento SolarWinds ou servidor Nagios XI (alguns parcialmente configurados para coleta de métricas por padrão). Esses sistemas de monitoramento coletam dados de métrica do ambiente de origem regularmente. Inteligência para métricasCaptura os dados brutos desses sistemas de monitoramento e usa regras de evento e o mecanismo de identificação do CMDB para mapear dados para ICs existentes e seus recursos. Os dados são então analisados para detetar anomalias e fornecer outras pontuações estatísticas.

Inteligência para métricas usa dados de métrica histórica para criar modelos estatísticos. Esses modelos facilitam a projeção dos valores de métrica esperados junto com os limites superior e inferior. Inteligência para métricasem seguida, usa essas projeções para detectar valores atípicos estatísticos e calcular pontuações de anomalias. As anomalias são pontuadas em um intervalo de 0 a 10. Pontuações de anomalia altas para métricas de IC podem indicar que um IC corre o risco de causar uma indisponibilidade de serviço.

Após o processamento, o. Explorador de informações mostra estatísticas de métrica e gráficos, e o. Mapa de anomalia Mostra pontuações correlacionadas para ICs com as pontuações de anomalia mais altas em uma linha do tempo.

Você pode desabilitar a detecção de anomalias durante a manutenção do sistema, pois anomalias podem ser irrelevantes quando detectadas enquanto a manutenção está em andamento. Para fazer isso, defina mid.mi.anomaly_detection.disablepropriedade para verdadeiro .

Termos usados com Inteligência para métricas

Tipo de métrica de origem: Uma métrica como "% de espaço livre" ou "Largura de banda atual" que pode ser medida por uma fonte de dados para um IC. Para cada fonte de dados, você pode escolher quais de todos os tipos de métrica de origem possíveis serão processados. Por exemplo, há cerca de 380 tipos de métrica de origem que estão ativos por padrão para a fonte de dados do SCOM.
Anomalia: Os dados que estão fora dos limites de controle são considerados discrepantes estatísticos. Esses valores atípicos são usados para calcular uma pontuação de anomalia, que é um valor entre 0 e 10 que indica o grau em que a métrica parece improvável. Quando uma pontuação de anomalia está acima de um limite, um alerta de anomalia é gerado. Os alertas de anomalia são relatados separadamente dos alertas DE TI regulares.
Recurso: Um componente de um IC que consiste em vários componentes individuais de tipo semelhante, em que cada subcomponente pode ser monitorado separadamente. Por exemplo, páginas da Web individuais ou discos específicos, como "Disco C:" e "Disco D:".
Série temporal: Uma série de valores (como valores de métrica) em um intervalo de tempo, associados a um IC e um tipo de métrica. Como uma pontuação de anomalia é avaliada para cada métrica, a série de pontuações de anomalia ao longo de um período de tempo também é uma série temporal. As séries temporais são calculadas pelo modelo estatístico criado para uma série de dados de métrica e são usadas com valores de dados de métrica, pontuações de anomalia e limites de controle superior e inferior.

Modelos estatísticos

Os trabalhos de Inteligência de métrica aprendem com dados de métricas anteriores (até 32 dias). Um processo de treinamento de modelo analisa dados históricos para construir um modelo que projeta valores futuros. Normalmente, os modelos estão em vigor até a próxima vez que o processo de aprendizado do modelo for executado. Esses modelos são usados para calcular os limites superior e inferior. Valores de entrada que estão além desses limites e que se desviam com significância estatística dos valores esperados geram anomalias. Cada modelo tem um padrão exclusivo e é rotulado com um classificador que ilustra o comportamento geral do modelo. Esta classificação determina se a detecção de anomalia pode ser aplicada. Para a maioria dos modelos, é possível projetar quais valores futuros se desviam dos valores esperados. Esses modelos estão associados a limites de controle e a detecção de anomalias pode ser aplicada (se habilitada).

No entanto, para alguns modelos, não há dados suficientes para determinar quais valores são anômalos e a detecção de anomalias não pode ser aplicada sem informações adicionais (mesmo que a detecção de anomalias esteja habilitada).

Os modelos de dados aprendidos são armazenados na tabela Modelos de série temporal de métrica [sa_time_series].

Os seguintes modelos estatísticos e classificadores são usados na detecção de anomalias:

Modelo estatístico de Série temporal

Depois de estabelecido, um modelo de série temporal não se ajusta às mudanças nos dados de métrica de entrada. Portanto, se o padrão de dados de entrada mudar, essas mudanças provavelmente serão identificadas como anômalas. Os limites de controle superior e inferior, depois de aprendidos, persistem até a próxima execução do processo de aprendizado (os dados são aprendidos todos os dias).

Semanalmente

Dados com um padrão que se repete em intervalos semanais (modelo sazonal).

Requer um mínimo de 15 dias de dados na série, conforme definido pelo weekly_model_min_days definição de configuração.

Classificador semanal

Diariamente

Dados com um padrão que se repete em um intervalo diário (modelo sazonal).

Requer um mínimo de 3 dias de dados na série, conforme definido pelo daily_model_min_days definição de configuração.

Classificador diário

Na moda

Dados que apresentam tendência linear com alguma inclinação e com algum ruído.

Requer um mínimo de 30 pontos de dados na série, conforme definido pelo corrupt_data_count_threshold definição de configuração.

Classificador moderno

Ruído

Dados ruidosos típicos que são uma classificação de padrão básica em um modelo de dados. O padrão não pode ser identificado com uma tendência ou sazonalidade específica.

Requer um mínimo de 30 pontos de dados na série, conforme definido pelo corrupt_data_count_threshold definição de configuração.

Classificador com ruído

Positivo cortado ruidoso

Semelhante ao classificador ruidoso, diferente do limite inferior fixado em 0.

Requer um mínimo de 30 pontos de dados na série, conforme definido pelo corrupt_data_count_threshold definição de configuração.

Classificador de ruído recortado positivo

Ruído centralizado

Dados ruidosos que normalmente se espalham simetricamente entre os limites superior e inferior especificados pelo usuário. A fórmula usada para definir limites e valores de largura ignora os dados estatísticos e as larguras inferior e superior têm um valor idêntico.

Requer que o número de pontos de dados na série seja zero.

Para obter mais informações, consulte Especifique os limites de métrica superior e inferior personalizados.

Classificador de ruído centralizado

Ruído distorcido

Dados ruidosos que não são distribuídos uniformemente entre os limites superior e inferior especificados pelo usuário, mas tendem a se concentrar mais perto de um dos limites. A mediana dos dados é usada para calcular separadamente uma largura superior e uma largura inferior.

Requer pelo menos um ponto de dados na série.

Para obter mais informações, consulte Especifique os limites de métrica superior e inferior personalizados.

Classificador ruidoso distorcido

Ruído distorcido - Distribuição de valor extremo generalizado (GEV)

Dados ruidosos distribuídos de forma desigual entre os limites superior e inferior especificados pelo usuário e se concentram mais perto de um dos limites. Além disso, a distribuição de dados demonstra uma cauda longa ou pesada. A mediana dos dados derivados da cauda da distribuição é usada para calcular separadamente uma largura superior e uma largura inferior. Deve haver pelo menos um ponto de dados na série.

Acumulador

Padrão de dados semelhante ao classificador da moda, mas com um aumento monótono e sem ruído. Para este classificador, não há modelo de dados e nenhuma detecção de anomalia.

Requer um mínimo de 30 pontos de dados na série, conforme definido pelo corrupt_data_count_threshold definição de configuração.

Diagrama do classificador do acumulador.

Constante

Dados quase constantes, nos quais a maioria dos valores é um valor constante específico. Para este classificador, não há modelo de dados e nenhuma detecção de anomalia.

Requer um mínimo de 30 pontos de dados na série, conforme definido pelo corrupt_data_count_threshold definição de configuração.

Diagrama do classificador quase constante.

Constante detectada

Habilita a verificação de métricas quase constantes quanto a anomalias. Para fazer isso, você deve mover as métricas para o modelo Detectado-Constante, por meio de um token do sistema. Para adicionar tokens à lista de tokens e permitir que mais métricas sejam medidas em relação a anomalias, entre em contato com o suporte ao cliente.

Requer um mínimo de 30 pontos de dados na série, conforme definido pelo corrupt_data_count_threshold definição de configuração.

Habilitado quando metric_name_analysis.add_detected_constant_candidate a propriedade do sistema está definida como verdadeiro . Para substituir o valor desta propriedade para um tipo de métrica específico, atualize o. Candidato constante detectado Na tabela Tipos de métrica, fazendo o seguinte:

Insira sa_metric_type.list no campo de navegação da instância.

Em Candidato constante detectado , selecione o valor relevante para a entrada que você deseja atualizar.

Tabela 1. Valores de candidato constante detectados
Valor	Descrição
<empty>	Um algoritmo decidiu automaticamente se a métrica deve ser considerada para o modelo de constante detectada. Este é o valor padrão.
Sim	A métrica é considerada para o modelo de constante detectada.
Não	A métrica não é considerada para o modelo de constante detectada.

Multinomial

Padrão de dados em que todos os valores são um de um número relativamente pequeno de valores. Por exemplo, os valores são sempre 100 ou 99,9. Para este classificador, não há modelo de dados e nenhuma detecção de anomalia.

Requer um mínimo de 400 pontos de dados na série, calculado como 10 vezes o valor de multinomial_count_threshold definição de configuração.

Classificador multinomial

Corrompido

Os dados não têm pontos de dados suficientes para identificar um padrão. Para este classificador, não há modelo de dados e nenhuma detecção de anomalia.

Requer que o número de pontos de dados na série seja menor que o valor de corrupt_data_count_threshold definição de configuração (30 por padrão).

Modelo estatístico do Filtro de Kalman

Complemento ao modelo estatístico de séries temporais e aplicável somente aos classificadores ruidosos e positivos. Este modelo é um método geral de estimar parâmetros do modelo a partir de um fluxo de dados em que o nível é o único parâmetro no modelo. O modelo de filtro de Kalman pode ajustar-se a novos valores nos dados de métrica de entrada. Quando não há padrões claros no ruído ou se há muito ruído, o modelo de filtro Kalman não é usado.

Nível local

Quando os dados de entrada são agrupados em torno de um novo valor de acordo com os limites de controle atuais, o aluno ajusta o modelo de dados para acomodar uma mudança permanente. Este cluster é detectado como um novo valor no modelo de dados para que a maioria dos dados de entrada esteja novamente dentro dos limites de controle, em vez de anômalos. Essa detecção de mudança é útil quando, por exemplo, núcleos ou memória são adicionados a um servidor, o que afeta as linhas de base.

Requer um mínimo de 30 pontos de dados na série, conforme definido pelo corrupt_data_count_threshold definição de configuração.

Diagrama do classificador de nível local do filtro Kalman.

Não reconhecido

Quando os dados não se ajustam ao classificador de nível local, classificadores de série temporal são usados. Isso acontece quando não é possível ajustar a razão de variância em um modelo de nível local aprendido para valores razoáveis.

Modelo estatístico não paramétrico

Adicione ao classificador de ruído positivo. No modelo não paramétrico, a distribuição de ruído não é simétrica e não se encaixa em nenhum padrão sazonal. O modelo não paramétrico cria limites de controle que se ajustam melhor aos dados reais e, uma vez aprendidos, os limites de controle persistem até o próximo ciclo de aprendizado. Este modelo não se ajusta às mudanças nos dados e leva mais tempo para que um desvio seja identificado como uma anomalia.

Estacionário não paramétrico

Dados que não são dependentes do tempo, o que significa que não há mudança significativa nos parâmetros, como média e variância, ao mudar os dados no tempo.

Requer um mínimo de 5000 pontos de dados na série, conforme definido pelo snpm_minimum_data_count definição de configuração.

Diagrama do classificador estacionário não paramétrico.

Não reconhecido

Quando os dados não se encaixam no classificador estacionário, classificadores de série temporal são usados.

Modelo estatístico de desvio absoluto mediano (MAD)

Um complemento para o classificador ruidoso distorcido. Neste tipo de dados, a distribuição de ruído não é simétrica e não se encaixa em nenhum padrão sazonal. Além disso, os dados refletem uma distribuição pesada ou de cauda longa. O modelo estatístico de MAD cria limites de controle que se ajustam melhor aos dados e, uma vez aprendidos, os limites de controle persistem até o próximo ciclo de aprendizado. O uso desse modelo melhora a decifração da coleta de dados com aproximadamente 30% mais eficiência.