Trabalhando com o Métricas de confiabilidade
Use as métricas de confiabilidade SRM para definir indicadores de nível de serviço (SLI), objetivos de nível de serviço (SLO) e políticas de orçamento de erro para rastrear a integridade do serviço e tomar as medidas necessárias.
Fluxo de trabalho de alto nível
- O SRM aproveita as integrações para agregação de sinal.
- Os indicadores de confiabilidade que contêm SLIs e SLOs são criados para o serviço no SRM.
- Quando um alerta qualificado é gerado para um serviço, a violação cumulativa e os valores de orçamento de erros são atualizados para os indicadores de confiabilidade no SRM.
- Uma política de orçamento de erros é criada para o serviço a fim de disparar ações como a criação de incidentes ou o envio de e-mails para corrigir problemas de serviço. Os limites de erros são restritos pela Categoria.
Os principais recursos das métricas da SRM são:
- Agregação de sinal SLI
- Criar duração e contagem de objetivos de nível de serviço
- Calcular orçamentos de erro (EB)
- Políticas de orçamento de erro
- Visualização de orçamento de erro
Navegue até o guia para exibir todos os dados críticos associados às métricas de Confiabilidade e Limite de erros. Para obter mais informações, consulte Como trabalhar com serviços da SRM.
Nota:
As pontuações só ficam visíveis quando SLIs e SLOs e limites de erro foram criados e são afetados. Confira Criar SLO, SLI e políticas de limite de erros para obter informações mais detalhadas.
Guia de métricas de confiabilidade
Navegue até o para exibir os objetivos de nível de serviço (SLO) de um serviço.
Nota:
A atualização do SLO altera o estado e resulta na desativação do registro de SLO em questão e na criação de uma nova cópia para fins de monitoramento preciso.
Métricas de confiabilidade
Os Objetivos de nível de serviço mostram os seguintes detalhes:
- Objetivo de nível de serviço: nome do SLO. O SLO é um valor de meta ou o objetivo que sua equipe deve atingir para atender ao acordo de nível de serviço (ANS).
- Tipo de SLI: os números reais no desempenho do seu serviço. Os tipos de SLI são:
- Disponibilidade: porcentagem de tempo em que o serviço está disponível. Também conhecido como tempo de atividade. Disponibilidade é uma métrica básica de confiabilidade. (Padrão).
- Erros: mede a frequência dos seus erros de serviço.
- Latência: tempo necessário para atender a uma solicitação. O tempo real decorrido.
- Saturação: mede a “plenitude” do seu sistema, enfatizando os recursos mais restritos.
- Período de conformidade: Quanto tempo o SLO está definido para durar.
- Mês: a duração é considerada o mês atual. Por exemplo, se a data atual for 26 de janeiro, a duração será considerada de 1º a 31 de janeiro.
- 7 dias corridos: a duração é considerada 7 dias a partir da data atual.
- 30 dias corridos: a duração é considerada 30 dias a partir da data atual. Por exemplo, se a data atual for 26 de janeiro, a duração será considerada a partir de 25 de dezembro.
- 90 dias corridos: a duração é considerada 90 dias a partir da data atual. Por exemplo, se a data atual for 26 de janeiro, a duração será considerada a partir de 25 de outubro.
- Estado: Estado do SLO. As opções são:
- Rascunho: o SLO ainda não está em execução na sua instância. Você pode adicionar novos SLIs ou atualizar SLIs existentes e excluir o SLO.
- Em execução: o SLO está ativo na sua instância. Você pode editar, desativar ou excluir o SLO.Nota:Ao editar um SLO com estado em execução ele será descontinuado e uma nova cópia será criada.
- Descontinuado: o SLO não está mais em execução na sua instância. Você pode reativá-lo.
- Objetivo (%): percentual do desempenho de SLI desejado.
- Ocorrências de limite: número de violações de limite que ocorreram. (Usado por SLOs do tipo Contagem.)
- Indicador de nível de serviço: números reais no desempenho do seu serviço. Fatos mensuráveis que indicam se você está atendendo às expectativas dos clientes.
- Orçamento de erros: quanto de orçamento de erros você pode gastar. Ao criar um SLO, o orçamento de erros é calculado com base no Período de Conformidade e no Objetivo (%) fornecidos.
- Orçamento de erros restante: quanto de orçamento de erros ainda resta.
- Ocorrências de violação restantes: número de violações restantes antes que o limite seja atingido.
Nota:
Os registros de histórico de objetivo de nível de serviço [sn_sow_srm_slo_history] e de métrica de indicador de nível de serviço [sn_sow_srm_sli_metric] são arquivados após um ano e destruídos após mais cinco anos. Espera-se que isso resulte em maior desempenho juntamente com a retenção de dados de igual duração. Nenhuma consulta é executada em tabelas arquivadas.