Trabalhando com o Métricas de confiabilidade
Use o. SRMMétricas de confiabilidade para definir indicadores de nível de serviço (SLI), objetivos de nível de serviço (SLO) e políticas de orçamento de erros para rastrear a integridade do serviço e tomar as ações necessárias.
Fluxo de trabalho de alto nível
- O SRM aproveita as integrações para agregação de sinal.
- Os indicadores de confiabilidade que contêm SLIs e SLOs são criados para o serviço no SRM.
- Quando um alerta qualificado é gerado para um serviço, a violação cumulativa e os valores de orçamento de erros são atualizados para os indicadores de confiabilidade no SRM.
- Uma política de orçamento de erros é criada para o serviço a fim de disparar ações como a criação de incidentes ou o envio de e-mails para corrigir problemas de serviço. Os limites de erros são restritos pela Categoria.
Os principais recursos das métricas da SRM são:
- Agregação de sinal SLI
- Criar duração e contagem de objetivos de nível de serviço
- Calcular orçamentos de erro (EB)
- Políticas de orçamento de erro
- Visualização de orçamento de erro
Navegue até Para exibir todos os dados críticos associados para métricas de orçamento de confiabilidade e erro. Para obter mais informações, consulte Como trabalhar com serviços da SRM.
Nota:
As pontuações só ficam visíveis quando SLIs, SLOs e orçamentos de erro foram criados e há afetados. Confira Crie políticas de orçamento de erro, SLI e SLO para obter informações mais detalhadas.
Guia de métricas de confiabilidade
Navegue até Para exibir os objetivos de nível de serviço (SLO) de um serviço.
Nota:
A atualização do SLO muda o estado e resulta na descontinuação deste registro de SLO e na criação de uma cópia para fins de monitoramento preciso.
Métricas de confiabilidade
Objetivos de nível de serviço mostrar os seguintes detalhes:
- Objetivo de nível de serviço : Nome do SLO. O SLO é um valor de meta ou o objetivo que sua equipe deve atingir para atender ao seu acordo de nível de serviço (ANS).
- Tipo de SLI : Os números reais sobre o desempenho do seu serviço. Os tipos de SLI são:
- Disponibilidade: porcentagem de tempo em que o serviço está disponível. Também conhecido como tempo de atividade. Disponibilidade é uma métrica básica de confiabilidade. (Padrão).
- Erros: mede a frequência dos seus erros de serviço.
- Latência: Tempo necessário para atender a uma solicitação. O tempo real decorrido.
- Saturação: Mede a "plenitude" do seu sistema, enfatizando os recursos mais restritos.
- Período de conformidade: Quanto tempo o SLO está definido para durar.
- Mês: a duração é considerada o mês atual. Por exemplo, se a data atual for 26 de janeiro, a duração será considerada de 1º a 31 de janeiro.
- 7 dias corridos: a duração é considerada 7 dias a partir da data atual.
- 30 dias corridos: a duração é considerada 30 dias a partir da data atual. Por exemplo, se a data atual for 26 de janeiro, a duração será considerada a partir de 25 de dezembro.
- 90 dias corridos: a duração é considerada 90 dias a partir da data atual. Por exemplo, se a data atual for 26 de janeiro, a duração será considerada a partir de 25 de outubro.
- Estado: Estado do SLO. As opções são:
- Rascunho: o SLO ainda não está em execução na sua instância. Você pode adicionar novos SLIs ou atualizar SLIs existentes e excluir o SLO.
- Em execução: o SLO está ativo na sua instância. Você pode editar, desativar ou excluir o SLO.Nota:Ao editar um SLO com estado em execução ele será descontinuado e uma nova cópia será criada.
- Descontinuado: o SLO não está mais em execução na sua instância. Você pode reativá-lo.
- Objetivo (%) Percentual do desempenho desejado do SLI.
- Ocorrências de limite Número de violações de limite que ocorreram. (Usado por SLOs do tipo Contagem.)
- Indicador de nível de serviço : Números reais sobre o desempenho do seu serviço. Fatos mensuráveis que indicam se você está atendendo às expectativas dos clientes.
- Orçamento de erro Quanto orçamento de erro você pode gastar. Ao criar um SLO, o orçamento de erro é calculado com base no período de conformidade e no objetivo fornecidos (%).
- Orçamento de erro restante Quanto orçamento de erro resta.
- Ocorrências de violação restantes: número de violações restantes antes que o limite seja atingido.
Nota:
Os registros de histórico de objetivo de nível de serviço [sn_sow_srm_slo_history] e de métrica de indicador de nível de serviço [sn_sow_srm_sli_metric] são arquivados após um ano e destruídos após mais cinco anos. Espera-se que isso resulte em maior desempenho juntamente com a retenção de dados de igual duração. Nenhuma consulta é executada em tabelas arquivadas.