Site Reliability Metrics
Site Reliability Metrics (SRM) é um aplicativo que estende Site Reliability Operations (SRO). Ele serve como um ponto de agregação de sinal para alertas do Gerenciamento de desempenho de aplicativo (APM).
A partir da versão Washington DC, o Site Reliability Metrics está sendo preparado para descontinuação futura. Ele ficará oculto e não será mais instalado em novas instâncias, mas continuará a ser compatível. Por obter detalhes, consulte o artigo Processo de descontinuação [KB0867184] na Base de conhecimento do Now Support.
O SRM permite que os Engenheiros de Confiabilidade do Site (SREs) capturem sinais de várias fontes, definam metas de Objetivo de nível de serviço (SLO), exibam Orçamentos de erro (EB) e invoquem ações baseadas em política, como criar um incidente ou enviar uma notificação com base nos limites do Orçamento de erro. Os SREs podem medir a experiência de serviço e gerenciar a velocidade de versão avaliando os principais indicadores de nível de serviço (SLI) obtidos de uma ou mais ferramentas de gerenciamento de desempenho. A avaliação e a agregação desses sinais permitem que os SREs ativem o gatilho de ações com base em políticas e respondam rapidamente às mudanças nas condições.
Os engenheiros de confiabilidade do site e os proprietários de serviço podem usar o SRM para garantir que o serviço fornecido atenda às expectativas do consumidor. Eles podem medir a qualidade definindo objetivos de nível de serviço com base nos tipos de SLI (por exemplo, latência, rendimento, disponibilidade) e, em seguida, usar Políticas de orçamento de erro para ativar o gatilho de uma ou mais ações baseadas em política.
- Agregação de sinal SLI
- Criar duração e contagem de objetivos de nível de serviço
- Calcular orçamentos de erro (EB)
- Políticas de orçamento de erro
- Visualização de orçamento de erro
Fluxo de trabalho de alto nível
- O SRM aproveita as integrações de SRO para agregação de sinal.
- Os indicadores de confiabilidade que contêm SLIs e SLOs são criados para o serviço no SRM.
- Quando um alerta qualificado é gerado para um serviço na ferramenta APM, a violação cumulativa e os valores de orçamento de erro são atualizados para os indicadores de confiabilidade no SRM.
- Uma política de orçamento de erro é criada para o serviço para ativar o gatilho de ações como criar um incidente, enviar notificações e assim por diante, para corrigir problemas de serviço.
Assista ao vídeo a seguir para uma compreensão geral de Site Reliability Metrics e como você pode usá-lo.