Mesures de fiabilité du site
Mesures de fiabilité du site (SRM) est une application qui étend Opérations pour la fiabilité des sites (SRO). Elle sert de point d'agrégation des signaux pour les alertes Application Performance Management (APM).
À partir de la version Washington DC, Mesures de fiabilité du site ne sera plus disponible. L'application sera masquée et ne sera plus installée sur les nouvelles instances, mais continuera d'être prise en charge. Pour en savoir plus, consultez l'article Processus de retrait [KB0867184] dans la base de connaissances Now Support.
SRM permet aux SRE (Site Reliability Engineers) de capturer les signaux de plusieurs sources, de définir des objectifs de niveau de service (SLO) cibles, d'afficher les budgets d'erreur (EB) et d'invoquer des actions basées sur des politiques telles que la création d'un incident ou l'envoi d'une notification en fonction de seuils de budget d'erreur. Les SRE peuvent mesurer l'expérience de service et gérer la vélocité des mises en production en évaluant les indicateurs clés de niveau de service (SLI) provenant d'un ou de plusieurs outils de gestion des performances. L'évaluation et l'agrégation de ces signaux permettent aux SRE de déclencher des actions basées sur des politiques et de réagir rapidement face à l'évolution des conditions.
Les SRE et les propriétaires de services peuvent utiliser SRM pour s'assurer que le service qu'ils fournissent répond aux attentes des consommateurs. Ils peuvent mesurer la qualité en définissant des objectifs de niveau de service en fonction des types de SLI (par exemple, latence, débit et disponibilité), puis utiliser des politiques de budget d'erreur pour déclencher une ou plusieurs actions basées sur des politiques.
- Agrégation des signaux de SLI
- Création d'objectifs de niveau de service basés sur la durée et le nombre
- Calcul de budgets d'erreur (EB)
- Politiques de budget d'erreur
- Visualisation des budgets d'erreur
Workflow de haut niveau
- SRM exploite les intégrations SRO pour l'agrégation des signaux.
- Les indicateurs de fiabilité contenant des SLI et des SLO sont créés pour le service dans SRM.
- Lorsqu'une alerte reconnue est générée pour un service dans l'outil APM, les valeurs de la violation cumulative et du budget d'erreur sont mises à jour pour les indicateurs de fiabilité dans SRM.
- Une politique de budget d'erreur est créée pour que le service déclenche des actions telles que la création d'un incident, l'envoi de notifications, etc., afin de corriger les problèmes de service.
Regardez la vidéo suivante pour acquérir une compréhension générale de Mesures de fiabilité du site et de son utilisation.