Utiliser les mesures de fiabilité

  • Rversion finale: Yokohama
  • Mis à jour 30 janv. 2025
  • 6 minutes de lecture
  • Découvrez les mesures et fonctionnalités de fiabilité qui peuvent vous aider à suivre l’intégrité des services, à résoudre les problèmes et à soutenir vos objectifs business.

    Workflow de haut niveau

    1. SRM exploite les intégrations pour l'agrégation des signaux.
    2. Les indicateurs de fiabilité contenant des indicateurs de niveau de service (SLI) et des objectifs de niveau de service (SLO) sont créés pour le service dans SRM.
    3. Lorsqu'une alerte reconnue est générée pour un service, les valeurs de l'infraction cumulative et du budget d'erreur sont mises à jour pour les indicateurs de fiabilité dans SRM.
    4. Une politique de budget d'erreur est créée pour que le service déclenche des actions telles que la création d'un incident ou l'envoi d'e-mails, afin de corriger les problèmes de service. Les budgets d'erreur sont limités par catégorie.
    Les principales fonctionnalités des SRM mesures sont les suivantes :
    • Agrégation des signaux de SLI
    • Création de SLO basés sur la durée et le nombre
    • Création de budget d’erreur
    • Définition des politiques de budget d’erreur
    • Visualisation des budgets d'erreur
    Accédez au Services > Vue d'ensemble pour afficher toutes les données critiques associées aux mesures de fiabilité et de budget d’erreur. Consultez Utiliser les services SRM pour plus d'informations.
    Remarque :
    Les scores ne sont visibles que lorsque des SLI, des SLO et des budgets d’erreur ont été créés et qu’ils sont affectés. Pour plus d'informations, consultez la rubrique Créer des SLO, des SLI et des politiques de budget d’erreur.

    Onglet Mesures de fiabilité

    L’onglet Mesures de fiabilité indique dans quelle mesure un service spécifique atteint ses objectifs de fiabilité. Utilisez-la pour suivre les SLO, les indicateurs de niveau de service (SLI) et les budgets d’erreur d’un service.

    Pour afficher l’onglet Mesures de fiabilité dans Espace de travail pour l'exploitation des services, accédez à Services ( icône Services) > [Votre service] > Mesures de fiabilité.

    Figure 1. SRM Onglet Mesures de fiabilité
    L’onglet Mesures de fiabilité affiche la liste des SLO pour le service d’authentification utilisateur.

    Consultez ces liens pour en savoir plus sur ce que vous pouvez faire dans l’onglet Mesures de fiabilité :

    Table d’objectifs de niveau de service

    Dans l’onglet Mesures de fiabilité, la table Objectifs de niveau de service inclut les détails suivants sur le service sélectionné :

    • Objectif de niveau de service : nom du SLO. Le SLO est une valeur cible ou l’objectif que votre équipe doit atteindre pour respecter votre accord sur les niveaux de service (SLA).
    • Type de SLI : catégorie de performance mesurée :
      • Disponibilité : pourcentage de temps pendant lequel votre service ou votre élément de configuration est disponible, également connu sous le nom de durée d’activité.
      • Erreurs : fréquence de vos erreurs de service.
      • Latence : temps nécessaire pour traiter une demande.
      • Saturation : Plénitude de votre système, en se concentrant sur l’utilisation des ressources.
    • Période de conformité : Intervalle de temps utilisé pour calculer les performances :
      • Mois : mois en cours, par exemple, si la date actuelle est le 26 janvier, le mois va du 1er janvier au 31 janvier.
      • 7, 30 ou 90 jours roulants : nombre de jours à partir de la date actuelle. Par exemple, pour 7 jours roulants, la durée est de 7 jours à partir de la date actuelle.
    • État : état du SLO, tel que brouillon, en cours d’exécution ou mis hors service.
    • Objectif (pourcentage) : pourcentage cible de performance du SLI.
    • Occurrences de limite : nombre d’infractions de limite qui se sont produites. Utilisé uniquement par les SLO basés sur le nombre.
    • Indicateur de niveau de service : SLI associé au SLO.
    • Budget d’erreur : temps de défaillance admissible pour la période de conformité, calculé à l’aide de la période de conformité et de l’objectif (pourcentage).
    • Budget d’erreur restant : budget d’erreur toujours disponible.
    • Occurrences d’infractions restantes : nombre d’infractions encore disponibles avant que la limite ne soit atteinte.
    Remarque :
    À des fins d’exécution, les enregistrements SLO et SLI ([sn_sow_srm_slo_history] et [sn_sow_srm_sli_metric]) sont archivés au bout d’un an et supprimés cinq ans plus tard. Les données archivées sont omises des tableaux et des visualisations.
    Remarque :
    La mise à jour du SLO change son état et entraîne la mise hors service de cet enregistrement SLO et la création d'une copie à des fins de surveillance précise.

    Mesures de fiabilité

    Les objectifs de niveau de service affichent les détails suivants :

    • Objectif de niveau de service : nom du SLO. Le SLO est une valeur cible ou l’objectif que votre équipe doit atteindre pour respecter votre accord sur les niveaux de service (SLA).
    • Type de SLI : chiffres réels sur les performances de votre service .
      Les types de SLI sont les suivants :
      • Disponibilité : mesure le pourcentage de temps pendant lequel votre service est disponible. Ce type est également appelé durée d’activité. La disponibilité est la mesure de base et par défaut de la fiabilité.
      • Erreurs : mesure la fréquence de vos erreurs de service.
      • Latence : mesure le temps nécessaire pour traiter une demande. Il suit le temps écoulé.
      • Saturation : Mesure la plénitude de votre système, en mettant l’accent sur les ressources les plus limitées.
    • Période de conformité :
      Durée définie du SLO.
      • Mois : la durée considérée est le mois actuel. Par exemple, si la date actuelle est le 26 janvier, la durée considérée est comprise entre le 1er janvier et le 31 janvier.
      • Rolling 7 days (Période de 7 jours) : la durée considérée est de 7 jours à partir de la date actuelle.
      • Rolling 30 days (Période de 30 jours) : la durée considérée est de 30 jours à partir de la date actuelle. Par exemple, si la date actuelle est le 26 janvier, la durée considérée est comprise à partir du 25 décembre.
      • Rolling 90 days (Période de 90 jours) : la durée considérée est de 90 jours à partir de la date actuelle. Par exemple, si la date actuelle est le 26 janvier, la durée considérée est comprise à partir du 25 octobre.
    • État :
      État du SLO. Les choix possibles sont les suivants :
      • Brouillon : le SLO n'est pas encore en cours d'exécution dans votre instance. Vous pouvez ajouter de nouveaux SLI ou mettre à jour les SLI existants et supprimer le SLO.
      • En cours d'exécution : le SLO est actif dans votre instance. Vous pouvez modifier, mettre hors service ou supprimer le SLO.
        Remarque :
        Si vous modifiez un SLO à l'état En cours d'exécution, il est mis hors service et une nouvelle copie est créée.
      • Mis hors service : le SLO n'est plus en cours d'exécution dans votre instance. Vous pouvez le réactiver.
    • Objectif ( %) : pourcentage de performance du SLI souhaité.
    • Occurrences de limite : nombre d’infractions de limite qui se sont produites. (Utilisé par les types de SLO Nombre.)
    • Indicateur de niveau de service : chiffres réels sur les performances de votre service. Des faits mesurables qui indiquent si vous répondez aux attentes des clients.
    • Budget d’erreur : montant du budget d’erreur que vous pouvez dépenser. Lors de la création d’un SLO, le budget d’erreur est calculé en fonction de la période de conformité et de l’objectif ( %) fournis.
    • Budget d’erreur restant : montant du budget d’erreur encore disponible.
    • Occurrences d’infractions restantes : nombre d’infractions encore disponibles avant que la limite ne soit atteinte.
    Remarque :
    Les enregistrements de l’historique des objectifs de niveau de service [sn_sow_srm_slo_history] et de la mesure de l’indicateur de niveau de service [sn_sow_srm_sli_metric] sont archivés au bout d’un an et supprimés cinq ans plus tard. Cette approche permet d’améliorer les performances tout en maintenant une rétention cohérente des données. Aucune requête n'est exécutée sur les tables archivées.