Site Reliability-Metriken − Grundlegende Terminologie

  • Freigeben Version: Xanadu
  • Aktualisiert 1. August 2024
  • 1 Minute Lesedauer
  • Kurzanleitung zu einigen der Basisbegriffe zum Verständnis von Site Reliability-Metriken (SRM) und seiner Funktionen.

    Tabelle : 1. In SRM verwendete Begriffe
    Bedingungen Beschreibungen
    Application Performance Management (APM) Überwachung und Verwaltung der Leistung und Verfügbarkeit von Anwendungen. APM dient dazu, komplexe Probleme mit der Anwendungsleistung zu erkennen und zu diagnostizieren und das erwartete Serviceniveau aufrechtzuerhalten.
    Service-Level-Management (SLM) Ein Framework, über das Servicelevel zwischen einem Anbieter und einem Verbraucher vereinbart werden, um Geschäftsprozesse zu unterstützen. Zu den in Service-Level-Management enthaltenen Vertragsarten gehören Servicelevel-Vereinbarung (SLA), Betriebslevel-Vereinbarung (OLA) und Vertrag mit Drittparteien (UC).
    Service Level Agreements (SLAs) Ein SLA definiert das Serviceniveau, auf das sich ein Anbieter und ein Verbraucher geeinigt haben. Es legt normalerweise die Metriken fest, anhand derer der Service gemessen wird, sowie Abhilfemaßnahmen oder Strafen, wenn die vereinbarten Servicelevel nicht erreicht werden.
    Servicelevel-Ziel (SLO) Ein Zielwert oder Wertebereich für einen Servicelevel, der von einem SLI gemessen wird.
    Servicelevel-Indikator (SLI) Ein quantitatives Maß für einen Aspekt des bereitgestellten Servicelevels. Metriken werden verwendet, um SLO-Ziele zu definieren.
    Gemessene Zuverlässigkeit Fähigkeit, die zugesagten Services auf konsistente und genaue Weise bereitzustellen. Die Zuverlässigkeit wird automatisch berechnet, indem Ausfälle von 100 % abgezogen werden.
    Fehlerbudget

    Ein Fehlerbudget ist die Menge der SLO, die Sie über einen bestimmten Zeitraum ausgeben können. Es kann verwendet werden, um die Release-Geschwindigkeit zu verwalten. Es basiert normalerweise auf Verfügbarkeit, Latenz usw.

    Fehlerbudgetrichtlinie Richtlinie oder Regel, die für einen Service erstellt wird, um Aktionen auszulösen, z. B. das Erstellen eines Incident oder das Senden von Benachrichtigungen, wenn ein festgelegter Schwellenwert überschritten wird.