信頼性メトリクスの操作

  • リリースバージョン: Yokohama
  • 更新日 2025年01月30日
  • 所要時間:6分
  • サービスヘルスの追跡、問題への対応、ビジネスゴールのサポートに役立つ信頼性のメトリクスと機能について説明します。

    高レベルのワークフロー

    1. SRM は、シグナルアグリゲーションに統合を活用します。
    2. サービスレベルインジケーター (SLI) とサービスレベル目標 (SLO) を含む信頼性インジケーターは、 SRMでサービスに対して作成されます。
    3. サービスの認定アラートが生成されると、SRM の信頼性インジケーターの累積違反とエラー予算値が更新されます。
    4. サービスに対してエラー予算ポリシーが作成され、インシデントの作成やメールの送信などのアクションをトリガーして、サービスの問題を修正します。エラー予算は [カテゴリ] によって制限されます。
    SRMメトリクスの主な機能は次のとおりです。
    • SLI シグナルアグリゲーション
    • 期間およびカウントベースの SLO の作成
    • エラー予算の作成
    • エラー予算ポリシーの定義
    • エラー予算の可視化
    移動先: サービス > 概要 タブをクリックして、信頼性とエラー予算のメトリクスに関連するすべての重要なデータを表示します。詳細については、「SRM サービスの操作」を参照してください。
    注:
    スコアは、SLI と SLO とエラー予算が作成され、影響を受ける場合にのみ表示されます。詳細については、「SLO、SLI、およびエラー予算ポリシーの作成」を参照してください。

    [信頼性メトリクス] タブ

    [信頼性メトリクス] タブには、特定のサービスが信頼性の目標をどの程度達成しているかが表示されます。これを使用して、サービスの SLO、サービスレベルインジケーター (SLI)、およびエラー予算を追跡します。

    サービスオペレーションワークスペース で [信頼性メトリクス] タブを表示するには、 サービス ( [サービス] アイコン) > [あなたのサービス] > 信頼性メトリクス.

    図 : 1. SRM [信頼性メトリクス] タブ
    [信頼性メトリクス] タブには、ユーザー認証サービスの SLO のリストが表示されます。

    [信頼性メトリクス] タブで実行できる操作の詳細については、次のリンクを参照してください。

    サービスレベル目標テーブル

    [信頼性メトリクス] タブの [サービスレベル目標] テーブルには、選択したサービスに関する次の詳細が含まれています。

    • サービスレベル目標:SLO の名前。SLO は、サービスレベルアグリーメント (SLA) を満たすためにチームが到達する必要があるターゲット値または目標です。
    • SLI タイプ:測定対象のパフォーマンスカテゴリ:
      • 可用性:サービスまたは構成アイテムが利用可能な時間の割合 (アップタイムとも呼ばれます)。
      • エラー:サービスエラーの頻度。
      • レイテンシ:要求の処理にかかる時間。
      • 飽和度:リソース使用率に焦点を当てた、システムの満杯状態。
    • コンプライアンス期間:パフォーマンスの計算に使用される期間:
      • 月:現在の月。たとえば、現在の日付が 1 月 26 日の場合、月は 1 月 1 日から 1 月 31 日までです。
      • 7 日間、30 日間、または 90 日間:現在の日付からの日数。たとえば、7 日間のロールの場合、期間は現在の日付から 7 日前になります。
    • ステータス:SLO のステータス (ドラフト、実行中、廃止など)。
    • 目標 (パーセンテージ):SLI パフォーマンスのターゲットパーセンテージ。
    • 発生件数の制限 (Limit occurrences):発生した制限違反の数。カウントベースの SLO でのみ使用されます。
    • サービスレベルインジケーター:SLO に関連付けられた SLI。
    • エラー予算:コンプライアンス期間と目標 (パーセンテージ) を使用して計算された、コンプライアンス期間中の許容障害時間。
    • エラー予算残額:エラー予算はまだ利用可能です。
    • 残りの違反発生件数:制限に達する前にまだ利用可能な違反の数。
    注:
    パフォーマンス上の理由から、SLO レコードと SLI レコード ([sn_sow_srm_slo_history] および [sn_sow_srm_sli_metric]) は 1 年後にアーカイブされ、5 年後に削除されます。アーカイブされたデータは、テーブルと可視化から除外されます。
    注:
    SLO を更新すると、ステータスが変更され、この SLO レコードは廃止され、正確な監視のためにコピーが作成されます。

    信頼性メトリクス

    [サービスレベル目標] には、次の詳細が表示されます。

    • サービスレベル目標:SLO の名前。SLO は、サービスレベルアグリーメント (SLA) を満たすためにチームが到達する必要があるターゲット値または目標です。
    • SLI タイプ:サービス のパフォーマンスに関する実数。
      SLI タイプは次のとおりです。
      • 可用性:サービスが利用可能な時間の割合を測定します。このタイプはアップタイムとも呼ばれます。可用性は、信頼性の基本的かつデフォルトのメトリクスです。
      • エラー:サービスエラーの頻度を測定します。
      • レイテンシ:要求の処理に要する時間を測定します。経過時間を追跡します。
      • 飽和度:システムの満杯状態を測定し、制約が最も大きいリソースを強調します。
    • コンプライアンス期間
      SLO が継続するように設定されている期間。
      • :期間は現在の月と見なされます。たとえば、現在の日付が 1 月 26 日である場合、期間は 1 月 1 日から 1 月 31 日までと見なされます。
      • 7 日間 (Rolling 7 days):期間は現在の日付までの 7 日間と見なされます。
      • 30 日間 (Rolling 30 days):期間は現在の日付までの 30 日間と見なされます。たとえば、現在の日付が 1 月 26 日である場合、期間は 12 月 25 日からと見なされます。
      • 90 日間 (Rolling 90 days):期間は現在の日付までの 90 日間と見なされます。たとえば、現在の日付が 1 月 26 日である場合、期間は 10 月 25 日からと見なされます。
    • State (ステータス)
      SLO のステータス。選択肢は次のとおりです。
      • ドラフト:インスタンスで SLO がまだ実行されていません。新しい SLI を追加するか、既存の SLI を更新できます。また、SLO を削除することもできます。
      • 実行中:SLO はインスタンスでアクティブです。SLO を編集、廃止、または削除できます。
        注:
        実行中ステータスの SLO を編集すると、その SLO は廃止され、新しいコピーが作成されます。
      • 廃止:SLO はインスタンスで実行されていません。その SLO を再度アクティブにできます。
    • 目標 (%) (Objective (%)):目標とする SLI パフォーマンスの割合。
    • 発生件数の制限 (Limit occurrences):発生した制限違反の数。([カウント] SLO タイプで使用されます。)
    • サービスレベルインジケーター:サービスのパフォーマンスに関する実数。顧客の期待に応えているかどうかを示す測定可能なファクト。
    • エラー予算:費やすことのきるエラー予算。SLO の作成時、エラー予算は、指定されたコンプライアンス期間と目標 (%) に基づいて計算されます。
    • エラー予算残額:まだ利用可能なエラー予算額。
    • 残りの違反発生件数:制限に達する前にまだ利用可能な違反の数。
    注:
    サービスレベル目標履歴 [sn_sow_srm_slo_history] およびサービスレベルインジケーターメトリクス [sn_sow_srm_sli_metric] レコードは 1 年後にアーカイブされ、5 年後に削除されます。このアプローチにより、データ保持の一貫性を維持しながらパフォーマンスを向上させることができます。アーカイブされたテーブルに対してクエリは実行されません。