サービス信頼性ダッシュボードの可視化

  • リリースバージョン: Zurich
  • 更新日 2025年07月31日
  • 所要時間:4分
  • サービスリライアビリティ管理 (SRM) のサービス信頼性ダッシュボードの可視化とオプションのリスト。

    サービス状態チャート

    トップレベルのグラフには、重大、リスクあり、および安定した状況のサービスの数が表示されます。状況は、サービスレベル目標 (SLO) に残っているエラー予算に基づいています。チャートを選択してサービス名を表示したり、時間範囲を調整したり、追加のチャートオプションにアクセスしたりできます。

    注:
    エラー予算は、サービスが SLO に違反するまでに発生する可能性のあるエラーの量です。
    各可視化には、過去 12 か月間のサービス数の変化を示す傾向線も含まれています。小さい数字は、1週間前と比較してどのように変化したかを示しており、例えば、6月11日以降、↓25(22%)となっています。
    チャート 概要 使い方
    重要 重大状態のサービスの数を表示します。重要なサービスの SLO のエラー予算残額は 0% です。 エラー予算を消費したサービスの数を表示し、すぐに対応が必要なサービスを特定します。
    リスクあり リスクのあるサービスの数を表示します。リスクのあるサービスの SLO には、<= 25% のエラー予算が残っています。 重大なしきい値に近づいているサービスの数を監視し、問題を早期に発見します。
    安定 安定したサービスの数を表示します。安定したサービスの SLO にエラー予算が 25% 以上残っています。 サービス全体の健全性に関するインサイトを取得し、サービスが長期にわたって信頼性を維持しているかどうかを特定します。

    経時的なリスク傾向

    線グラフは、過去 12 か月間にバーンレートが高く、エラー予算の残額が低い SLO の数を追跡します。これらを使用して、繰り返し発生するパターンと潜在的な信頼性リスクを見つけることができます。
    チャート 概要 使い方
    高バーンレート (>=1) バーンレート >= 1 の SLO の数を経時的に表示します。バーンレートが高い場合は、SLO にリンクされたサービスがコンプライアンス期間が終了する前にエラー予算に違反する可能性が高いことを示します。

    たとえば、サービスが SLO を満たすために 30 日間あるが、15 日間でエラー予算を使い果たしている場合、バーンレートは 2 です。

    • サービスがエラー予算をすぐに消費し始めるタイミングを確認することで、リスクを早期に発見します。
    • バーンレートを経時的に追跡することで、新たな、または繰り返し発生する信頼性の問題を特定します。
    • チャートをポイントすると、その時点でバーンレートが高い SLO の数と割合が表示されます。
    • チャートを選択すると、測定された信頼性、バーンレート、エラー予算残額の割合など、SLO の詳細が表示されます。
    予算残額が少ない (<=25%) エラー予算の残額が低い、またはまったくない SLO の数を経時的に表示します。
    • SLO に近づいている、または違反しているサービスの数を監視します。
    • 信頼性の低下や、調査が必要な繰り返し発生する問題を示す上昇傾向を追跡します。
    • チャートをポイントすると、その時点でエラー予算がほとんどまたはまったく残っていない SLO の数と割合が表示されます。
    • チャートを選択して SLO の詳細を表示し、時間範囲を調整し、追加のチャートオプションにアクセスします。

    サービスレベル目標 (SLO) テーブル

    SLO テーブルには、サービスリライアビリティ管理 (SRM) で定義された SLO がリストされ、デフォルトでは SLO 名でソートされます。このテーブルを使用して、全体的な信頼性を監視し、リスクのあるサービスを特定し、アサインされたチームを見つけます。

    SLO テーブルには、デフォルトで次の列が含まれています。表示される列をカスタマイズするには、歯車アイコンを選択します。
    • 名前:SLO の名前。矢印を選択して SLO 名でテーブルをソートし、名前を選択して SLO レコードを表示できます。
    • 信頼性:SLO の現在のステータス。たとえば、安定、リスクあり、重大などです。
    • 測定された信頼性:サービスの実際のパフォーマンスを示すパーセンテージ。たとえば、SLO が 99.9% 成功で、その月の実際のパフォーマンスが 99.7% の場合、測定された信頼性は 99.7% です。
    • 目標 (パーセンテージ):ターゲット SLO 値。
    • バーンレート:サービスがエラー予算を消費する速度を示す数値。
    • エラー予算残額 (%):現在のコンプライアンス期間でまだ利用可能なエラー予算の割合。
    • サービス:SLO に関連付けられたサービスの名前。サービス名を選択すると、サービスレコードを表示できます。
    • アサイン済み:サービスを担当するチーム。

    ダッシュボードのフィルターとアクション

    サービスリライアビリティダッシュボードはプラットフォームアナリティクスで構築され、標準のダッシュボード機能が含まれています。ダッシュボードのカスタマイズ、複製、または共有の詳細については、 Dashboards in Platform Analytics ドキュメントを参照してください。
    注:
    サービスリライアビリティダッシュボードへの変更は、インスタンスのすべての SRM ユーザーに影響します。カスタマイズされたバージョンを作成するには、新しいダッシュボードをビルドするか、既存のダッシュボードを複製して編集します。詳細については、「 Create a dashboard with the in-line editor 」と「 Duplicate a Platform Analytics dashboard」を参照してください。