信頼性メトリクスの操作

リリースバージョン: Xanadu

更新日 2024年08月01日

所要時間：4分

SRM 信頼性メトリクスを使用して、サービスレベルインジケーター (SLI)、サービスレベル目標 (SLO)、およびエラー予算ポリシーを定義してサービスヘルスを追跡し、必要なアクションを実行します。

高レベルのワークフロー

SRM は、シグナルアグリゲーションに統合を活用します。
SRM のサービスに対して、SLI と SLO を含む信頼性インジケーターが作成されます。
サービスの認定アラートが生成されると、SRM の信頼性インジケーターの累積違反とエラー予算値が更新されます。
サービスに対してエラー予算ポリシーが作成され、インシデントの作成やメールの送信などのアクションをトリガーして、サービスの問題を修正します。エラー予算は [カテゴリ] によって制限されます。

SRM メトリクスの主な機能は次のとおりです。

SLI シグナルアグリゲーション
期間とカウントに基づくサービスレベル目標の作成
エラー予算 (EB) の計算
エラー予算ポリシー
エラー予算の可視化

に移動します。サービス > 概要タブをクリックして、信頼性とエラー予算のメトリクスに関連するすべての重要なデータを表示します。詳細については、「SRM サービスの操作」を参照してください。

注:

スコアは、SLI と SLO とエラー予算が作成され、影響を受ける場合にのみ表示されます。詳細については、「SLO、SLI、およびエラー予算ポリシーの作成」を参照してください。

[信頼性メトリクス] タブ

に移動します。サービス > 信頼性メトリクスタブをクリックして、サービスのサービスレベル目標 (SLO) を表示します。

図 : 1. SRM 信頼性メトリクスリストビュー

注:

SLO を更新すると、ステータスが変わり、この SLO レコードが廃止されて、正確な監視のために新しいコピーが作成されます。

信頼性メトリクス

[サービスレベル目標] には、次の詳細が表示されます。

サービスレベル目標：SLO の名前。SLO は、サービスレベルアグリーメント (SLA) を満たすためにチームが達成する必要があるターゲット値または目標です。
SLI タイプ (SLI type)：サービスのパフォーマンスに関する実数。
SLI タイプは次のとおりです。
- 可用性：サービスが利用可能な時間の割合。アップタイムとも呼ばれます。可用性は、信頼性の基本的なメトリクスです。(デフォルト)。
- エラー：サービスエラーの頻度を測定します。
- レイテンシ：要求に対する対応に要した時間。実際に経過した時間です。
- 飽和度 (Saturation)：システムの「満杯状態」を測定します。制約が最も大きいリソースを強調します。
コンプライアンス期間：
SLO が継続するように設定されている期間。
- 月：期間は現在の月と見なされます。たとえば、現在の日付が 1 月 26 日である場合、期間は 1 月 1 日から 1 月 31 日までと見なされます。
- 7 日間 (Rolling 7 days)：期間は現在の日付までの 7 日間と見なされます。
- 30 日間 (Rolling 30 days)：期間は現在の日付までの 30 日間と見なされます。たとえば、現在の日付が 1 月 26 日である場合、期間は 12 月 25 日からと見なされます。
- 90 日間 (Rolling 90 days)：期間は現在の日付までの 90 日間と見なされます。たとえば、現在の日付が 1 月 26 日である場合、期間は 10 月 25 日からと見なされます。
State (ステータス)：
SLO のステータス。選択肢は次のとおりです。
- ドラフト：インスタンスで SLO がまだ実行されていません。新しい SLI を追加するか、既存の SLI を更新できます。また、SLO を削除することもできます。
- 実行中：SLO はインスタンスでアクティブです。SLO を編集、廃止、または削除できます。
  注:
  実行中ステータスの SLO を編集すると、その SLO は廃止され、新しいコピーが作成されます。
- 廃止：SLO はインスタンスで実行されていません。その SLO を再度アクティブにできます。
目標 (%) (Objective (%))：目標とする SLI パフォーマンスの割合。
発生件数の制限 (Limit occurrences)：発生した制限違反の数。([カウント] SLO タイプで使用されます。)
サービスレベルインジケーター：サービスのパフォーマンスに関する実数。顧客の期待に応えているかどうかを示す測定可能なファクト。
エラー予算：費やすことのきるエラー予算。SLO の作成時、エラー予算は、指定されたコンプライアンス期間と目標 (%) に基づいて計算されます。
エラー予算残額：費やすことのできる残りのエラー予算。
残りの違反発生件数：制限に達するまでに残っている違反の数。

注:

サービスレベル目標の履歴 [sn_sow_srm_slo_history] およびサービスレベルインジケーターメトリクス [sn_sow_srm_sli_metric] のレコードは、1 年後にアーカイブされ、その 5 年後に破棄されます。これにより、パフォーマンスが向上し、データ保持期間が同等になることが期待されます。アーカイブされたテーブルに対してクエリは実行されません。