信頼性メトリクスの操作
サービスヘルスの追跡、問題への対応、ビジネスゴールのサポートに役立つ信頼性メトリクスと機能について説明します。
サービス信頼性ダッシュボード
サービス信頼性ダッシュボードには、カスタマイズ可能なサービスパフォーマンスの概要が表示されます。サービスステータス、エラー予算、およびサービスレベル目標 (SLO) を経時的に追跡する可視化を使用して、信頼性を監視および管理するのに役立ちます。
ダッシュボードには、 サービスリライアビリティ管理 (SRM) のすべてのサービスに関する情報が表示されます。ダッシュボードには、次の方法で サービスオペレーションワークスペース アクセスできます。
- 移動先 .
- 移動先
詳細については、「サービス信頼性ダッシュボードの可視化」を参照してください。
注:
[サービスの概要] タブで、すべてのサービスの SLO 情報を表示することもできます。詳細については、「SRM サービスの操作」を参照してください。
通知先
通知の宛先は、サービスの信頼性についてチームに常に情報を提供するのに役立ちます。エラー予算ポリシーに添付して、ポリシー違反が発生したときに通知を送信します。
サービスオペレーションワークスペース で通知宛先を表示および管理するには、次に移動します: .
通知宛先の作成と操作の詳細については、次のリンクを参照してください。
[信頼性メトリクス] タブ
[信頼性メトリクス] タブには、特定のサービスが信頼性の目標をどの程度満たしているかが表示されます。これを使用して、サービスの SLO、サービスレベルインジケーター (SLI)、およびエラー予算を追跡します。
サービスオペレーションワークスペース で [信頼性メトリクス] タブを表示するには、 .
[信頼性メトリクス] タブで実行できる操作の詳細については、次のリンクを参照してください。
サービスレベル目標テーブル
[信頼性メトリクス] タブの [サービスレベル目標] テーブルには、サービス SLO に関する次の詳細が含まれています。
- 名前 :SLO の名前。名前を選択して SLO レコードを表示できます。
- 信頼性: SLO の現在のステータス。たとえば、安定、リスクあり、重大などです。
- エラー予算残額 (%) :現在のコンプライアンス期間中にまだ利用可能なエラー予算の割合。
- コンプライアンス期間: パフォーマンスの計算に使用される期間:
- 月:現在の月。たとえば、現在の日付が 1 月 26 日の場合、月は 1 月 1 日から 1 月 31 日までです。
- 7 日間、30 日間、または 90 日間 - 現在の日付からの日数。たとえば、7 日間の場合、期間は現在の日付から 7 日前になります。
- SLI タイプ :測定対象のパフォーマンスカテゴリ:
- 可用性:サービスまたは構成アイテムが利用可能な時間の割合 (アップタイムとも呼ばれます)。
- エラー:サービスエラーの頻度。
- レイテンシ:要求のサービスに要する時間。
- 飽和度:リソース使用率に焦点を当てた、システムの満杯状態。
- ソースタイプ :この SLO の SLI を計算するために使用されるデータの作成元:
- アラート:統合されたモニタリングツールからのアラートを使用します。
- 機能停止:モニタリングツールによって検出され、ユーザーによって報告された機能停止を使用します。機能停止は、サービスがいつ利用できなかったかを示します。このソースタイプは、定期メンテナンスなどの予定されている機能停止を除外します。
- 更新日時 :SLO が最後に編集された日時。
- 更新者: SLO を最後に編集したユーザー名。
- ステータス :SLO のステータス。たとえば、実行中や廃止などです。
注:
パフォーマンス上の理由から、SLO および SLI レコード ([sn_sow_srm_slo_history] および [sn_sow_srm_sli_metric]) は 1 年後にアーカイブされ、5 年後に削除されます。アーカイブされたデータは、テーブルとビジュアル化から省略されます。