サービスオブザーバビリティ の探索
サービスオブザーバビリティ は、運用チームが複雑で分散した本番システムでインシデントをトリアージして管理するのに役立ちます。外部アプリケーションパフォーマンスモニタリング(APM)システムのテレメトリと 構成管理データベース (CMDB) からの関連データを組み合わせ、両方を サービスオペレーションワークスペース (SOW)の単一のワークフローに表示します。
サービスオブザーバビリティの概要
サービスオブザーバビリティ は、指定したサービスに関連する SOW の健全性メトリクスを表示します。メトリクスは、外部 APM システムから取り込み、 CMDB内の関連する構成アイテムの情報とともに表示できます。
サービスオブザーバビリティ は、以下の APM ベンダーをサポートしています。
- Datadog
- Dynatrace
- New Relic
- MySQL
- PostgreSQL ( Splunk ではサポートされていません)
- RDS (リレーショナルデータベースサービス) (Amazon CloudWatch)
APM インスタンスを サービスオブザーバビリティ に接続した後、既存のタグを使用して CMDB 内のサービスを APM メトリクスにマッピングします。
このデータマッピングにより、 サービスオブザーバビリティ ホストやデータベースなどのエンティティの APM メトリクスが、関連する CI 情報の詳細とともに表示されます。オペレーターは、これらのメトリクスと、現在のインシデントやアラートなどのコンテキスト情報を使用して、サービスヘルスを評価します。
たとえば、Dynatrace を使用して checkout サービスを監視し、データベースとホストからのメトリクスがタグ checkout-service を使用して、そのサービスからの要求を示しているとします。checkout サービスの CI を checkout-service でタグ付けされた APM データにマッピングすることで、サービスオブザーバビリティ は、それらのデータベースとホスト、サービスに関連する CI のメトリクスを取得し、それらをまとめて表示します。オペレーターは、SOW を離れることなく、サービスに関連するエンティティの問題を特定し、軽減プロセスを絞り込むことができます。
サービスオブザーバビリティ ユーザー
| ユーザー | 説明 |
|---|---|
| システム管理者 |
バージョン 1.5 のみ。 システムアドミンは、ユーザーとチームを構成し、監視するサービスを登録し、 サービスオブザーバビリティ を APM に接続して、それらのサービスをデータにマップします。また、SOW のデータを表示することもできます。 |
| サービスオブザーバビリティ アドミン | バージョン 1.6.x 以降。 サービスオブザーバビリティ アドミニストレーターは、ユーザーとチームを構成し、 サービスオブザーバビリティ を APM に接続して、サービスをそのデータにマップできます。また、SOW のデータを表示することもできます。アドミンは、メトリクスと関連情報の表示に使用するダッシュボードテンプレートをカスタマイズすることもできます。 |
| オペレーター/運用マネージャー 注: これらのユーザーは、すべてのデータを表示するために srm グループタイプに属している必要があります。 |
オペレーターは、SOW でインシデントをトリアージするときに サービスオブザーバビリティ を使用します。関連するインシデント、アラート、変更とともに、サービスの基本的な健全性メトリクスを表示できます。[オブザーバビリティ (Observability)] タブに移動して、ホストやデータベースなどの関連エンティティのメトリクスとともに、追加のサービスメトリクスを表示することで、より詳細な情報を取得できます。 |
サービスオブザーバビリティ のワークフロー
アドミンは、サービスを登録し、APM メトリクスを接続し、サービスをそのデータにマッピングすることで、サービスオブザーバビリティ を構成します。オペレーターは サービスオブザーバビリティ を使用して、別の関連エンティティが、サービスのパフォーマンスによって表面化した問題を引き起こしているかどうかを判断します。
アドミニストレーターは、次のことを行います。
- 事業上の重要度に基づいて、 サービスオブザーバビリティ によって監視されるサービスを決定します。
- 既存の APM インスタンスを サービスオブザーバビリティ に接続する。
- APM メトリクスデータで使用される APM ベースのタグに基づいて、そのデータでサービスをマッピングします。
- メトリクスのグラフの表示に使用するテンプレートをカスタマイズします。
オペレーターまたはマネージャーは、以下のことを行います。
- アラート、サービスダッシュボード、エクスプレスリスト などから、SOW での作業中にサービスの問題を特定し、[サービスの詳細] ページに移動します。
- 関連インシデント、アラート、変更とともに、サービスの全体的な健全性メトリクスを表示します。メトリクスの 1 つが異常と思われる場合は、[オブザーバビリティ (Observability)] タブに移動します。
- より詳細なサービスメトリクスと関連エンティティの情報を表示して、根本原因の調査を開始します。問題がシステムのスタックのさらに下にあると判明した場合、そのエンティティの所有権を識別して修正を開始します。
サービスオブザーバビリティ のメリット
| 利益 | 機能 | ユーザー |
|---|---|---|
重要なシグナルを一元化し、ワークフローを連携させ、アジリティと信頼性を向上させます。
|
. | 管理 |
| 効率を高め、平均解決時間 (MTTR) を短縮します。サービスに関連付けられたエンティティから結合されたメトリクスを表示して、インシデントの爆発半径と所有権の判断を開始します。 | サービスヘルスメトリクスの表示 | 演算子 |
| サービスに関連付けられたシステムとアラートに関する変更を 1 か所で確認できます。 | 全体的なサービスヘルスを表示するに展開したカスタムモバイルアプリケーションを使用して管理しました。 | 演算子 |
| ダッシュボードテンプレートをカスタマイズします。 | サービスオブザーバビリティダッシュボードテンプレートのカスタマイズ | 管理 |