メトリックインテリジェンスの詳細
メトリックインテリジェンスを使用して、メトリクスデータを分析して異常を特定する方法の詳細を説明します。
メトリックインテリジェンスの概要
メトリックインテリジェンスにより、潜在的なサービス停止を特定して防止できます。過去のメトリクスデータに基づいて、メトリックインテリジェンスはイベントがキャプチャされない可能性のある CI の例外動作を示します。
メトリックインテリジェンスユーザー
| ユーザー | 説明 |
|---|---|
| イベント管理 ユーザー [evt_mgmt_user] |
アラートとその基礎となるメトリクスを表示できます。 |
| イベント管理 アドミニストレーター [evt_mgmt_admin] |
すべてのメトリクスの定義とコネクタ設定を構成できます。 |
| オペレーター [evt_mgmt_operator] |
すべてのメトリクスの定義とコネクタ設定を表示できます。 |
メトリックインテリジェンスのワークフロー
次の図は、メトリックインテリジェンスアプリケーション内のレイアウトとデータフローを示しています。
- データ収集:エージェント、サードパーティコネクタ、およびカスタムコネクタ (REST) は、サーバーとインフラストラクチャコンポーネントからパフォーマンスデータを収集します。エージェントによって収集されたデータは、WebSocket を介して MID サーバーに渡され、サードパーティおよびカスタムコネクタによって収集されたデータは、コネクタを介して MID サーバーに渡されます。
- データ正規化:生データはノーマライザーによってフォーマットされ、メトリックベースで読み取り可能な形式に変換されます。
- データのグループ化:データはバッチャーによってグループ化され、インスタンス (Glide) 上の REST API に送信されます。
- Clotho TSDB へのデータ転送:REST API がデータを処理し、Clotho TSDB に送信します。
- モデルの作成:トレーナー/学習者ジョブが実行され、受信したデータに基づいてモデルが作成されます。たとえば、あるジョブで、通常の CPU 使用率のしきい値が 60% であることを学習します。その日のデータと過去のデータ (ほとんどのモデルは過去 14 日間のデータを収集) に基づいて、新しいモデルが毎日作成されます。
- 時系列モデルキャッシュ DB へのモデルデータ転送:データは、インスタンス (Glide) を介して MID サーバー上の時系列モデルキャッシュ DB に送信されます。モデルキャッシュは、「正常」モデルの範囲を格納します。
- 例外検出:正常の範囲外のデータが MID サーバーによって検出され、例外スコアとしてレンダリングされます。例外はインスタンスに保存され、サービスオペレーションワークスペースに表示されます。例外検出はリアルタイムで実行されるため、お客様はすぐに例外を認識することができます。
メトリックインテリジェンスのメリット
| 利益 | 機能 | ユーザー |
|---|---|---|
| 自動構成を活用して、イベントと測定基準を自動収集することで、システムの健全性、パフォーマンス、および可用性を監視します。 | エージェントクライアントコレクターモニタリング | NOC オペレーター、イベント管理アドミニストレーター |
| 最も有効な異常のみを昇格させることでノイズを低減します。 | イベント管理 アドミニストレーター | |
| 教師なし機械学習による異常パターン検出 (ユーザー介入なし)、または確定的なアラートルールの設定 (静的しきい値の手動設定) により、AI ベースの異常検出で異常を検出します。 | ヘルスログアナリティクスでのアラートの生成方法 | イベント管理 アドミニストレーター |
| 生のメトリクスデータを可視化し、オープンのアラートとインシデントの解決時間を短縮します。 | メトリックエクスプローラー | NOC オペレーター、イベント管理アドミニストレーター |
次に探索する内容
メトリックインテリジェンス の構成と使用の詳細については、以下を参照してください。