メトリックインテリジェンス の理解
メトリックインテリジェンス を使用すると、潜在的なサービス停止を特定して防止できます。メトリックインテリジェンス は、過去のメトリクスデータに基づいて、イベントがキャプチャされない可能性のある CI の例外動作を示します。例外アラートは、通常の IT アラートに昇格させ、予防措置のためにサービスオペレーションワークスペースおよびサービス健全性ダッシュボードに表示できます。
例外検出
メトリクスデータは、SCOM、SolarWinds モニタリングシステム、Nagios XI サーバーなどのさまざまなデータソースによって収集されます (デフォルトではメトリクス収集がある程度設定されています)。こうしたモニタリングシステムは、メトリクスデータをソース環境から定期的に収集します。メトリックインテリジェンス は、このモニタリングシステムから生データをキャプチャし、イベントルールと CMDB 識別エンジンを使用して、データを既存の CI とそのリソースにマッピングします。このデータを分析して、例外を検出したり、他の統計スコアを提供したりできます。
メトリックインテリジェンス は、過去のメトリクスデータを使用して統計モデルをビルドします。こうしたモデルは、期待されるメトリクスの値と上下限を予測するのに役立ちます。次に、メトリックインテリジェンス では、この予測を使用して、統計の外れ値の検出や例外スコアの算出を行います。例外スコアの範囲は 0 ~ 10 です。CI メトリクスの例外スコアが高い場合は、CI がサービス停止の要因となるおそれがあることを示している可能性があります。
処理後、 インサイトエクスプローラーでメトリクスの統計情報とグラフが表示され、例外マップには、タイムライン全体で例外スコアの最も高い CI の相関スコアが表示されます。
メンテナンスの進行中に検出された例外は無関係である可能性があるため、システムメンテナンス中は例外検出を無効にすることをお勧めします。これを行うには、mid.mi.anomaly_detection.disable プロパティを true に設定します。
ほぼ一定として分類されたメトリクスの異常の表示をカスタマイズするには、カスタマーサポートにお問い合わせください。
メトリックインテリジェンス は、 メトリックインテリジェンス (com.snc.sa.metric) プラグインを有効にすると利用可能になります。
メトリックインテリジェンス で使用される用語
- ソースのメトリクスタイプ
CI のデータソースによって測定できる、「空きスペースの割合」、「現在の帯域幅」などのメトリクスです。データソースごとに、考えられるすべてのソースメトリクスタイプのうち、処理対象のものを選択できます。たとえば、SCOM データソースでは、約 380 のソースメトリクスタイプがデフォルトで有効になっています。
- 例外
- コントロールの限度を超えたデータは、統計の外れ値と見なされます。こうした外れ値は、「例外スコア」を計算するために使用されます。例外スコアは、メトリクスが表示されない可能性を示す 0 ~ 10 の値です。例外スコアがしきい値を超えると、「例外アラート」が生成されます。例外アラートは、通常の IT アラートとは別に報告されます。
- リソース
- 類似したタイプの複数の個別コンポーネントから成る CI のコンポーネントです。これにより、各サブコンポーネントを個別に監視できます。たとえば、個々の Web ページ、または「Disk C:」、「ディスク D:」などの特定のディスクが該当します。
- 時系列
- CI とメトリクスタイプに関連付けられた、ある時間範囲の一連の値 (メトリクス値など) です。メトリクスごとに例外スコアが評価されるため、一定期間の一連の例外スコアも時系列になります。時系列は、メトリクスデータ系列用にビルドされた統計モデルによって計算され、メトリクスデータ値、例外スコア、およびコントロールの上下限とともに使用されます。
統計モデル
メトリックインテリジェンスのジョブは、過去のメトリクスデータ (過去 32 日まで) から学習します。モデルトレーニングプロセスでは、過去のデータを分析して、将来の値を予測するモデルをビルドします。通常、モデルは、次回モデル学習プロセスが実行されるまで有効です。こうしたモデルは上下限の計算に使用されます。上下限を超え、統計上の有意性が期待値と異なる値を受信した場合は、例外が生成されます。各モデルは一意のパターンになっており、モデルの一般的な動作を示す「分類子」でラベル付けされています。この分類で、例外検出を適用できるかどうかが決まります。ほとんどのモデルについて、期待値と異なる将来の値を予測できます。このようなモデルはコントロールの限度に関連付けられており、例外検出を適用できます (有効な場合)。
ただし、一部のモデルでは、例外がどの値であるかを判断するためのデータが不足しています。また、例外検出が有効になっている場合でも、追加情報がなければ例外検出を適用できません。
学習したデータモデルは、メトリクス時系列モデル [sa_time_series] テーブルに保存されます。
次の統計モデルと分類子が、例外検出で使用されています。
- 時系列統計モデル
- これが確立されると、時系列モデルは、受信したメトリクスデータの変更に合わせて調整されることはありません。したがって、受信したデータのパターンが変更された場合、その変更は例外として識別される可能性があります。学習後のコントロールの上下限は、次に学習プロセスが実行されるまで維持されます (データは毎日学習されます)。
- 週次
- パターンが毎週繰り返されるデータです (季節モデル)。
系列内に少なくとも 15 日分のデータが必要です。この値は、weekly_model_min_days で設定されます。
- 日次
- パターンが毎日繰り返されるデータです (季節モデル)。
系列内に少なくとも 3 日分のデータが必要です。この値は、daily_model_min_days で設定されます。
- 傾向性
- 傾斜になっており、若干のノイズを含む線形傾向のデータです。
系列内に少なくとも 30 個のデータポイントが必要です。この値は、corrupt_data_count_threshold で設定されます。
- ノイズあり
- データモデル内の基本的なパターン分類である、典型的にノイズの多いデータです。特定の傾向や季節によってパターンを特定することはできません。
系列内に少なくとも 30 個のデータポイントが必要です。この値は、corrupt_data_count_threshold で設定されます。
- 正のクリッピングノイズあり
- ノイズあり分類子に似ていますが、下限が 0 で固定されている点が異なります。
系列内に少なくとも 30 個のデータポイントが必要です。この値は、corrupt_data_count_threshold で設定されます。
- 対称型ノイズあり
通常、ユーザーが指定した上限と下限の間で対称に広がる、ノイズの多いデータです。限度と幅の値の設定に使用される式で統計データは無視され、上下の幅が同じ値に設定されます。
系列内のデータポイントの数がゼロである必要があります。
このモデルでメトリクスのアラートを取得するには、静的限度定義のメトリクスルールを作成します。詳細については、「メトリクスルールの作成」を参照してください。
- スキューノイズあり
ユーザーが指定した上限と下限の間で均等に広がるのではなく、いずれかの限度付近に集中する傾向がある、ノイズありのデータです。データの中央値は、上下の幅を個別に計算するために使用されます。
系列内に少なくとも 1 つのデータポイントが必要です。
このモデルでメトリクスのアラートを取得するには、静的限度定義のメトリクスルールを作成します。詳細については、「メトリクスルールの作成」を参照してください。
- スキューノイズあり - 一般化極値 (GEV) 分布
- ユーザーが指定した上限と下限の間で均等に広がるのではなく、いずれかの限度付近に集中するノイズありのデータです。また、データ分布にはロングテールやヘビーテールがあります。分布のテールから派生するデータの中央値は、上下の幅を個別に計算するために使用されます。系列内に少なくとも 1 つのデータポイントが必要です。
- 累積
- 傾向性分類子に類似していますが、単調増加でノイズのないデータパターンです。この分類子では、データモデルがなく、例外検出もありません。
系列内に少なくとも 30 個のデータポイントが必要です。この値は、corrupt_data_count_threshold で設定されます。
- ほぼ一定
- ほとんどの値が特定の定数値である、ほぼ一定のデータです。この分類子では、データモデルがなく、例外検出もありません。
系列内に少なくとも 30 個のデータポイントが必要です。この値は、corrupt_data_count_threshold で設定されます。
- 検出された定数
- ほぼ一定のメトリクスで異常を確認できるようにします。これを行うには、システムトークンを使用して、メトリクスを検出された定数モデルに移動する必要があります。トークンをトークンリストに追加し、より多くのメトリクスで異常を測定できるようにするには、カスタマーサポートにお問い合わせください。
系列内に少なくとも 30 個のデータポイントが必要です。この値は、corrupt_data_count_threshold で設定されます。
metric_name_analysis.add_detected_constant_candidateシステムプロパティが true に設定されている場合に有効になります。特定のメトリクスタイプについてこのプロパティの値を上書きするには、次のようにして [メトリクスタイプ] テーブルの [検出された定数候補] フィールドを更新します。- インスタンスナビゲーションのフィールドに「
sa_metric_type.list」と入力します。 - [検出された定数候補] 列で、更新するエントリの該当する値を選択します。
表 : 1. [検出された定数候補] の値 値 説明 <空> 検出された定数モデルに対してメトリクスを考慮するかどうかが、アルゴリズムによって自動的に決定されました。 これがデフォルト値です。
はい メトリクスは、検出された定数モデルに対して考慮されます。 いいえ メトリクスは、検出された定数モデルに対して考慮されません。
- インスタンスナビゲーションのフィールドに「
- 多項
- すべての値が比較的少数の値のいずれかとなっているデータパターンです。たとえば、値が常に 100 または 99.9 となる場合などです。この分類子では、データモデルがなく、例外検出もありません。
系列内に少なくとも 400 個のデータポイントが必要です。この値は、multinomial_count_threshold の値の 10 倍で設定されます。
- 破損
- パターンを識別するためのデータポイントが不足しています。この分類子では、データモデルがなく、例外検出もありません。
系列内のデータポイントの数が、 corrupt_data_count_threshold 設定の値 (デフォルトでは 30) 未満である必要があります。
- カルマンフィルター統計モデル
- 時系列統計モデルへのアドオンであり、ノイズありおよび正のクリッピングノイズありの分類子にのみ適用されます。このモデルは、データストリームからモデルパラメーターを推定する一般的な方法で、レベルがモデル内の唯一のパラメーターです。カルマンフィルターモデルは、受信したメトリクスデータの新しい値に合わせて調整できます。ノイズに明確なパターンがない場合や、ノイズが多すぎる場合、カルマンフィルターモデルは使用されません。
- ローカルレベル
- 受信したデータが現在のコントロールの限度に従って新しい値を中心にクラスター化されると、学習によって永続的な変更に合わせてデータモデルが調整されます。受信した大半のデータが、例外ではなく再びコントロールの限度内になるように、このクラスターはデータモデル内の新しい値として検出されます。このような変更の検出は、サーバーに追加されたコアやメモリがベースラインに影響を与える場合などに役立ちます。
系列内に少なくとも 30 個のデータポイントが必要です。この値は、corrupt_data_count_threshold で設定されます。
- 認識不能
- データがローカルレベル分類子に適合しない場合は、時系列の分類子が使用されます。このようになるのは、学習したローカルレベルモデルの差異比率を妥当な値に調整できないときです。
- ノンパラメトリック統計モデル
- 正のクリッピングノイズあり分類子へのアドオンです。ノンパラメトリックモデルは、ノイズ分布が対称ではなく、どの季節パターンにも適合しません。ノンパラメトリックモデルでは、実際のデータより適合性の高い、コントロールの限度が作成され、一度学習すると、コントロールの限度は次の学習サイクルまで持続します。このモデルは、データの変更に対しては調整されないため、例外として識別されるまでに時間がかかります。
- 固定ノンパラメトリック
- 時間に依存しないデータは、時間内にデータを移動するときの平均や差異など、パラメーターに重大な変化がないことを意味します。
系列内に少なくとも 5000 個のデータポイントが必要です。この値は、snpm_minimum_data_count で設定されます。
- 認識不能
- データが固定ノンパラメトリック分類子に適合しない場合は、時系列の分類子が使用されます。
- 中央絶対偏差 (MAD) 統計モデル
- スキューノイズあり分類子のアドオンです。このタイプのデータでは、ノイズ分布が対称ではなく、どの季節パターンにも適合しません。さらに、データはヘビーまたはロングテール分布を反映します。MAD 統計モデルでは、データより適合性の高い、コントロールの限度が作成され、一度学習すると、コントロールの限度は次の学習サイクルまで持続します。このモデルを使用すると、データ収集の解読の効率が約 30% 向上します。