異常検出アルゴリズム

  • リリースバージョン: Washingtondc
  • 更新日 2024年02月01日
  • 読む2読むのに数分
  • インスタンス オブザーバーは、Z スコア統計モデル (単変量法とも呼ばれます) を使用して異常検出を実行しています。

    異常検出は、メモリ最大、セマフォ平均、SQL 応答時間、サーバー応答時間、トランザクション数の 5 つのメトリックのセットを分析します。検出モデルは、日次、週次、および月次のレベルのデータの複数のインスタンスを含むサンプリングで検証されています。

    Zスコアモデルを使用して異常を表すメトリックは、トランザクション数、サーバー応答時間、SQL応答時間です。上限しきい値ベースのアプローチを使用して例外を表す測定基準は、セマフォ平均、ノード最大メモリ、およびジョブ実行です。5 つのメトリックの詳細については、「」を参照してください パフォーマンスチャートの開始

    上限しきい値ベースの方法論

    上限しきい値ベースの方法論では、上限を使い果たした測定基準を使用します。たとえば、セマフォ平均値が 14 または 16 の測定基準 A は、ノード上のリソースを保護するためにノードで一度に実行できるトランザクションの数を制限するためにプラットフォームで使用されます。測定基準 B、最大 2 GB のメモリー。各ノードメモリーには事前定義された最大容量があります。このようなすべての同様のケースで、メトリックが枯渇限界に近い場合にのみ、状況は憂慮すべきものです。偏差が平均よりも高くても、排気限界よりも低い場合でも、しきい値制限によってアラームは発生しません。

    Z スコア手法

    Zスコアは、値と値のグループの平均との関係を説明する数値測定値です。Zスコアは、平均からの標準偏差で測定されます。Z スコアが 0 の場合、データ ポイント スコアは平均スコアと同じです。

    Z スコアの計算式は、 z = (x-μ)/σ です。

    • x : 過去 15 分間の移動平均としてのデータの生スコア
    • μ:同じ日、同じ時間、同じ分の過去 4 週間の平均であるデータ母集団の平均
    • σ: データ母集団の標準偏差
    Z スコアの計算または比較を行うときは、分析されたデータのこれらのパターンを固有の周期パターンで考慮することが不可欠です。データセットの周期性とは、日次、週次、季節サイクルなど、一定の間隔で発生する繰り返しパターンを指します。たとえば、売上データは、ホリデーシーズン中に高い値を示したり、オフピーク期間に低い値を示したりする場合があります。

    周期性スコアは 2 つの系列間の類似性であり、2 つのベクトル間の類似性を測定し、Z スコア モデルがデータの自然なパターンを考慮しながら、信頼できる分析情報を提供し、真の異常値または外れ値を特定するのに役立ちます。

    循環スコアは、4 週間のデータ選択を 2 週間のベクトル増分に分割して、週末を除くインスタンスレベルで計算されます。スコアは 2 つの類似スコアを返します。スコアが高いほど、比較されたベクターデータの類似傾向がより整列していることを示します。