アラートのグループ化とユースケース

  • リリースバージョン: Zurich
  • 更新日 2025年07月31日
  • 所要時間:9分
  • アラートのグループ化方法は、 手動 やルールベースのユーザー定義のアプローチから、自動、混合、テキストベース、ログ分析、ネットワークトラフィックベースのグループ化などの高度で細かく調整可能なアルゴリズムまで多岐にわたります。

    表 : 1. アラートのグループ化タイプとユースケース
    タイプ 説明 ユースケース
    ログアナリティクスによるグループ化 アラートは、ログデータの分析に基づいてグループ化されます。これには、関連するアラートと問題を特定するためのログ エントリの関連付けが含まれます。この方法では、ログのパターンとシーケンスを活用することで、IT 環境全体で複数ステップの複雑な問題を検出できます。

    あるオンラインゲーム会社は、プロアクティブなログ分析を実装することで、サーバーの安定性を高めています。ゲームサーバーからのログをリアルタイムで監視し、分析ツールを使用して、クラッシュ前に発生するエラーのパターンを検出します。

    たとえば、分析により、特定のエラーパターンがサーバークラッシュの約30分前に現れることが明らかになりました。これらのパターンに対して自動アラートを設定することで、会社はクラッシュが発生する前に、サービスの再起動やリソースの再割り当てなどの修復アクションを開始できます。このプロアクティブなアプローチは、中断を防ぎ、ダウンタイムを最小限に抑え、プレイヤーに影響を与える前に問題に対処することでゲーム体験を向上させます。

    ルールベースのグループ化 アラートは、ユーザーが設定した事前定義済みのルールとクライテリアに従ってグループ化されます。こうしたルールには、しきい値やイベントタイプなどの特定の条件を含めることができます。この方法は、一貫性のある繰り返し可能なパターンに効果を発揮しますが、ルールのメンテナンスが必要です。

    eコマースWebサイトを管理するデータセンターでは、ルールベースのアラートグループ化が、フラッシュセールなどのイベント中に大量のトラフィックを処理するのに役立ちます。CPU 使用率が高いなど、サーバーの問題に関するアラートは、親アラートとして指定されます。これらの親アラートは、遅いデータベースクエリなどの関連する問題を報告する子アラートにリンクされています。

    ルールにより、サーバー関連のアラートが症状とともにグループ化されるため、IT チームはサーバーの過負荷の問題を迅速に特定して対処できます。このアプローチにより、問題解決の効率が向上し、ダウンタイムが最小限に抑えられます。

    自動グループ化

    高度なアルゴリズムにより、アラートデータのパターンと類似性に基づいて、関連するアラートが自動的に識別され、グループ化されます。この方法では、機械学習と AI を活用して新しい問題や未知の問題に適応し、先見的なアラート管理を実現します。

    イベント管理は、類似しているが必ずしも同一ではないアラートを、前回のイベント生成との時間的近さに基づいてグループ化します。同じ CI と同じパターン識別子を持つアラートはグループ化されます。

    自動アラートグループ化は、以下のコンポーネントで構成されています。
    • アラートアグリゲーション学習 (サービスアナリティクスでのアラートアグリゲーション学習 - 日次):このオフラインジョブは、過去のアラートを処理するために毎日実行され、統計分析を実行してアラートのパターンを構築します。詳細については、「パターンベースのアラートグループ化の構成」を参照してください。
    • リアルタイムアラートアグリゲーションジョブ (RCA/アラートアグリゲーションを使用したサービスアナリティクスグループアラート):このジョブは毎分実行され、アラートパターン、CMDB 関係、テキストの類似性、ユーザー定義のアラートクラスタリングタグ、およびプロセス間のネットワークトラフィック接続に基づいてアラートアグリゲーショングループを生成します。

    大規模な金融機関では、機械学習を使用して、多数のサーバーとアプリケーションからのアラートを管理しています。システムは、履歴アラートデータを分析して、データベースサーバーの障害がクライアント接続エラーを伴うことが多いなどのパターンを認識します。その後、関連するアラートが自動的にグループ化されます。たとえば、新しいデータベースサーバ障害アラートが検出されると、以前の接続エラーアラートとグループ化されます。

    この自動化されたグループ化により、IT チームとセキュリティチームは問題を迅速に特定して対処し、応答時間を改善し、ダウンタイムを短縮できます。

    混合グルーピング 混合グループ化方法では、CMDB ベースのグループ化やタグベースのグループ化など、複数のグループ化戦略を使用してアラートを単一のまとまりのあるグループにまとめます。各戦略の長所を活用して、アラートのノイズを低減し、アラートの相関を改善し、インシデントの真の根本原因を強調表示します。
    • CMDB ベースのグループ化:アラートは、構成管理データベース (CMDB) の構成アイテム (CI) の関係と依存関係に基づいてグループ化されます。このアプローチにより、特定のインフラストラクチャコンポーネントまたはサービスに関連するアラートがグループ化され、コンテキストに応じたアラート管理が提供されます。
    • タグクラスターのグループ化:アラートは、アプリケーション、サーバータイプ、地理的な場所などの共通属性を表すタグまたはラベルを使用して分類およびグループ化されます。この方法により、進化するタグ付け戦略に基づいて柔軟かつ動的なグループ化が可能になります。

    CMDB ベースのグループ化のユースケース:

    通信会社では、CMDB データを使用して、ネットワークインフラストラクチャに関連するアラートを管理します。特定のネットワークルーターとその接続デバイスに関連するアラートは、CMDB の関係に基づいてグループ化されるため、ネットワークチームは関連するすべての問題を確認して、根本原因に効率よく対処できるようになります。

    タグクラスターのグループ化のユースケース:

    CMDB を持たない組織は、さまざまなサービスを実行している Linux サーバーを管理します。IT チームは、各アラートの [ノード ] フィールドを使用してサーバーを識別し、このノード値に基づいて同じサーバー上のサービスに関連するすべてのイベントをグループ化します。たとえば、同じノード値を共有している場合、サービス A のダウンやサービス B の CPU 使用率が高いなどのアラートをクラスター化します。

    このアプローチは、IT チームがサーバー関連の問題により効率的に対処するのに役立ちます。同じノード、アプリケーション、または IP アドレスのアラートをクラスタリングすることで、チームは CMDB がなくても対応作業を簡素化し、問題をより効果的に解決できます。

    ネットワークトラフィックベースのグループ化 ネットワークトラフィックベースのアラートのグループ化では、ホスト間のプロセス間のネットワーク接続を分析して、関連するアラートを特定します。この方法では、ML サービスマッピングによって検出されたサービス候補を活用し、ネットワークトラフィックの問題に関連するアラートがグループ化され、コンテキストが向上し、アラートの解決が迅速になります。

    クラウドベースのeコマースプラットフォームでは、取引が遅くなり、支払い処理に遅延が生じます。従来のアラートでは、API タイムアウト、データベースの遅延、ネットワークの問題に対して個別のアラートが生成されるため、根本原因を特定することが困難でした。

    ネットワークトラフィックベースのグループ化では、ML サービスマッピングによって識別されたプロセス間の接続に基づいてアラートが自動的にグループ化されます。システムは、支払ゲートウェイサービス、不正検出、および注文処理が同じサービス候補の一部であることを検出します。これにより、不正検出プロセスの過負荷がトランザクションのボトルネックを引き起こしていることがわかります。サービスをスケールアップすることで、チームは問題を迅速に解決し、ダウンタイムを最小限に抑え、カスタマーエクスペリエンスを向上させます。

    テキストベースのグループ化 アラートは、アラートのテキストコンテンツを分析して類似性と関連する問題を特定することでグループ化されます。自然言語処理 (NLP) 技術を使用して、アラートの説明、メトリクス名、および CI クラスの共通点を見つけることができるため、この手法は非構造化データに対して効果的です。

    バーチャル ミーティングに Zoom Rooms を使用している組織では、Zoom ルーム サーバーで停止が発生すると、IT チームは多数のアラートを受信します。各アラートは、Zoom Room No 10 がダウンしている、Zoom Room No 11 がダウンしているなど、別の Zoom ルームがダウンしていることを示している場合がありますが、唯一の違いはルーム番号です。

    CMDB を使用する組織の場合、システムは関連するすべての Zoom Rooms に対するサーバーの影響に基づいてアラートを関連付けることができるため、CMDB 関係を使用してこれらのアラートをグループ化できます。ただし、CMDB を使用しない組織では、テキストベースのグループ化 できます を使用できます。このシステムは、自然言語処理を適用して、類似した説明を含むアラートをグループ化し、IT チームが複数の Zoom Rooms が同じ根本的なサーバーの問題の影響を受けていることをすばやく特定するのに役立ちます。このアプローチにより、IT チームは問題の根本原因に効率的に対処し、ダウンタイムを削減し、応答時間を改善できます。

    手動でのグループ化 ユーザーは、システムの専門知識と理解に基づいて、関連するアラートを手動で選択してグループ化します。この方法では、正確な制御が可能になりますが、時間がかかり、自動化された関連付けを見逃す恐れがあります。 システムアドミニストレーターは、単一サーバー上のさまざまなサービスの障害に関する複数のアラートを受信します。アドミンは、こうしたアラートを手動でグループ化し、すべてがそのサーバーの単一のハードウェア障害に関連していることを認識して、ハードウェアの問題の修正を優先させてすべてのサービスを復元します。
    手動およびルールベースのアラートのグループ化は、主に親アラートの選択方法において、アルゴリズムベースのグループ化とは異なります。手動、ルールベース、またはログアナリティクスによるグループ化では、実際のアラートのいずれかが親アラートとして指定されます。自動、CMDB、テキストベース、タグクラスターモード、およびネットワークトラフィックでは、グループ内で最も古く、最も重大なアラートを表す仮想アラートが親アラートとして作成されます。
    注:
    ドメインセパレーションされた環境では、同じドメイン内のアラートに対してのみアラートグループが作成されます。

    スケジュール済みジョブとパラメーターの詳細については、「アラートのグループ化のスケジュール済みジョブとパラメーター」を参照してください。さまざまなグループ化タイプの詳細については、「アラートのグループ化のタイプと作成方法」を参照してください。