イベント管理オペレーター向けのアラートの概要

Xanadu IT Operations Management

Release

xanadu

ft:locale

ja-JP

ft:publication_title

Xanadu IT Operations Management

ft:clusterId

itom

bundleId

itom

workflow

Technology

イベント管理オペレーター向けのアラートの概要

リリースバージョン: Xanadu

更新日 2024年08月01日

所要時間：5分

イベント管理オペレーターは、イベントからアラートが生成される仕組み、アラートでの確認内容、アラートをグループ化する方法を理解する必要があります。

これは、イベント管理チュートリアルの最初のレッスンです。


レッスン 1		イベントとアラートの概要
レッスン 2		アプリケーションサービスの概要
レッスン 3		イベント管理オペレーターワークスペース
レッスン 4		オペレーターの作業

組織には、Microsoft System Center Operations Manager (SCOM)、Nagios、SolarWinds などのイベントモニタリングツールが既に整っています。ネットワークで問題が発生した場合、たとえば、コンピューターが停止した場合やデータベース障害が発生した場合、イベントモニタリングツールは ServiceNow インスタンスにイベントを送信します。イベント管理アプリケーションは、アドミニストレーターが行った設定に従ってイベントを処理し、アラートを生成します。アラートは、問題に対して何らかのアクションが必要であることを示す指標です。

イベント管理オペレーターの役割は、アラートを表示し、組織でのイベント管理の実装方法に応じて、根底にある問題を解決するためのアクションを実行したり、解決可能な人に通知したりすることです。このチュートリアルの後半では、一般的なアラート管理プロセスのフェーズについて説明します。

アラートの優先度と重大度

アラートの最も一般的な 2 つの特徴は、優先度と重大度です。

アラートの優先度は、影響度がアプリケーションサービスに対してどの程度重要かを判断するのに役立つスコアです。複数のファクターによってアラート優先度スコアが決定されます。イベント管理アドミニストレーターは、イベント管理アプリケーションでの優先度の計算に使用するアルゴリズムを設定できます。

アラートの重大度は、根底にある問題がどの程度重大であるかを示す指標です。組織のイベントモニタリングツールは、通常、重大度の値をイベントとともに送信します。それがアラートに引き継がれます。このチュートリアルで使用されているデフォルトの重大度タイプは、次のとおりです。


重大度	説明
重大	リソースが機能していないか、リソースに重大な問題が発生する危険性が高まっています。
メジャー	主要な機能に深刻な障害が発生しているか、パフォーマンスが低下しています。
マイナー	部分的な、重大でない機能停止またはパフォーマンス低下が発生しました。
警告	リソースがまだ機能していても注意が必要です。
OK	重大度なし。アラートが作成されました。リソースはまだ機能しています。
クリア	アラートに対するアクションが不要になりました。

相関アラート

一部のアラートは互いに関連しています。たとえば、ルーターが停止した場合、ルーターに接続されているサーバーごとに 1 つずつ、複数の個別のアラートが生成される可能性があります。こうしたアラートはすべて関連しているか、関連付けられています。相関アラートを管理できるようにするために、イベント管理では、こうしたアラートを自動的にグループ化し、2 レベルの階層を確立できます。この階層には、一番上にプライマリアラートという 1 つのルートアラートと、プライマリアラートの下にセカンダリアラートというその他の関連するアラートがあります。アラートを表示すると、プライマリアラートがデフォルトで目立つように表示されるため、セカンダリアラートに気を取られずに注目すべきアラートを把握できます。

この例では、ルーターがネットワークで停止した場合、他のルーターにアクセスできないと、接続されたサーバーのネットワーク通信も影響を受けます。ルーターの機能停止はプライマリアラートになり、サーバーで生成されたアラートは、ルーターアラートの下で関連付けられたセカンダリアラートになります。

組織のイベント管理の実装に応じて、アドミニストレーターが設定した相関ルールに基づいてアラートが自動的にグループ化される場合があります。また、各自のインスタンスで、ユーザーが提供するルールとフィードバックに基づくアラートの関連付けを改善する方法を学習することもできます。オペレーターは、引き続き相関の精度を確認し、必要に応じて、追加のアラートをプライマリアラートと手動で関連付ける必要があります。このチュートリアルの後半で、この方法について学習します。

このチュートリアルでは、アラートを手動で関連付ける方法を学びます。詳細なトピックでは、システムでアラートの自動相関プロセスを改善できるように、システムにフィードバックする方法を学習します。

アラートフラッピング

アラートはフラッピングする場合があります。つまり、複数のオープンクローズイベントを立て続けに取得するということです。フラッピングは、その基になっているイベントがイベント管理では本物かどうかわからないことを示すものです。イベントは、CI の設定方法に関する小さな問題を示すことも、ネットワーク停止などの大きな問題を示すこともあります。

たとえば、Web サービスをホストするサーバーのアクティブなプロセスが多すぎる場合、過剰な CPU 使用率に関するイベントがトリガーされることがあります。CPU 使用率は Web サービス要求に応じて急速に変動する可能性があるため、複数のイベントがトリガーされ、アラートがフラッピングステータスになることがあります。オペレーターがサーバーを再起動するためにインシデントを作成する必要がある場合や、誰かが CPU を再構成したり、デバイスのハードウェアを変更したりする必要がある場合があります。

別の例として、ネットワークケーブルが緩んでいるために、繰り返しネットワーク機能が一時停止することも考えられます。このようなアラートに対してアドミニストレーターが設定したしきい値が最適ではなく、そのアラートがイベント管理でフラッピングアラートと見なされる場合があります。

チュートリアルの続行

次のレッスン「イベント管理オペレーターのためのアプリケーションサービス」に進みます。

イベント管理 オペレーター向けのアラートの概要

アラートの優先度と重大度

相関アラート

アラートフラッピング

チュートリアルの続行

イベント管理オペレーター向けのアラートの概要