イベント管理 オペレーター向けのアラートの概要
イベント管理 オペレーターは、イベントからアラートが生成される仕組み、アラートでの確認内容、アラートをグループ化する方法を理解する必要があります。
これは、イベント管理 チュートリアルの最初のレッスンです。
| レッスン 1 | イベントとアラートの概要 |
|
| レッスン 2 | ||
| レッスン 3 | ||
| レッスン 4 |
組織には、Microsoft System Center Operations Manager (SCOM)、Nagios、SolarWinds などのイベントモニタリングツールが既に整っています。ネットワークで問題が発生した場合、たとえば、コンピューターが停止した場合やデータベース障害が発生した場合、イベントモニタリングツールは ServiceNow インスタンスにイベントを送信します。イベント管理 アプリケーションは、アドミニストレーターが行った設定に従ってイベントを処理し、アラートを生成します。アラートは、問題に対して何らかのアクションが必要であることを示す指標です。
イベント管理 オペレーターの役割は、アラートを表示し、組織での イベント管理 の実装方法に応じて、根底にある問題を解決するためのアクションを実行したり、解決可能な人に通知したりすることです。このチュートリアルの後半では、一般的なアラート管理プロセスのフェーズについて説明します。
アラートの優先度と重大度
- アラートの優先度は、影響度がアプリケーションサービスに対してどの程度重要かを判断するのに役立つスコアです。複数のファクターによってアラート優先度スコアが決定されます。イベント管理 アドミニストレーターは、イベント管理 アプリケーションでの優先度の計算に使用するアルゴリズムを設定できます。
- アラートの重大度は、根底にある問題がどの程度重大であるかを示す指標です。組織のイベントモニタリングツールは、通常、重大度の値をイベントとともに送信します。それがアラートに引き継がれます。このチュートリアルで使用されているデフォルトの重大度タイプは、次のとおりです。
重大度 説明 重大
リソースが機能していないか、リソースに重大な問題が発生する危険性が高まっています。 メジャー
主要な機能に深刻な障害が発生しているか、パフォーマンスが低下しています。 マイナー
部分的な、重大でない機能停止またはパフォーマンス低下が発生しました。 警告
リソースがまだ機能していても注意が必要です。 OK
重大度なし。アラートが作成されました。リソースはまだ機能しています。 クリア
アラートに対するアクションが不要になりました。
相関アラート
一部のアラートは互いに関連しています。たとえば、ルーターが停止した場合、ルーターに接続されているサーバーごとに 1 つずつ、複数の個別のアラートが生成される可能性があります。こうしたアラートはすべて関連しているか、関連付けられています。相関アラートを管理できるようにするために、イベント管理 では、こうしたアラートを自動的にグループ化し、2 レベルの階層を確立できます。この階層には、一番上にプライマリアラートという 1 つのルートアラートと、プライマリアラートの下にセカンダリアラートというその他の関連するアラートがあります。アラートを表示すると、プライマリアラートがデフォルトで目立つように表示されるため、セカンダリアラートに気を取られずに注目すべきアラートを把握できます。
この例では、ルーターがネットワークで停止した場合、他のルーターにアクセスできないと、接続されたサーバーのネットワーク通信も影響を受けます。ルーターの機能停止はプライマリアラートになり、サーバーで生成されたアラートは、ルーターアラートの下で関連付けられたセカンダリアラートになります。
組織の イベント管理 の実装に応じて、アドミニストレーターが設定した相関ルールに基づいてアラートが自動的にグループ化される場合があります。また、各自のインスタンスで、ユーザーが提供するルールとフィードバックに基づくアラートの関連付けを改善する方法を学習することもできます。オペレーターは、引き続き相関の精度を確認し、必要に応じて、追加のアラートをプライマリアラートと手動で関連付ける必要があります。このチュートリアルの後半で、この方法について学習します。
このチュートリアルでは、アラートを手動で関連付ける方法を学びます。詳細なトピックでは、システムでアラートの自動相関プロセスを改善できるように、システムにフィードバックする方法を学習します。
アラートフラッピング
アラートはフラッピングする場合があります。つまり、複数のオープンクローズイベントを立て続けに取得するということです。フラッピングは、その基になっているイベントが イベント管理 では本物かどうかわからないことを示すものです。イベントは、CI の設定方法に関する小さな問題を示すことも、ネットワーク停止などの大きな問題を示すこともあります。
たとえば、Web サービスをホストするサーバーのアクティブなプロセスが多すぎる場合、過剰な CPU 使用率に関するイベントがトリガーされることがあります。CPU 使用率は Web サービス要求に応じて急速に変動する可能性があるため、複数のイベントがトリガーされ、アラートがフラッピングステータスになることがあります。オペレーターがサーバーを再起動するためにインシデントを作成する必要がある場合や、誰かが CPU を再構成したり、デバイスのハードウェアを変更したりする必要がある場合があります。
別の例として、ネットワークケーブルが緩んでいるために、繰り返しネットワーク機能が一時停止することも考えられます。このようなアラートに対してアドミニストレーターが設定したしきい値が最適ではなく、そのアラートが イベント管理 でフラッピングアラートと見なされる場合があります。
チュートリアルの続行
次のレッスン「イベント管理 オペレーターのためのアプリケーションサービス」に進みます。