Instance Observer のアラート
ServiceNow Instance Observer は、プラットフォームヘルス、パフォーマンス、およびユーザーエクスペリエンスを監視するように設計された包括的なアラートセットを提供します。これらのアラートは、簡単に消費してアクションできるように分類されています。
- トランザクション
- アプリケーショントランザクションを監視して、次のようなパフォーマンスの異常、スパイク、または低下を検出します。
- トランザクションの減少:合計トランザクション量の低下を検出します
- トランザクション減少ノード:ノードあたりのトランザクションボリュームドロップを識別します
- トランザクションの増加:予期しないトランザクションの急増にフラグを付けます
- トランザクション増加ノード:ノードレベルのトランザクションスパイクを強調表示します
- 応答時間:システム全体の応答時間が長くなるとトリガーします
- 応答時間ノード:応答時間が低下しているノードにフラグを付けます
- データベースの応答時間:トランザクションに影響を与えるデータベースレベルのレイテンシを監視します
- 1 秒あたりの遅いクエリー:応答性に影響を与える遅いデータベースクエリーの量を特定します
- ノードの健全性 (CPU、メモリ、またはガベージコレクション)
- ノードインフラストラクチャの健全性を追跡して、ボトルネックや障害を回避します。
- ノードの CPU 時間:ノードの CPU 使用率が高いアラート
- ノードメモリ:メモリ消費パターンを監視します
- ノードのガベージコレクション時間:JVM GC遅延を追跡します
- ロードバランサーコンテナの CPU 使用率:LB コンテナの CPU 過負荷にフラグを付けます
- ロードバランサーコンテナのメモリ使用率:LB コンテナのメモリ枯渇を検出します
- データベースのパフォーマンスと健全性
- 重要なデータベースインジケーターをカバーして、クエリの健全性とデータの信頼性を検証します。
- データベースホストの健全性 CPU:プライマリ DB ホストの CPU 使用率が高い
- シャードホスト健全性 CPU:シャードホストのリソースの問題
- 読み取りレプリカホストの健全性 (CPU):読み取りレプリカの CPU 異常
- スタンバイレプリケーション遅延:スタンバイ DB レプリケーションの遅延
- InnoDB 行ロック:行ロック待機の頻度
- プライマリデータベースの増加:プライマリデータベースの異常な増加のフラグ
- データベーステーブルの増加:特定のテーブルレベルの増加インジケーター
- 受信メールと送信メール
- メールベースのコミュニケーションのタイムリーな配信と取り込みを促進します。
- 送信メール:送信メール処理の遅延または失敗
- 受信メール:受信メールの取り込みに関する問題
- スケジューラーとジョブ実行
- ジョブ実行ライフサイクルの問題を検出するのに役立ちます。
- スケジューラーがスタックしました:スケジューラーが進行していないか、ブロックされています
- 長時間実行ジョブ:通常の実行時間を超えるジョブ
- 特定の長時間実行ジョブ:カスタムジョブモニタリング
- スレッド実行中:スレッドの実行時間が異常に長いか、大量に実行されているスレッド
- セッションとユーザーアクティビティ
- インスタンスおよびノード全体のユーザーログイン動作を追跡します。
- ユーザーセッションがログインしました – インスタンス:インスタンス全体のログインアクティビティ
- ユーザーセッションがログインしました – ノード:ノードごとのセッションメトリクス
- イベントキューとセマフォの管理
- プラットフォームイベント処理とジョブ実行の抑制のデバッグに重要です。
- デフォルトのセマフォ平均値:セマフォ待機時間の傾向
- デフォルトのセマフォ QDepth:キューに格納されたセマフォ要求の深度
- 統合セマフォ:統合セマフォの競合を監視
- イベントキューのチェック:イベントキューのバックログを追跡します
- イベントの特定のキュー:カスタムイベントキューモニタリング
- 優先度の高いイベントキュー:ミッションクリティカルなイベントキューを監視します。
- ECC キュー:外部コミュニケーションチャネルのバックログアラート
- 非同期メッセージングバス (AMB)
- アプリのリアルタイム動作に対する内部メッセージングバスの可観測性:
- AMB 送信キュー深度:送信メッセージキューのサイズ
- 使用中の AMB 送信:AMB 送信キャパシティの使用率
- 履歴データ量またはリストデータ量
- パフォーマンスに影響を与える可能性のある履歴データまたはリストデータの増加を監視します。
履歴リストの長さ:履歴テーブルの過剰なレコード数にフラグを付けます。
- アプリケーションホストの健全性
- アプリケーションレイヤーで健全性を監視します。
アプリケーションホストの健全性 CPU:アプリケーション層の CPU 過負荷アラート。
- AI/ML またはインテリジェントアラート
- AI/ML ベースの動作分析によって生成されたアラートが含まれます。
Auriga Intelligent:AI 主導の異常またはパターン検出アラート。