生成 AI を利用した根本原因分析
インスタンスオブサーバー の根本原因分析では、問題の自動検出と要約が可能です。これには、大規模言語モデル (LLM) を使用した根本原因の相関と根本原因のサマリーが組み込まれているため、トラブルシューティング時間の短縮、インシデントの透明性の向上、および類似の履歴インシデントを分析することによる生成 AI 主導の根本原因の推奨に役立ちます。
根本原因分析 (RCA) の概要
RCA は、複数のテレメトリ信号を分析することで、インシデントの発生元を自動的に特定して説明します。含まれるシグナルは、メモリ、データベース、トランザクション、キャッシュフラッシュ、およびセッションに関連しています。この分析により、チームは関連する異常を関連付け、人間が判読できるサマリーと推奨される解決策を生成することで、問題をより迅速に検出し、より正確に解決できます。
RCA のメリット
- 迅速な信号のグループ化と要約により、平均検出時間(MTTD)または平均修理時間(MTTR)を短縮します。
- 迅速な修正または自動化のための実用的なサマリー。
- 類似の履歴インシデントを分析して推奨される解決策。
詳細については、「 Instance Observer パフォーマンスインサイト」を参照してください。
根本原因相関 (RCC)
RCC 機能は、ログ、メトリクス、およびパフォーマンスデータをインテリジェントに分析して、例外間の関係と依存関係を自動的に特定します。さまざまなパフォーマンスメトリクス全体のシグナルを関連付けることで、最小限の手作業で問題の原因を迅速に切り分けることができます。この相関関係により、ノイズが排除され、大量の信号から根本原因が絞り込まれます。
LLM ベースの根本原因サマリー (RCS)
相関データが特定されるとすぐに LLM が呼び出され、人間が判読できる簡潔なサマリーが生成されます。LLM は、構造化テレメトリデータと非構造化テレメトリデータの両方を処理して、考えられる根本原因と影響を受けるコンポーネントに関する明確なインサイトを提供します。
URL/sys_XXX.do の ID XXXXXX のトランザクションが最大実行時間を超えたため、キャンセルされました。このトランザクションにかかった合計時間は 0:04:59.044 で、処理時間は 0:04:59.041、CPU 時間は 0:00:07.775 でした。トランザクションはユーザー XXXX によって開始されました。SQL時間は0:00:50.154で、4,836のクエリが実行されました。
URL sys_XXX.do の合計処理時間は 1095 秒です。ListRecordDefaultTag の 0:02:37.194 という過剰な処理時間。スローサイレント評価:__ref__.canRead() は 0:00:02.475 かかりました。大量のデータがストリーミングされました (StreamingBytesSizeHandler によって 1,048,578 バイト)。URL sys_XXX.do の合計処理時間は 1095 秒です。
LLM ベースの根本原因の推奨事項 (RCR)
Instance Observer は、同じインスタンスの類似する履歴インシデントを分析することで、AI を活用した推奨解決策を提供します。システムは、過去に成功したケースタスクを参照して同等の問題を解決し、最も可能性の高い修正ステップとして提案します。
- パーソナライズされたガイダンス
- 推奨事項は、過去の解決履歴に基づいてインスタンスとサービスに合わせて調整されます。
- ケースタスクのリンク
- 以前のケースタスクを直接参照することで、ゼロから始めるのではなく、実証済みの修正をレビューできます。
- ヒューマンインループ検証
- 推奨事項は本質的に勧告です。オペレーターは、標準運用手順 (SOP) に従ってそれらを検証し、適用する必要があります。
このコンポーネントは、インシデント応答の試行錯誤を減らし、繰り返しパターン全体でナレッジを確実に再利用します。
クエリのパフォーマンスを向上させるためにテーブルにインデックスを追加することが提案されているインシデント ID CSXXXXXX で提案されているソリューションと同様に、クエリ SELECT fcr.u_XXXX_approval_status AS fcr_u_w7e_XXX_status を確認し、インデックスを追加したり書き換えたりして、taskslatable.time_leftして最適化します。