Analyse de la cause première basée sur l’IA générative
L’analyse de la cause première fournit Instance Observer une détection et une synthèse automatisées des problèmes. Elle inclut une corrélation et un résumé de la cause première intégrés à l’aide d’un grand modèle de langage (LLM), ce qui permet de réduire le temps de dépannage, d’améliorer la transparence des incidents et de recommander une cause première pilotée par l’IA générative en analysant des incidents historiques similaires.
Vue d’ensemble de l’analyse de la cause première (RCA)
RCA identifie et explique automatiquement l’origine des incidents en analysant plusieurs signaux de télémétrie. Les signaux inclus sont liés à la mémoire, à la base de données, aux transactions, à la purge du cache et aux sessions. Cette analyse permet aux équipes de détecter les problèmes plus rapidement et de les résoudre avec plus de précision en corrélant les anomalies pertinentes et en générant des résumés lisibles par l’homme et des résolutions recommandées.
Avantages de la RCA
- Réduction du temps moyen de détection (MTTD) ou du temps moyen de réparation (MTTR) grâce au regroupement et à la synthèse rapides des signaux.
- Résumés exploitables pour accélérer le rattrapage ou l’automatisation.
- Résolution recommandée en analysant des incidents historiques similaires.
Pour plus d’informations, consultez Aperçu des performances d’Instance Observer.
Corrélation de la cause première (RCC)
La fonctionnalité RCC analyse intelligemment les journaux, les mesures et les données de performance pour identifier automatiquement les relations et les dépendances entre les anomalies. En corrélant les signaux entre différentes mesures de performance, il vous aide à isoler rapidement l’origine d’un problème avec un minimum d’effort manuel. Cette corrélation élimine le bruit et réduit la cause première probable à partir d’une mer de signaux.
Résumé de la cause première (RCS) basé sur LLM
Dès que des données corrélées sont identifiées, un LLM est appelé pour générer un résumé concis et lisible par l’homme. Le LLM traite les données de télémétrie structurées et non structurées pour fournir des informations claires sur la cause première probable et les composants affectés.
La transaction avec l’ID XXXXXX pour URL/sys_XXX.do a dépassé le temps d’exécution maximum, entraînant une annulation. Le temps total nécessaire pour cette transaction était de 0:04:59.044, avec un temps de traitement de 0:04:59.041 et un temps CPU de 0:00:07.775. La transaction a été initiée par l’utilisateur XXXX. Le temps SQL était 0:00:50.154, avec 4 836 requêtes exécutées.
Temps de traitement total de 1 095 secondes pour l’URL sys_XXX.do. Temps de traitement EXCESSIF de 0:02:37.194 pour ListRecordDefaultTag. Évaluation silencieuse lente pour : __ref__.canRead() a pris 0:00:02.475. Une grande quantité de données a été diffusée : 1 048 578 octets par StreamingBytesSizeHandler. Temps de traitement total de 1 095 secondes pour l’URL sys_XXX.do.
Recommandation de la cause première (RCR) basée sur LLM
Instance Observer fournit des résolutions recommandées basées sur l’IA en analysant des incidents historiques similaires pour la même instance. Le système fait référence aux tâches de ticket qui ont réussi dans le passé à résoudre des problèmes comparables et les suggère comme étapes de remédiation les plus probables.
- Conseils personnalisés
- Les recommandations sont adaptées à l’instance et au service en fonction de l’historique des résolutions.
- Liaison de tâche de ticket
- La référence directe à des tâches de ticket antérieures vous permet d’examiner les correctifs éprouvés plutôt que de repartir de zéro.
- Validation de l’humain dans la boucle
- Les recommandations sont de nature consultative ; Les opérateurs doivent les valider et les appliquer conformément à leurs procédures d’exploitation normalisées (PON).
Ce composant réduit les essais et les erreurs dans la réponse aux incidents et garantit la réutilisation de la base de connaissances dans les modèles récurrents.
Examiner la requête SÉLECTIONNEZ fcr.u_XXXX_approval_status COMME fcr_u_w7e_XXX_status, taskslatable.time_left et optimisez-la en ajoutant des index ou en la réécrivant pour obtenir de meilleures performances, similaire à la solution proposée dans ID d’incident CSXXXXXX, où il a été suggéré d’ajouter des index aux tables pour améliorer les performances des requêtes.