Algorithme de détection d’anomalies

Washington DC Impact

Release

washingtondc

ft:locale

fr-FR

ft:publication_title

Washington DC Impact

ft:clusterId

ipact

bundleId

ipact

Algorithme de détection d’anomalies

Rversion finale: Washingtondc

Mis à jour 1 févr. 2024

2 minutes de lecture

Instance Observer effectue la détection d’anomalies via le modèle statistique de score Z, également appelé méthode univariée.

La détection d’anomalie analyse un ensemble de cinq mesures : mémoire maximale, moyenne de sémaphore, délai de réponse SQL, délai de réponse du serveur et nombre de transactions. Le modèle de détection a été validé à l’aide d’échantillonnages avec plusieurs instances de données quotidiennes, hebdomadaires et mensuelles.

Les mesures représentant les anomalies à l’aide du modèle de score Z sont le nombre de transactions, le temps de réponse du serveur et le délai de réponse SQL. Les mesures représentant les anomalies à l’aide d’une approche basée sur le seuil supérieur sont la moyenne de sémaphore, la mémoire maximale des nœuds et l’exécution des tâches. Consultez Introduction aux graphiques de performances pour plus de détails sur les cinq mesures.

Méthodologie basée sur le seuil supérieur

La méthodologie basée sur le seuil supérieur utilise des mesures avec une limite épuisante. Par exemple, la mesure A, dont la valeur moyenne du sémaphore est de 14 ou 16, qui est utilisée sur la plateforme pour limiter le nombre de transactions qui peuvent se produire sur un nœud à la fois afin de protéger les ressources du nœud. Métrique B, mémoire maximale de 2 Go, où la mémoire de chaque nœud a une capacité maximale prédéfinie. Dans tous ces cas similaires, la situation n’est alarmante que lorsque les mesures sont plus proches de la limite d’épuisement. Même si l’écart est supérieur à la moyenne, mais inférieur à la limite d’épuisement, la limite seuil n’entraînera pas d’alarme.

Méthodologie Z-score

Un score Z est une mesure numérique qui décrit la relation entre une valeur et la moyenne d’un groupe de valeurs. Le score Z est mesuré en termes d’écarts-types par rapport à la moyenne. Si un score Z est égal à 0, le score des points de données est identique au score moyen.

La formule pour calculer un score Z est z = (x-μ)/σ :

x : score brut des données, comme moyenne mobile des 15 minutes précédentes
μ : Le remplissage des données signifie que correspond à la moyenne des quatre semaines précédentes le même jour, à la même heure et à la même minute.
σ : l’écart-type du remplissage des données

Lors du calcul des scores Z ou des comparaisons, il est essentiel de prendre en compte ces modèles de données analysées avec des modèles cycliques inhérents. La cyclicité dans un jeu de données fait référence à des modèles répétitifs qui se produisent à intervalles réguliers, tels que des cycles quotidiens, hebdomadaires ou saisonniers. Par exemple, les données sur les ventes peuvent présenter des valeurs plus élevées pendant les périodes de vacances ou des valeurs plus faibles pendant les périodes creuses.

Le score de cyclicité est la similarité entre deux séries qui mesurent la similarité entre deux vecteurs et permettent de s’assurer que le modèle de score Z fournit des informations fiables et identifie les anomalies réelles ou les valeurs aberrantes tout en tenant compte des modèles naturels des données.

Le score cyclique est calculé au niveau de l’instance avec une sélection de données de quatre semaines divisées en incréments vectoriels de deux semaines, à l’exclusion des week-ends. Le score renvoie le score de similarité entre les deux, où un score plus élevé indique une tendance de similarité plus alignée dans les données vectorielles comparées.