Wat is afwijkingsdetectie?

Afwijkingsdetectie maakt gebruik van een reeks hulpmiddelen om afwijkingen te identificeren en aan te pakken zoals deze in een set gegevens verschijnen.

Een wijziging binnen een gegevenspatroon, een uitschieter of een gebeurtenis die buiten een standaardtrend valt. Een afwijking van iets wat wordt verwacht of iets dat niet aan de verwachtingen voldoet.

Een afwijking, of een uitschieter in een patroon, kan duiden op iets dat buiten de norm valt of iets dat mogelijk niet juist is.

Punt-/globale afwijkingen

Een enkel gegevenspunt dat te ver van de rest is geïdentificeerd.

Contextuele afwijkingen

Een afwijking die abnormaal is in de context van een gegevensset, maar normaal is in de context van een andere gegevensset. Dit is het meest voorkomende type contextuele afwijking in tijdreeksgegevens.

Collectieve afwijkingen

Wanneer een volledige subset van gegevens afwijkend is in vergelijking met een bredere verzameling gegevens, zijn individuele gegevenspunten geen overweging bij het identificeren van collectieve afwijkingen.

De identificatie van een zeldzame uitschieter of een gegevenspunt buiten de trends van een set gegevens. Afwijkingen kunnen duiden op verdachte gebeurtenissen, storingen, defecten of fraude.

De uitdaging van het opsporen van afwijkingen

Een afwijkingsdetectiesysteem vereist handmatige arbeid voor de analyse of het gebruik van machine learning (ML). Dit kan een uitdaging zijn, omdat het een sterke domeinkennis vereist en de moeilijke noodzaak om mogelijke statistische afwijkingen te voorspellen voordat ze zich manifesteren.

Afwijkingsdetectie met machine learning

Voordelen van afwijkingsdetectie en machine learning

Machine learning (ML) werkt beter voor het detecteren van afwijkingen, omdat het sneller is dan handmatige detectie, sterk kan worden aangepast aan wijzigingen en de mogelijkheid heeft om grote gegevenssets eenvoudig te verwerken.

Ongestructureerde gegevens

Gestructureerde gegevens hebben een basis van begrip en betekenis achter de gegevens - ze zijn geïnterpreteerd en georganiseerd in een verwerkbare gegevensset. Gecodeerde of ongestructureerde gegevens kunnen een algoritme onbruikbaar maken totdat het is gestructureerd, omdat er weinig interpretatie en begrip is van de context van de gegevens.

Grote gegevenssets nodig

Een goede set gegevens die moet worden geanalyseerd, moet groot genoeg zijn om een goede trend te kunnen vaststellen en de juiste afwijkingen te kunnen identificeren. Detectie kan voordeel opleveren omdat er niet meer geldige inferenties kunnen worden gemaakt van een kleinere set gegevens, en een grotere set gegevens een afwijking aan het licht kan brengen in plaats van iets dat deel zou kunnen uitmaken van een trend of niet zo zozeer een uitschieter is als voorspeld.

Talent vereist

Deskundige engineers of gegevenswetenschappers zijn nodig om een algoritme voor machine learning te trainen. Afhankelijk van de mogelijkheden van de oplossing kan het een paar weken of maanden duren om de machine te trainen en afhankelijk van de oplossing zijn er verschillende niveaus van machine learning vereist.

Afwijkingsdetectie in drie instellingen

Onder toezicht

Gegevens die worden bewaakt, worden vooraf voorbereid met elk van de gegevenspunten gelabeld als "nominaal" of "anomalie". Alle afwijkingen worden van tevoren vastgesteld, zodat het model daarop kan worden getraind.

Schoon

Alle gegevenspunten zijn gelabeld als "nominale" en "afwijkende" punten zijn niet gelabeld. Schone gegevens laten de rol van het detecteren van afwijkingen over aan de datamodelleerder, aangezien alle gegevenspunten binnen de schone set verondersteld worden "nominaal" te zijn.

Zonder toezicht

Niet-bewaakte gegevens verschijnen zonder "nominale" of "afwijkende" punten. Het is aan de datamodelleerder om de punten te bepalen die "nominaal" en "afwijkend" zijn - er is geen basis of begrip van wat het nauwkeurige resultaat kan zijn.

Het proces van het identificeren van een patroon dat niet is waargenomen binnen een nieuwe observatie die niet is opgenomen in de trainingsgegevens.

De eenvoudigste aanpak voor het detecteren van een afwijking is het identificeren van iets onregelmatigs binnen een gegevensspread dat lijkt af te wijken van een trend of van algemene statistische distributies zoals gemiddelde, mediaan en modus.

Machine learning gebruiken voor het detecteren van afwijkingen en het bewaken van condities.

Digitale transformatie

Een digitale transformatie, ook bekend als digitalisering en Industry 4.0, maakt gebruik van technologie en gegevens om de productiviteit te stroomlijnen en de efficiëntie te verhogen. Er komen steeds meer gegevens beter beschikbaar omdat machines en apparaten met elkaar zijn verbonden en een overvloed aan gegevens naar talloze plaatsen kunnen overbrengen. Het doel is vervolgens informatie te verzamelen en te analyseren die uit de gegevens wordt verkregen om kosten en uitvaltijd te verlagen. Machine learning en gegevensanalyse spelen hierbij een grote rol.

Conditiebewaking

Elke machine, ongeacht de complexiteit ervan, zal op een gegeven moment in slechte staat gaan verkeren. Dit betekent niet dat een machine het einde van zijn levensduur heeft bereikt of moet worden uitgeschakeld, maar wel dat er onderhoud nodig kan zijn om de machine weer volledig en optimaal te laten functioneren. Een grote te analyseren gegevensset kan afwijkingen opleveren die kunnen voorspellen of aangeven wanneer een machine onderhoud of vervanging nodig heeft.

Op dichtheid gebaseerde benaderingen

Op dichtheid gebaseerde detectie van afwijkingen

Bij detectie van afwijkingen op basis van dichtheid wordt ervan uitgegaan dat alle nominale gegevenspunten dicht bij elkaar zijn geplaatst en dat afwijkingen zich verder weg bevinden. Het is gebaseerd op het k-nearest-algoritme (k-NN) dat eenvoudig en niet parametrisch is. K-NN wordt gewoonlijk gebruikt om gegevens te classificeren op basis van de overeenkomsten in afstandsmetingen zoals Manhattan, Minkowski, Hamming of Euclidean.

Op clustering gebaseerde afwijkingsdetectie

Clustering is gebaseerd op de aanname dat vergelijkbare gegevenspunten doorgaans tot vergelijkbare clusters of groepen behoren en dat dit wordt bepaald door hun afstand tot lokale centroïden (het gemiddelde van alle punten). Het clusteralgoritme k-mean maakt 'k'-clusters van vergelijkbare gegevenspunten. Afwijkingen zijn punten die buiten de 'k-clusters vallen.

Op Support Vector Machine (SVM) gebaseerde afwijkingsdetectie

SVM maakt meestal gebruik van gesuperviseerd leren, maar er zijn opties die ook afwijkingen kunnen identificeren in niet-gesuperviseerde leeromgevingen. Een zachte grens wordt geleerd en toegepast op de trainingsset, normale gegevensinstanties worden binnen de grens geclusterd en afwijkingen worden geïdentificeerd als abnormaliteiten die buiten de geleerde grens vallen.

Tijdreeksgegevens vormen een reeks waarden die in de loop van de tijd worden verzameld. Voor elk gegevenspunt kunnen twee meeteenheden worden gebruikt: de tijd en datum waarop het gegevenspunt is verzameld en de waarde van dat gegevenspunt. Gegevens worden voortdurend verzameld en worden voornamelijk gebruikt om gebeurtenissen in de toekomst te voorspellen in plaats van als een projectie in en op zichzelf. Afwijkingen in tijdreeksen kunnen worden gebruikt om het volgende te detecteren:

  1. Actieve gebruikers
  2. Webpaginaweergaven
  3. CPC
  4. CPL
  5. Bounce rate
  6. Verloop
  7. Gemiddelde orderwaarde
  8. Mobiele app-installaties

Met de detectie van afwijkingen in tijdreeksen wordt een basislijn vastgesteld voor kenmerkend gedrag in geïdentificeerde KPI's.

  • Gegevens opschonen
  • Toegangsdetectie
  • Fraudedetectie
  • Monitoren correct functionerend systeem
  • Gebeurtenisdetectie in sensornetwerken
  • Storingen in het ecosysteem

Afwijkingsdetectie voor serviceprestaties

Een reactieve benadering van detectie kan leiden tot uitvaltijd en prestatieproblemen die gevolgen hebben voordat er een oplossing is. Het opsporen van afwijkingen in de prestaties kan bedrijven helpen voorspellen wanneer en waarom er een probleem binnen een bedrijfsservice zou kunnen ontstaan. De meeste industrieën kunnen daar baat bij hebben. Hier zijn bijvoorbeeld twee sectoren die er hun voordeel mee kunnen doen:

  • Telco: telecom-analyses produceren enorme sets gegevens en geavanceerde oplossingen zijn belangrijk om gebeurtenissen te detecteren en te voorkomen die de prestaties kunnen verlagen, zoals latentie, jitter en slechte gesprekskwaliteit.
  • Adtech: het kan moeilijk zijn om de prestaties van complexe toepassingen te controleren vanwege de snelheid waarmee transacties plaatsvinden binnen een advertentieveiling. Met afwijkingsdetectie kunnen problemen in een toepassing worden opgespoord voordat de toepassing kan vastlopen, waardoor uitvaltijd tijdens een advertentiegebeurtenis wordt voorkomen.

Afwijkingsdetectie voor productkwaliteit

Producten moeten soepel en met zo min mogelijk fouten werken. De natuurlijke ontwikkeling van producten kan leiden tot gedragsafwijkingen in alles, van een nieuwe functie tot een A/B-test, en voortdurende bewaking van gedragsafwijkingen kan uitval of voortdurende problemen voorkomen. Hoewel de meeste industrieën hiervan kunnen profiteren, zijn hier twee voorbeelden:

  • eCommerce: afwijkingsdetectie kan zoeken naar vreemd gedrag of problemen met de productkwaliteit, zoals prijsfouten of abnormale seizoensveranderingen.
  • Fintech: de financiële sector handelt in milliseconden en de zekerheid moet worden geboden dat de toepassingen die toezicht houden op transacties veilig en consistent zijn. Afwijkingsdetectie kan uitval of storingen voorkomen door te letten op alles wat abnormaal is in de prestaties en werking van toepassingen.

Afwijkingsdetectie voor gebruikerservaring

Een gebruikerservaring kan negatief zijn als de service op een site verslechtert. Met afwijkingsdetectie kunnen bedrijven reageren op eventuele kleine foutjes voordat ze klanten frustreren en leiden tot omzetverlies. Enkele industrieën kunnen op deze manier profiteren van detectie van anomalieën:

  • Games: games zijn ingewikkeld, waardoor handmatige bewaking van de complexiteit van permutaties bijna onmogelijk is. Kunstmatige intelligentie (AI) kan problemen en fouten tegengaan in een gebruikerservaring, zoals kleine storingen.
  • Online zaken doen: online bedrijven zijn sterk afhankelijk van UX voor succes. Het IT-team moet letten op API-fouten, uitvaltijd van server en laadtijd-problemen en deze beperken. Een snelle analyse van de achterliggende oorzaak door middel van detectie van afwijkingen kan snel een probleem opsporen om platforms, datacenters en besturingssystemen te helpen reparaties uit te voeren met weinig tot geen uitvaltijd.

  • Geautomatiseerde detectie van afwijkingen biedt nauwkeurige realtime inzichten en zorgt tegelijkertijd voor classificatie, detectie en groepering van gegevens. Daardoor komt de noodzaak van een groter team van data-analisten te vervallen.
  • Gesuperviseerde en niet-gesuperviseerde machine learning: machine learning kan het beste plaatsvinden zonder toezicht of menselijke interactie. Maar er zijn nog steeds een paar analisten nodig die basislijngegevens invoeren en nu en dan het machine learning-programma controleren.
  • Hybride: geschaalde afwijkingsdetectie die de flexibiliteit biedt van het handmatig maken van regels voor specifieke afwijkingen.

Afwijkingsdetectie maakt het noodzakelijk om de vraag te stellen: bouw je een oplossing of koop je een systeem? Er zijn een paar belangrijke zaken waarmee u rekening moet houden in het besluitvormingsproces:

  • De grootte van het bedrijf
  • Het volume van de gegevens die worden verwerkt
  • Capaciteit voor interne ontwikkeling
  • Plannen voor uitbreiding
  • Eisen van belanghebbenden
  • Budgetvereisten
  • De grootte van een team dat beschikbaar is
  • Interne expertise op het gebied van datawetenschap

Capaciteiten die meegroeien met uw bedrijf

Met ServiceNow kunt u problemen voorzien voordat ze zich voordoen.

Contact
Demo