Wat zijn inbeddingen? Inbeddingen zijn een manier om complexe objecten, zoals woorden of afbeeldingen, om te zetten in numerieke vormen die hun betekenis en relatie vastleggen. Deze transformatie helpt ML-modellen om gegevens effectiever te analyseren en te begrijpen, waardoor taken als NLP, aanbevelingssystemen en beeldherkenning worden verbeterd. Demo AI
Wat je moet weten over inbeddingen
Waarom zijn inbeddingen belangrijk? LLM's trainen Wat zijn gangbare inbeddingsmodellen? Wat zijn vectoren bij inbeddingen? Hoe worden inbeddingen gemaakt? Hoe werkt inbedden? Welke machinelearning-apps Inbedding implementeren

Een van de vele voordelen van het groeiende domein van artificial intelligence is het vermogen ervan om inzicht te krijgen in een enorme hoeveelheid complexe gegevens. Een fundamentele uitdaging bij het verwerken van informatie uit de echte wereld is het bepalen van gelijkenis. Hoewel computers uitblinken in nauwkeurige numerieke berekeningen, hebben ze moeite met het berekenen van overeenkomsten tussen complexe objecten zoals afbeeldingen, tekst of spraak. Inbeddingen zijn de oplossing.

Inbeddingen, een essentieel concept in machine learning (ML) en natuurlijke taalverwerking (NLP), zijn gespecialiseerde technieken voor het omzetten van complexe gegevens in meer eenvoudige, begrijpelijke vormen. Ze doen dit door hoogdimensionale informatie, zoals tekst of afbeeldingen, te converteren naar compacte cijfervectoren, een proces dat vaak dimensionele reductie wordt genoemd. Met deze transformatie kunnen modellen de onderliggende betekenissen en relaties in gegevens vastleggen die inherent een groot aantal kenmerken bevatten, gegevens die anders onmogelijk te interpreteren zouden zijn.

Alles uitvouwen Alles samenvouwen Waarom zijn inbeddingen belangrijk?

Eenvoudig gezegd spelen inbeddingen een cruciale rol bij machine learning door complexe gegevens om te zetten in vereenvoudigde, beheersbare vormen. Dit levert dan weer verschillende voordelen op:

Reductie van dimensionaliteit

Door reductie van de dimensionaliteit worden grote gegevenssets vereenvoudigd door ze om te zetten in weergaven met een lagere dimensionaliteit. Inbeddingen verminderen het aantal dimensies zonder essentiële informatie te verliezen, waardoor de gegevens beter beheersbaar en machinelearning-modellen efficiënter worden. 

Semantische voorstelling 

Inbeddingen leggen de semantische betekenis van gegevens vast, waardoor modellen complexe relaties kunnen begrijpen en interpreteren. Deze mogelijkheid verbetert taken van natuurlijke taalverwerking (zoals sentimentanalyse en machinevertaling) door het model subtiele nuances in de taal te laten begrijpen. 

Maak kennis met Now Intelligence Ontdek hoe ServiceNow analyses en AI in de praktijk toepast om de manier waarop bedrijven werken te transformeren en de digitale transformatie te versnellen. Download het e-book
LLM's trainen

Grote taalmodellen (LLM's) profiteren aanzienlijk van inbeddingen. Inbeddingen vormen een basis voor deze modellen om menselijke tekst te begrijpen en te genereren. Door woorden en zinnen als vectoren weer te geven, kunnen LLM's (zoals GPT-modellen) coherente en contextueel relevante reacties produceren. Dit verbetert de nauwkeurigheid en relevantie van toepassingen zoals chatbots en generatieve AI (GenAI). 

Effectieve visualisatie

Met inbeddingen kunnen technieken zoals t-SNE (t-distributed stochastic neighbor embedding) betekenisvolle visuele weergaven van gegevensclusters en relaties creëren. Deze visualisatie helpt bij het begrijpen van gegevenspatronen, het detecteren van afwijkingen en het nemen van geïnformeerde zakelijke beslissingen.

Wat zijn gangbare inbeddingsmodellen?

Net zoals er veel verschillende soorten complexe gegevens zijn die machinelearning-algoritmen moeten kunnen verwerken om effectief te kunnen functioneren, zijn er verschillende inbeddingsmodellen die elk unieke manieren bieden om die gegevens weer te geven. De meest voorkomende inbeddingsmodellen zijn onder andere:

Hoofdcomponentenanalyse (PCA- Principal Component Analysis)

PCA is een statistische methode die wordt gebruikt voor reductie van dimensionaliteit. De methode stelt de richtingen vast (ook wel hoofdcomponenten genoemd) waarin de gegevens het meest variëren en projecteert de gegevens op deze richtingen. Dit resulteert in vereenvoudigde vectoren die de essentiële kenmerken van de oorspronkelijke gegevens vastleggen, waardoor deze beter hanteerbaar zijn voor analyse.

Word2vec

Word2vec is ontwikkeld door Google en is een model op basis van een neuraal netwerk dat woordinbeddingen genereert. Het legt semantische relaties tussen woorden vast door te trainen op grote sets tekstgegevens. Word2vec heeft twee hoofdvarianten: CBOW (continuous bag of words) en skip-gram. CBOW voorspelt een doelwoord op basis van de context, terwijl skip-gram de context van een doelwoord voorspelt. Met beide methoden worden complexe vectorweergaven gemaakt die de betekenis en relaties van woorden weerspiegelen.

Singulierewaardenontbinding (SVD - Singular Value Decomposition)

SVD is een techniek die wordt gebruikt bij matrixfactorisatie. Dit is een proces waarbij een grote matrix (een reeks getallen waarmee complexe gegevens worden weergegeven) wordt opgesplitst in eenvoudigere, meer hanteerbare stukken. Matrixfactorisatie is nodig om onderliggende patronen en relaties in de gegevens te identificeren. Bij SVD wordt een matrix in drie andere matrices ontbonden, waarbij de essentiële structuren in de oorspronkelijke gegevens worden vastgelegd. Bij tekstgegevens wordt SVD vaak gebruikt in latente semantische analyse (LSA) om verborgen semantische structuren te vinden, zodat het model de gelijkenis tussen woorden begrijpt, zelfs als ze niet vaak samen verschijnen.

Wat zijn vectoren bij inbeddingen?

Vectoren zijn lijsten met getallen die gegevens vertegenwoordigen in een indeling die computers gemakkelijk kunnen verwerken. Elk getal in een vector komt overeen met een specifiek attribuut of kenmerk van de gegevens. In een machinelearning-model kan een vector bijvoorbeeld een woord vertegenwoordigen door verschillende aspecten vast te leggen, zoals gebruiksfrequentie, context en semantische betekenis. Door complexe gegevens om te zetten in vectoren, kunnen inbeddingen deze modellen relaties in de gegevens effectiever laten analyseren en vinden, waardoor niet-numerieke gegevens in feite worden omgezet in numerieke gegevens.

Bij inbeddingen zijn vectoren cruciaal, omdat hiermee zoekacties naar gelijkenis en patroonherkenning mogelijk zijn. Wanneer een model vectoren verwerkt, kan het bepalen welke vectoren zich dicht bij elkaar bevinden in een multidimensionale ruimte. Deze nabijheid duidt op gelijkenis, waardoor het model vergelijkbare items kan groeperen. Bij een voldoende grote gegevensset kunnen ML-algoritmen dan inzicht in hoogdimensionale gegevensrelaties krijgen.

Hoe worden inbeddingen gemaakt?

Inbeddingen worden meestal gemaakt door machinelearning-modellen te trainen voor specifieke taken. Hierbij wordt vaak een begeleid probleem opgesteld, ook wel een surrogaatprobleem genoemd, waarbij het primaire doel is om een resultaat te voorspellen. Een model kan bijvoorbeeld het volgende waarschijnlijke woord in een tekstreeks voorspellen. Tijdens dit proces leert het model om de invoergegevens te coderen in inbeddingsvectoren, die de onderliggende patronen en relaties vastleggen.

Vaak worden neurale netwerken gebruikt om inbeddingen te genereren. Deze netwerken bestaan uit meerdere lagen en een van de verborgen lagen is verantwoordelijk voor het omzetten van de invoerkenmerken in vectoren. Deze transformatie vindt plaats wanneer het netwerk leert van handmatig voorbereide voorbeelden. Technici begeleiden dit proces door nieuwe gegevens in het netwerk in te voeren, zodat het netwerk meer patronen kan leren en nauwkeurigere voorspellingen kan doen. Na verloop van tijd worden de inbeddingen verfijnd en werken ze onafhankelijk, zodat modellen nauwkeurige aanbevelingen kunnen doen uitsluitend op basis van de vectorgegevens. Technici blijven deze inbeddingen monitoren en verfijnen, zodat ze effectief blijven wanneer extra gegevens worden ingevoerd.

Welke objecten kunnen worden ingebed?

Inbeddingen zijn veelzijdig. Ze kunnen worden toegepast op verschillende soorten gegevens en worden omgezet in vectoren, zodat machinelearning-modellen efficiënt kunnen werken. Veelvoorkomende objecten die kunnen worden ingebed zijn:

  • Woorden
    Bij het insluiten van woorden wordt tekst omgezet in numerieke vectoren, waarbij de semantische relaties tussen woorden worden vastgelegd. Dit is van cruciaal belang voor taken zoals vertalingen en sentimentanalyse.
  • Afbeeldingen
    Inbeddingen van afbeeldingen transformeren visuele gegevens in vectoren, waardoor modellen patronen en kenmerken in afbeeldingen kunnen herkennen. Dit wordt gebruikt in toepassingen zoals gezichtsherkenning en objectdetectie.
  • Audio
    Audio-inbeddingen zetten geluidsgolven om in vectoren, waardoor modellen gesproken taal, muziek en andere audiosignalen kunnen begrijpen en verwerken. Dit is essentieel voor spraakherkenning en audioclassificatie.
  • Grafieken
    Inbeddingen van grafieken geven knooppunten en edges in een grafiek weer als vectoren, waarbij de structurele informatie behouden blijft. Dit helpt bij taken zoals koppelingvoorspelling, knooppuntclassificatie en analyse van sociale netwerken
Prijzen van ServiceNow ServiceNow biedt concurrerende productpakketten die met je meegroeien naarmate je bedrijf groeit en je behoeften veranderen. Bekijk prijzen
Hoe werkt inbedden?

Zoals eerder besproken, houdt inbedding gewoonlijk in dat objecten zoals tekst, afbeeldingen en grafieken worden omgezet in vectoren: nummerreeksen. Met deze vectoren kunnen modellen overeenkomsten en patronen in de gegevens herkennen.

Bij aanbevelingssystemen helpen inbeddingen om gebruikers en items als vectoren in een hoogdimensionale ruimte weer te geven. Aan elke gebruiker en elk item wordt een inbeddingsvector toegewezen, die is geleerd door historische interacties. De aanbevelingsscore voor een gebruiker-itemkoppel wordt berekend door het puntproduct van hun vectoren te nemen. Hoe hoger de score, hoe waarschijnlijker de gebruiker geïnteresseerd is in het item. Deze benadering legt de gebruikersvoorkeuren en itemkenmerken vast, waardoor persoonlijke aanbevelingen mogelijk zijn.

Tekstinbeddingen werken anders. Ze worden geleerd tijdens het vooraf trainen van de LLM. Tijdens het vooraf trainen worden deze modellen blootgesteld aan enorme hoeveelheden tekst, waardoor ze contextuele relaties tussen woorden, woordgroepen en zinnen kunnen identificeren. Het model wijst een unieke vector toe aan elk woord of elke woordgroep, op basis van hoe vaak het woord of de woordgroep met bepaalde andere woorden en in verschillende contexten wordt weergegeven. Met dit proces kan het model semantische nuances, zoals synoniemen of relaties, binnen de tekst vastleggen. Hierdoor kan het model menselijke taal begrijpen, genereren en nauwkeurig verwerken.

Welke machinelearning-toepassingen zijn afhankelijk van inbedding?

Inbeddingen hebben een breed scala aan toepassingen in machine learning, waardoor ze onmisbaar zijn voor een reeks taken. Hier volgen enkele noemenswaardige voorbeelden: 

  • Computervisie
    Met inbeddingen worden afbeeldingen omgezet in numerieke vectoren die de essentiële kenmerken en patronen in de afbeeldingen vastleggen. Deze transformatie maakt taken mogelijk zoals beeldclassificatie, objectdetectie en gezichtsherkenning.
  • Aanbevelingssystemen
    Inbeddingen helpen om gebruikers en items (zoals films of producten) weer te geven als vectoren. Deze vectoren leggen de latente kenmerken vast die de gebruikersvoorkeuren en itemkenmerken weerspiegelen. Door de gelijkenis tussen gebruiker- en iteminbeddingen te vergelijken, kunnen aanbevelingssystemen voorspellen in welke items een gebruiker geïnteresseerd zou kunnen zijn.
  • Semantisch zoeken
    Semantisch zoeken maakt gebruik van inbeddingen om zoekresultaten te verbeteren door de context en betekenis van query's te begrijpen in plaats van alleen te vertrouwen op trefwoordmatching. Met inbeddingen worden zowel de zoekquery's als de documenten omgezet in vectoren, zodat het zoeksysteem documenten kan vinden die semantisch lijken op de gebruikersaanvraag.
  • Intelligente documentverwerking
    Bij intelligente documentverwerking helpt inbedding bij het omzetten van tekstgegevens in vectoren die betekenis en relaties binnen de tekst vastleggen. Dit is handig voor taken zoals documentclassificatie, sentimentanalyse en informatie-extractie. Door inbeddingen kunnen modellen de inhoud van documenten beter begrijpen en verwerken. 
Inbedding implementeren met ServiceNow

Inbeddingen zijn transformatieve tools in machine learning, waardoor complexe gegevens eenvoudiger worden en beter te begrijpen zijn. Organisaties kunnen deze mogelijkheid benutten met geavanceerde AI-oplossingen van ServiceNow. 

ServiceNow biedt uitgebreide mogelijkheden om inbeddingen binnen het platform te implementeren. De AI-gestuurde toepassingen van ServiceNow kunnen tickets automatisch classificeren en routeren, problemen voorspellen voordat ze zich voordoen en gepersonaliseerde aanbevelingen doen, allemaal mogelijk gemaakt door geavanceerde inbeddingsmodellen. Dankzij deze integratie kunnen bedrijven in alle branches het volledige potentieel van hun gegevens benutten. 

Ontdek hoe ServiceNow je mogelijkheden voor gegevensverwerking kan transformeren met de juiste aanpak van inbeddingen. Vraag vandaag nog een demo aan en ontdek zelf hoe AI in actie je bedrijfsactiviteiten kan verbeteren.  

AI-workflows verkennen Ontdek hoe je met het ServiceNow-platform bruikbare AI binnen je hele bedrijf aan het werk zet. Ontdek GenAI Neem contact met ons op
Resources Artikelen Wat is AI? Wat is GenAI? Onderzoeksrapporten IDC-infobrief: Maximaliseer AI-waarde met een digitaal platform Generatieve AI in IT-activiteiten Implementatie van GenAI in de telecommunicatiebranche Datasheets AI-zoeken Voorspel en voorkom onderbrekingen met ServiceNow® Voorspellende AIOps Resourcebeheer E-books Moderniseer IT-services en -activiteiten met AI GenAI: Is het echt zo belangrijk? Ontketen bedrijfsproductiviteit met GenAI Whitepapers Enterprise AI Maturity Index GenAI voor Telco