Versterkend leren met menselijke feedback (RLHF, Reinforcement Learning from Human Feedback) is een techniek in machine learning waarbij AI-modellen gedrag leren op basis van directe menselijke feedback in plaats van via traditionele beloningsfuncties, waardoor hun prestaties effectief verbeteren en de AI beter wordt afgestemd op menselijke doelen en verwachtingen.
De meeste moderne AI-taalmodellen zijn verrassend bedreven in het genereren van tekst die nauwkeurig, relevant en menselijk aanvoelt. Helaas creëren ze zelfs met al deze capaciteiten niet altijd content die een gebruiker als 'goed' zou beschouwen. Dit komt ten minste gedeeltelijk doordat 'goed' een moeilijk te definiëren concept is, verschillende individuen willen verschillende dingen van AI-taalmodellen en wat nou precies een goede reactie is, varieert natuurlijk afhankelijk van de normen van de gebruiker en de context van de situatie.
Traditionele AI-trainingsmethoden doen weinig om deze zorgen aan te pakken. Deze zijn immers meestal ontworpen om het meest waarschijnlijke volgende woord in een reeks te voorspellen op basis van de feitelijke woordreeksen die in hun gegevenssets worden gepresenteerd. Meetwaarden kunnen worden gebruikt om gegenereerde content te vergelijken met specifieke referentieteksten, maar laten nog vaak wat te wensen over. Uiteindelijk kan alleen menselijk oordeel bepalen of door AI gegenereerde tekst 'goed' is. Dit is de redenering achter versterkend leren met menselijke feedback, of RLHF.
RLHF is een methode die wordt gebruikt om AI-taalmodellen verder te verfijnen dan traditionele trainingsbenaderingen. Het houdt in dat het model wordt getraind op basis van voorkeuren of correcties die door mensen worden opgegeven. In plaats van alleen woordreeksen te voorspellen door gegevens te bekijken, kan AI RLHF toepassen om beter aan te sluiten bij menselijke ideeën over wat een goede of nuttige reactie is volgens menselijke normen. RLHF als concept werd voor het eerst voorgesteld door OpenAI in 2019 en is een evolutie van versterkend leren (RL).
Versterkend leren met menselijke feedback en traditioneel versterkend leren zijn beide machine learning-methoden (ML) voor het trainen van AI-systemen, maar ze verschillen aanzienlijk in de manier waarop ze het leerproces sturen. Traditionele RL is afhankelijk van beloningssignalen uit de omgeving, wat betekent dat de AI feedback ontvangt van zijn acties binnen een vooraf gedefinieerde set automatiseringen, waarbij het leert deze beloningen te maximaliseren door middel van trial-and-error. Deze geautomatiseerde feedback helpt bij het definiëren van wat nauwkeurig of natuurlijk is, maar sluit niet noodzakelijkerwijs aan bij complexe menselijke voorkeuren.
RLHF daarentegen integreert directe menselijke feedback in het leerproces, waardoor de AI echte, contextueel relevante inzichten krijgt in wat mensen beschouwen als hoogwaardige of wenselijke uitkomsten. Deze methode stelt de AI in staat om niet alleen taken uit te voeren, maar ook om de responsen aan te passen op basis van menselijke beoordelingen, wat het effectiever maakt voor toepassingen waar menselijk begrip van essentieel belang is.
RLHF is een unieke benadering van het trainen van AI-taalmodellen en omvat verschillende cruciale stappen die zijn ontworpen om de AI beter af te stemmen op menselijke verwachtingen en waarden. De belangrijkste aspecten van deze stappen zijn:
De basis van RLHF bestaat uit het vooraf trainen van een taalmodel op een groot corpus van tekstgegevens. In deze fase kan het model een breed scala aan taalpatronen en contexten leren voordat een van de meer gespecialiseerde trainingen plaatsvindt.
Training vooraf voorziet de AI van algemene taalkundige vaardigheden, zodat het in staat is om coherente tekst te begrijpen en te genereren. Deze stap maakt doorgaans gebruik van leertechnieken zonder supervisie, waarbij het model leert het volgende woord in zinnen te voorspellen zonder expliciete feedback over de kwaliteit van de uitvoer.
Zodra de initiële training vooraf is voltooid, omvat de volgende stap het verzamelen van gegevens die specifiek zijn ontworpen voor het trainen van een beloningsmodel. Dit model is van fundamenteel belang voor RLHF, omdat het menselijke evaluaties van de tekstuitvoer van het model omzet in een numeriek beloningssignaal.
Het trainen van een RLHF-beloningsmodel begint met het verzamelen van menselijke feedback over de door het taalmodel gegenereerde uitvoer. Deze feedback kan bestaan uit directe rangschikkingen, beoordelingen of keuzes tussen beschikbare opties. De verzamelde gegevens worden vervolgens gebruikt om het beloningsmodel te leren inschatten hoe goed de tekst is afgestemd op menselijke voorkeuren. De effectiviteit van het beloningsmodel hangt af van de kwaliteit en de hoeveelheid menselijke feedback.
De laatste fase van het RLHF-proces omvat het verfijnen van het vooraf getrainde taalmodel met behulp van het getrainde beloningsmodel door middel van versterkingstechnieken. In deze fase worden de parameters van het taalmodel aangepast om de beloningen die het van het beloningsmodel ontvangt te maximaliseren, waardoor de tekstgeneratie effectief wordt geoptimaliseerd om uitvoer te produceren die beter is afgestemd op menselijke voorkeuren.
Het gebruik van versterkend leren stelt het model in staat om iteratief te verbeteren op basis van continue feedback, zodat het beter tekst kan genereren die voldoet aan specifieke menselijke normen of andere gedefinieerde doelen bereikt.
Versterkend leren met menselijke feedback vertegenwoordigt een belangrijke vooruitgang in AI-training, omdat het verder gaat dan traditionele methoden en directe menselijke inzichten in modelontwikkeling kan opnemen. Simpel gezegd, het kan meer dan alleen voorspellen welke woorden (statistisch gezien) als volgende in een reeks moeten komen. Dit brengt de wereld een stap dichter bij het creëren van AI-taalmodellen die echte intelligente reacties kunnen geven.
Natuurlijk biedt RLHF veel meer directe voordelen, met name voor bedrijven. Deze benadering van AI-training biedt verschillende opmerkelijke voordelen, zoals:
Vermindering van trainingstijd
Door directe feedback te integreren, versnelt RLHF het leerproces, waardoor modellen sneller de gewenste resultaten bereiken. Dit kan worden toegepast op zowel interne als externe chatbots, waardoor ze sneller diverse gebruikersvragen kunnen begrijpen en beantwoorden.Mogelijkheid voor meer complexe trainingsparameters
RLHF kan subtiele en verfijnde trainingsscenario's aan die traditionele modellen mogelijk niet aankunnen, waarbij menselijk oordeel wordt gebruikt om het leerproces te sturen en parameters vast te stellen in gebieden die anders als subjectief zouden worden beschouwd. Aanbevelingssystemen voor content kunnen profiteren van dit aspect van RLHF, door zich in de loop van de tijd aan te passen aan subtiele variaties in gebruikersvoorkeuren.Verbetering van AI-prestaties
Modellen die zijn getraind met RLHF presteren doorgaans beter, omdat ze voortdurend worden verfijnd door iteratieve feedback om beter aan menselijke normen te voldoen. Het verbeteren van de prestaties van vertaaltools met RLHF leidt tot meer natuurlijke en contextueel relevante vertalingen.Beperking van risico's
Door menselijke feedback te integreren, handelen AI-systemen op de verwachte en bedoelde manier, waardoor het risico op schadelijk of ongewenst gedrag wordt geminimaliseerd. De inzet van autonome voertuigen profiteert bijvoorbeeld van meer menselijk toezicht tijdens de AI-training.Verbetering van de veiligheid
Het trainen van modellen met de focus op menselijke feedback zorgt ervoor dat AI-systemen op een veilige en voorspelbare manier handelen in levensechte scenario's. Het verbeteren van medische diagnosesystemen met RLHF helpt AI-gestuurde zorgverleners om schadelijke aanbevelingen te vermijden en de veiligheid van patiënten beter te waarborgen.Handhaving van ethiek
RLHF stelt modellen in staat om ethische overwegingen en sociale normen te weerspiegelen, waardoor AI-beslissingen worden genomen met aandacht voor menselijke waarden. Vooroordelen kunnen sneller worden geïdentificeerd en geëlimineerd, zodat deze niet doorsijpelen in gegenereerde berichten op sociale media of in andere merkgebonden inhoud.Verhoging van de gebruikerstevredenheid
Door AI-uitvoer beter af te stemmen op menselijke verwachtingen, verbetert RLHF de algehele gebruikerservaring.Continu leren en continue aanpassing
RLHF-modellen passen zich in de loop van de tijd aan nieuwe informatie en veranderende menselijke voorkeuren aan, zodat ze relevant en effectief blijven.
Hoewel versterkend leren met menselijke feedback talloze voordelen biedt, brengt het ook verschillende uitdagingen met zich mee die de effectiviteit ervan in het bedrijfsleven kunnen belemmeren. Het begrijpen van de volgende uitdagingen is cruciaal voor organisaties die RLHF overwegen als optie om hun AI-systemen te verbeteren:
Omdat RLHF voortdurende menselijke invoer vereist, kunnen de kosten hoog oplopen, vooral omdat ervaren annotators nodig zijn om nauwkeurige en bruikbare feedback te verstrekken. Het automatiseren van delen van het feedbackproces door middel van machine learning-technieken kan een gedeeltelijke oplossing bieden, waardoor de afhankelijkheid van menselijke invoer vermindert en de kosten dalen.
Menselijke oordelen kunnen sterk verschillen en worden vaak beïnvloed door individuele vooroordelen. Dit kan van invloed zijn op de consistentie en betrouwbaarheid van de trainingsgegevens. Om dit risico te verminderen, is het belangrijk een diverse groep menselijke annotators in te zetten die in staat is om een meer gebalanceerd perspectief te bieden op de prestaties van de AI.
Menselijke annotators zullen het niet altijd eens zijn over wat een 'goede' of 'bruikbare' respons is, wat kan leiden tot inconsistente of tegenstrijdige evaluaties. Om overeenstemming te waarborgen, kunnen mechanismen voor conflictoplossing en strategieën voor consensusvorming worden ingezet binnen de reviewteams om meer geharmoniseerde feedback te bevorderen.
Het opnemen van menselijke feedback in AI-training lijkt misschien een minder gecompliceerde aanpak in vergelijking met meer autonome trainingsmethoden. De realiteit is echter dat RLHF toch complexe wiskundige modellen gebruikt om het gedrag van AI te optimaliseren op basis van genuanceerde menselijke invoer. Deze geavanceerde benadering combineert menselijke feedback met algoritmische training om AI-systemen te sturen, waardoor ze effectiever en beter afgestemd worden op menselijke voorkeuren.
De volgende essentiële componenten zijn betrokken bij dit proces:
De toestandsruimte in RLHF vertegenwoordigt alle relevante informatie waarover de AI op een bepaald moment tijdens het besluitvormingsproces beschikt. Dit omvat alle variabelen die de beslissingen van de AI kunnen beïnvloeden, of deze nu al beschikbaar zijn of nog afgeleid moeten worden. De toestandsruimte is dynamisch en verandert naarmate de AI meer interactie heeft met de omgeving en nieuwe gegevens verzamelt.
De actieruimte is buitengewoon groot en omvat alle mogelijke responsen of tekstgeneraties die het AI-model kan produceren als antwoord op een prompt. De enormiteit van de actieruimte in taalmodellen maakt RLHF bijzonder uitdagend, maar tegelijkertijd ook ongelooflijk krachtig voor het genereren van contextueel passende reacties.
De beloningsfunctie in RLHF kwantificeert het succes van de acties van de AI op basis van menselijke feedback. In tegenstelling tot traditioneel versterkend leren, waarbij beloningen vooraf zijn gedefinieerd en vaak simplistisch zijn, gebruikt RLHF menselijke feedback om een meer genuanceerd beloningssignaal te creëren. De feedback beoordeelt de uitvoer van de AI op basis van kwaliteit, relevantie of naleving van menselijke waarden en zet deze beoordeling om in een kwantitatieve maatstaf die het leerproces aanstuurt.
Beperkingen worden gebruikt om de AI weg te leiden van ongewenst gedrag. Dit kunnen ethische richtlijnen, veiligheidsoverwegingen of eenvoudigweg vastgestelde grenzen zijn waarbinnen de AI moet opereren. Een taalmodel kan bijvoorbeeld worden gestraft voor het genereren van beledigende inhoud of voor het te ver afwijken van een onderwerp. Beperkingen helpen ervoor te zorgen dat de uitvoer van de AI binnen de grenzen blijft van wat acceptabel is of bedoeld wordt door de menselijke trainers.
Het RLHF-beleid bepaalt het besluitvormingsproces van de AI en legt een verband tussen de huidige toestand en de volgende actie. Dit is in wezen de gedragsrichtlijn van het model, die continu wordt geoptimaliseerd op basis van de beloningsfeedback. Het doel van het beleid is om de cumulatieve beloning te maximaliseren, zodat de activiteiten van de AI beter aansluiten bij menselijke verwachtingen en voorkeuren.
Als een krachtige en innovatieve benadering van AI-taaltraining heeft RLHF ook een duidelijke impact op het verwante gebied van generatieve AI (GenAI). Dit maakt het mogelijk om meer inzichtelijke en contextueel passende uitvoer te genereren binnen diverse generatieve toepassingen. Enkele voorbeelden van hoe RLHF kan worden toegepast op GenAI:
RLHF breidt zijn bruikbaarheid uit voorbij taalmodellen naar andere vormen van generatieve AI, zoals beeld- en muziekgeneratie. In AI-beeldgeneratie kan RLHF bijvoorbeeld worden gebruikt om de realiteit of emotionele impact van kunstwerken te evalueren en te verbeteren, wat van cruciaal belang is voor toepassingen in digitale kunst of reclame. Op dezelfde manier helpt RLHF in muziekgeneratie om tracks te creëren die beter aansluiten bij specifieke emotionele tonen of activiteiten, wat de gebruikersbetrokkenheid vergroot in bijvoorbeeld fitnessapps of mentale gezondheidstherapie. Zo kan GenAI worden gebruikt voor meer dan alleen het gebruikelijke genereren van geschreven inhoud.
In spraaktechnologie verfijnt RLHF de manier waarop spraakassistenten met gebruikers communiceren, zodat ze vriendelijker, nieuwsgieriger, betrouwbaarder, enz. klinken. Door spraakassistenten te trainen om steeds menselijker te reageren, verhoogt RLHF de kans op gebruikerstevredenheid en langdurige betrokkenheid.
Aangezien wat als 'behulpzaam' of 'aantrekkelijk' wordt beschouwd sterk kan variëren tussen personen, maakt RLHF het mogelijk om AI-gedrag aan te passen zodat het beter aansluit bij diverse gebruikersverwachtingen en culturele normen. Elk model kan worden getraind met feedback van verschillende groepen mensen, wat zorgt voor een breder scala aan mensachtige reacties die beter aansluiten bij specifieke gebruikersvoorkeuren.
RLHF is een mensgerichte benadering van AI-training, wat het onmiskenbaar nuttig maakt voor taalmodellen die zijn ontworpen om rechtstreeks met gebruikers te communiceren. ServiceNow, de leider op het gebied van workflowautomatisering, heeft dit concept benut.
Het bekroonde Now Platform® van ServiceNow is volledig geïntegreerd met geavanceerde AI-mogelijkheden die de RLHF-strategieën van je bedrijf kunnen ondersteunen. Met functies die zijn ontworpen om gebruikerservaringen te verbeteren en activiteiten te stroomlijnen, faciliteert het Now Platform de creatie en het onderhoud van intelligente workflows die zich kunnen aanpassen op basis van feedback en interacties van gebruikers.
Profiteer van de uitgebreide tools, gecentraliseerde controle, ongeëvenaarde zichtbaarheid en betrouwbare ondersteuning die ServiceNow tot de gouden standaard hebben gemaakt onder aanbieders van AI-oplossingen. Probeer vandaag nog een demo van ServiceNow en maak een begin met het optimaliseren van je AI-benadering.