Was ist Reinforcement Learning from Human Feedback (RLHF)?

Bei Reinforcement Learning from Human Feedback (RLHF), also verstärkendes Lernen aus menschlichem Feedback, handelt es sich um eine ML-Technik. Dabei erlernen KI-Modelle Verhaltensweisen durch direktes menschliches Feedback statt über herkömmliche Belohnungsfunktionen. So wird ihre Leistung optimiert, während die KI gleichzeitig besser auf menschliche Ziele und Erwartungen ausgerichtet wird.

KI-Demo
Wissenswertes über RLHF
Unterschied zwischen RLHF und herkömmlichem RL Wie verläuft der RLHF-Trainingsprozess? Was macht RLHF so wichtig? Welche Herausforderungen bringt RLHF mit sich? Wie funktioniert RLHF? Wie kann RLHF generative KI verbessern? RLHF mit ServiceNow

Die meisten modernen KI-Sprachmodelle sind überraschend gut darin, Text zu generieren, der genau und relevant ist und natürlich klingt. Doch leider erzeugen sie selbst mit all diesen Funktionen nicht immer Inhalte, die Anwender als „gut“ bezeichnen würden. Das liegt zumindest teilweise daran, dass sich „gut“ nur schwer definieren lässt. Verschiedene Personen wünschen sich andere Dinge von KI-Sprachmodellen, und was eine gute Antwort ausmacht, hängt natürlich von den Standards des Anwenders und dem Kontext der Situation ab.

Mit herkömmlichen KI-Trainingsmethoden lässt sich dieses Problem nicht lösen. Diese sind in der Regel darauf ausgelegt, das wahrscheinlichste nächste Wort in einer Sequenz vorherzusagen – basierend auf den tatsächlichen Sequenzen von Wörtern in ihren Datensätzen. Mithilfe von Metriken lassen sich generierte Inhalte mit bestimmten Referenztexten vergleichen, doch sie lassen dennoch zu wünschen übrig. Letztlich kann nur menschliches Urteilsvermögen bestimmen, ob ein KI-generierter Text „gut“ ist Das ist der Grundannahme hinter RLHF, dem verstärkenden Lernen mit menschlichem Feedback.

RLHF ist eine Methode, mit der KI-Sprachmodelle sich über herkömmliche Trainingsansätze hinaus verfeinern lassen. Dazu wird das Modell basierend auf von Menschen bereitgestellten Präferenzen oder Korrekturen trainiert. Anstatt nur anhand einer Datenüberprüfung Wortsequenzen vorherzusagen, lässt sich die KI mithilfe von RLHF besser auf Ideen von Menschen ausrichten, um eine Antwort bereitzustellen, die nach menschlichen Standards gut oder nützlich ist. RLHF als Konzept wurde erstmals 2019 von OpenAI vorgeschlagen und ist eine Weiterentwicklung von Reinforcement Learning (RL).

 

Alle ausklappen Alle Einklappen Unterschied zwischen RLHF und herkömmlichem RL

 Das verstärkende Lernen aus menschlichem Feedback, Reinforcement Learning from Human Feedback (RLHF), und das herkömmliche verstärkende Lernen (Reinforcement Learning) sind beides Methoden des maschinellen Lernens (ML), mit denen KI-Systeme trainiert werden. Sie unterscheiden sich jedoch erheblich in der Art und Weise, wie der Lernprozess gesteuert wird. Das herkömmliche RL basiert auf Belohnungssignalen aus der Umgebung: Die KI erhält Feedback auf ihre Aktionen innerhalb einer vordefinierten Reihe von Automatisierungen und lernt durch Versuch und Irrtum, diese Belohnungen zu maximieren. Dieses automatisierte Feedback hilft dabei, die Kriterien „genau“ oder „natürlich“ zu definieren, stimmt aber nicht unbedingt mit komplexen menschlichen Präferenzen überein.

Im Gegensatz dazu integriert RLHF direktes menschliches Feedback in den Lernkreislauf und bietet der KI echte, kontextrelevante Einblicke in die Ergebnisse, die Menschen als qualitativ hochwertig oder wünschenswert betrachten. Mit dieser Methode kann KI nicht nur lernen, Aufgaben auszuführen, sondern kann ihre Antworten auch an menschliche Urteile anpassen. Das macht sie für Anwendungen effektiver, bei denen ein menschliches Verständnis unerlässlich ist.

Wir stellen vor: Now Intelligence Finden Sie heraus, wie ServiceNow Unternehmen KI und Analytics bereitstellt, damit sie ihre Arbeitsabläufe modernisieren und die digitale Transformation beschleunigen können. Zum E-Book
Wie verläuft der RLHF-Trainingsprozess?

RLHF ist ein spezifischer Ansatz für das Training von KI-Sprachmodellen, der mehrere kritische Schritte umfasst, um die KI stärker an die menschlichen Erwartungen und Werte anzupassen. Zu den wichtigsten Aspekten dieser Schritte gehören:

Vorabtraining des Sprachmodells

Die Grundlage von RLHF besteht im Vorabtraining eines Sprachmodells mit einem großen Korpus von Textdaten. In dieser Phase kann das Modell eine Vielzahl von Sprachmustern und Kontexten erlernen, bevor eines der spezielleren Trainings erfolgt.

Das Vorabtraining stattet die KI mit allgemeinen sprachlichen Fähigkeiten aus, damit sie zusammenhängenden Text verstehen und generieren kann. In diesem Schritt werden in der Regel unüberwachte Lerntechniken verwendet, bei denen das Modell lernt, das nächste Wort in Sätzen vorherzusagen, ohne explizites Feedback zur Qualität seiner Ausgaben zu erhalten.

Training eines Belohnungsmodells

Sobald das erste Vorabtraining abgeschlossen ist, müssen im nächsten Schritt Daten gesammelt werden, die speziell für das Training eines Belohnungsmodells entwickelt wurden. Dieses Modell ist grundlegend für RLHF, da es menschliche Bewertungen der Modellausgaben in ein numerisches Belohnungssignal übersetzt.

Das Training eines RLHF-Belohnungsmodells beginnt mit der Erfassung von menschlichem Feedback zu den vom Sprachmodell generierten Ausgaben. Dieses Feedback kann direkte Rangfolgen, Bewertungen oder Auswahlmöglichkeiten zwischen verfügbaren Optionen umfassen. Die erfassten Daten werden dann verwendet, um dem Belohnungsmodell beizubringen, wie gut der Text mit den menschlichen Präferenzen übereinstimmt. Die Effektivität des Belohnungsmodells hängt von der Qualität und dem Umfang des menschlichen Feedbacks ab.

Verstärkendes Lernen anwenden

Die letzte Phase des RLHF-Prozesses beinhaltet die Feinabstimmung des vortrainierten Sprachmodells mithilfe des trainierten Belohnungsmodells. Hierzu werden Techniken für verstärkendes Lernen angewendet. In dieser Phase werden die Parameter des Sprachmodells angepasst, um die Belohnungen zu maximieren, die es aus dem Belohnungsmodell erhält. Effektiv wird dadurch die Textgenerierung optimiert, um Ausgaben zu generieren, die stärker auf menschliche Vorlieben abgestimmt sind.

Durch den Einsatz von Reinforcement Learning kann das Modell anhand kontinuierlichen Feedbacks iterativ verbessert werden, wodurch es in der Lage ist, Text zu generieren, der bestimmte menschliche Standards erfüllt oder andere festgelegte Ziele erreicht. 

Was macht RLHF so wichtig?

Reinforcement Learning from Human Feedback (RLHF) stellt einen bedeutenden Fortschritt im KI-Training dar und geht über herkömmliche Methoden hinaus, um direkte menschliche Einblicke in die Modellentwicklung zu integrieren. Einfach ausgedrückt: Modelle können mehr leisten, als nur vorherzusagen, welche Wörter (rein statistisch) in einer Sequenz als Nächstes kommen sollten. So wird die Entwicklung von KI-Sprachmodellen möglich, die wirklich intelligente Antworten bieten können.

Vorteile von RLHF

Natürlich bietet RLHF auch viele unmittelbare Vorteile, insbesondere in Unternehmen. Durch diesen Ansatz für KI-Training lassen sich einige bemerkenswerte Verbesserungen erzielen, darunter:

  • Kürzere Trainingszeit 
    Durch die Integration von direktem Feedback beschleunigt RLHF den Lernprozess, sodass Modelle die gewünschten Ergebnisse schneller erzielen können. RLHF kann auf interne und externe Chatbots angewendet werden, damit sie verschiedene Anwenderanfragen schneller verstehen und beantworten können.

  • Komplexere Trainingsparameter 
    RLHF kann subtile und ausgeklügelte Trainingsszenarien bewältigen, zu denen herkömmliche Modelle nicht in der Lage sind. Dabei wird menschliches Urteilsvermögen verwendet, um das Lernen zu leiten und Parameter in Bereichen festzulegen, die als subjektiv gelten. Inhaltsempfehlungssysteme können von diesem RLHF-Aspekt profitieren und sich im Laufe der Zeit an subtile Variationen der Anwenderpräferenzen anpassen.

  • Bessere KI-Leistung 
    Mit RLHF trainierte Modelle weisen in der Regel eine bessere Leistung auf, da sie durch iteratives Feedback kontinuierlich weiterentwickelt werden, um menschliche Standards besser zu erfüllen. Durch die Verbesserung der Leistung von Übersetzungstools mit RLHF werden natürlichere, kontextbezogene Übersetzungen erzielt.

  • Weniger Risiken 
    Durch die Einbeziehung von menschlichem Feedback wird sichergestellt, dass KI-Systeme auf erwartete und beabsichtigte Weise handeln, wodurch das Risiko schädlicher oder unbeabsichtigter Verhaltensweisen minimiert wird. So profitiert beispielsweise die Bereitstellung autonomer Fahrzeuge von einer besseren menschlichen Aufsicht beim KI-Training.

  • Höhere Sicherheit 
    Trainingsmodelle mit Fokus auf menschlichem Feedback stellen sicher, dass KI-Systeme in realen Szenarien sicher und vorhersehbar funktionieren. Die Verbesserung medizinischer Diagnosesysteme mit RLHF hilft KI-gestützten Gesundheitsdienstleistern, gesundheitsschädigende Empfehlungen zu vermeiden und den Schwerpunkt stärker auf die Patientensicherheit zu legen.

  • Wahrung ethischer Grundsätze 
    Mit RLHF können Modelle ethische Überlegungen und soziale Normen widerspiegeln und sicherstellen, dass KI-Entscheidungen unter Einhaltung menschlicher Werte getroffen werden. Tendenziösität und Vorurteile werden schneller erkannt und beseitigt, sodass sie nicht in generierte Social-Media-Posts oder andere Markeninhalte gelangen.

  • Höhere Anwenderzufriedenheit 
    Durch die stärkere Abstimmung der KI-Ergebnisse auf menschliche Erwartungen verbessert RLHF die allgemeine Anwender-Experience.

  • Kontinuierliches Lernen und kontinuierliche Anpassung 
    RLHF-Modelle passen sich im Laufe der Zeit an neue Informationen und veränderte menschliche Präferenzen an und behalten so ihre Relevanz und Effektivität bei.

Welche Herausforderungen bringt RLHF mit sich?

Reinforcement Learning from Human Feedback bietet zwar zahlreiche Vorteile, birgt aber auch verschiedene Herausforderungen, die die Effektivität im Unternehmen beeinträchtigen können. Das Verständnis der folgenden Herausforderungen ist für Unternehmen, die mit RLHF ihre KI-Systeme verbessern wollen, von entscheidender Bedeutung:

Menschliche Beteiligung kann teuer sein

Die Notwendigkeit kontinuierlichen menschlichen Inputs kann RLHF zu einer kostspieligen Angelegenheit machen, insbesondere weil erfahrene Mitarbeiter benötigt werden, um genaues und nützliches Feedback zu geben. Eine partielle Automatisierung des Feedback-Prozesses durch maschinelles Lernen kann eine Teillösung bieten, die die Abhängigkeit von menschlichem Input reduziert und die Kosten senkt.

Menschliches Feedback ist sehr subjektiv und kann zu Fehlern oder Verzerrungen führen

Menschliche Urteile können sehr unterschiedlich ausfallen und werden oft von individuellen Vorurteilen beeinflusst. Das kann sich negativ auf die Konsistenz und Zuverlässigkeit der Trainingsdaten auswirken. Um diesem Risiko entgegenzuwirken, können Sie eine vielfältige Gruppe von Experten einsetzen, um eine ausgewogenere Perspektiv der KI-Leistung zu erhalten.

Menschen neigen zu Dissens

Menschliche Experten sind sich nicht immer einig, was eine „gute“ oder „nützliche“ Antwort ausmacht – das kann zu uneinheitlichen oder widersprüchlichen Bewertungen führen. Um die Einheitlichkeit zu gewährleisten, können in den Überprüfungsteams Mechanismen zur Konfliktlösung sowie Strategien zur Konsensbildung eingesetzt werden, um das Feedback zu harmonisieren.

Wie funktioniert RLHF?

Die Einbindung menschlichen Feedbacks in KI-Trainings mag im Vergleich zu autonomeren Trainingsmethoden etwas kompliziert erscheinen. In Wirklichkeit nutzt RLHF jedoch komplexe mathematische Modelle, um das KI-Verhalten basierend auf präzisen menschlichen Eingaben zu optimieren. Dieser ausgeklügelte Ansatz kombiniert menschliches Feedback mit algorithmischem Training, um KI-Systeme zu leiten, damit sie effektiver arbeiten und besser auf menschliche Präferenzen reagieren können.

In diesen Prozess sind die folgenden wesentlichen Komponenten involviert: 

Zustandsraum

Der Zustandsraum in RLHF stellt alle relevanten Informationen dar, die der KI zu einem bestimmten Zeitpunkt während des Entscheidungsprozesses zur Verfügung stehen. Das umfasst alle Variablen, die die Entscheidungen beeinflussen könnten, unabhängig davon, ob sie bereits bereitgestellt wurden oder abgeleitet werden müssen. Der Zustandsraum ist dynamisch und ändert sich, wenn die KI mit ihrer Umgebung interagiert und neue Daten sammelt.

Aktionsraum

Der Aktionsraum ist außerordentlich groß und umfasst die gesamte Reihe von Antworten oder Texten, die das KI-Modell möglicherweise als Reaktion auf einen Prompt generieren könnte. Die Größe des Aktionsraums in Sprachmodellen macht RLHF zu einer besonderen Herausforderung, ist aber auch einer Gründe, warum RLHF so gut darin ist, kontextbezogene Antworten zu generieren.

Belohnungsfunktion

Die Belohnungsfunktion in RLHF quantifiziert den Erfolg der KI-Aktionen basierend auf menschlichem Feedback. Im Gegensatz zum herkömmlichen verstärkenden Lernen, bei dem Belohnungen vordefiniert und oft einfach gehalten sind, nutzt RLHF menschliches Feedback, um ein präzises Belohnungssignal zu erzeugen. Das Feedback bewertet die Ergebnisse der KI basierend auf Qualität, Relevanz oder Einhaltung menschlicher Werte und wandelt diese Bewertung in eine quantitative Messung um, die das Lernen fördert.

Constraints

Als Constraints bezeichnete Einschränkungen werden verwendet, um unerwünschte Verhaltensweisen der KI zu verhindern. Das können ethische Richtlinien, Sicherheitsabwägungen oder einfach festgelegte Grenzen sein, innerhalb derer sich die KI bewegen muss. Beispielsweise kann ein Sprachmodell dafür bestraft werden, dass es beleidigende Inhalte generiert oder zu weit von einem Thema abweicht. Constraints tragen dazu bei, dass die Ergebnisse der KI innerhalb der Grenzen bleiben, die von den menschlichen Trainern als akzeptabel oder beabsichtigt angesehen werden.

Richtlinie

Die RLHF-Richtlinie bestimmt den Entscheidungsprozess der KI und ordnet den aktuellen Status der nächsten Aktion zu. Sie ist im Grunde nichts anderes als die Verhaltensleitlinie des Modells, die basierend auf dem Belohnungsfeedback kontinuierlich optimiert wird. Das Ziel der Richtlinie besteht darin, die kumulative Belohnung zu maximieren und so die Aktionen der KI stärker auf die menschlichen Erwartungen und Präferenzen auszurichten.

Wie kann RLHF generative KI verbessern?

Als leistungsstarker und innovativer Ansatz für das KI-Sprachtraining hat RLHF auch Einfluss auf das verwandte Feld der generativen KI (GenAI). RLHF ermöglicht aufschlussreichere, kontextbezogene Ausgaben für verschiedene generative Anwendungen. Hier einige Beispiele für die Anwendung von RLHF im GenAI-Bereich:

Breitere Anwendungsbereiche

RLHF ist nicht nur für Sprachmodelle, sondern auch für andere Formen generativer KI wie Bild- und Musikgenerierung von Nutzen. Bei der KI-Bildgenerierung kann RLHF beispielsweise verwendet werden, um den Realismus oder die emotionale Wirkung von Kunstwerken zu bewerten und zu verbessern, was für Anwendungen in digitaler Kunst oder Werbung sehr wichtig ist. Ebenso hilft RLHF bei der Musikgenerierung dabei, Stücke zu erzeugen, die besser zu bestimmten emotionalen Tönen oder bestimmten Aktivitäten passen. Das erhöht die Akzeptanz von Benutzern in Bereichen wie Fitness-Apps oder Psychotherapie. Auf diese Weise kann GenAI über die übliche Anwendung der Generierung schriftlicher Inhalte hinausgehen.

Bessere Sprachassistenten

In der Sprachtechnologie verfeinert RLHF die Art und Weise, wie Sprachassistenten mit Anwendern interagieren, sodass sie freundlicher, neugieriger, vertrauenswürdiger usw. klingen. Indem Sprachassistenten trainiert werden, um immer menschlicher zu wirken, erhöht RLHF die Wahrscheinlichkeit, dass die Anwender zufrieden sind und die Assistenten langfristig nutzen.

Subjektivität in menschlicher Kommunikation verstehen

Welche Elemente als „hilfreich“ oder „ansprechend“ empfunden werden, kann von Person zu Person völlig unterschiedlich ausfallen. Deshalb ermöglicht RLHF die Anpassung von KI-Verhaltensweisen, um die unterschiedlichen Anwendererwartungen und kulturellen Normen besser zu erfüllen. Jedes Modell kann mit Feedback von verschiedenen Personengruppen trainiert werden, was eine breitere Palette menschlicher Antworten ermöglicht, die mit höherer Wahrscheinlichkeit bestimmte Anwenderpräferenzen erfüllen.

ServiceNow-Preise ServiceNow bietet wettbewerbsfähige Produktpakete, die mit Ihrem Unternehmen wachsen und sich an Ihre Anforderungen anpassen. Zur Preisgestaltung
RLHF mit ServiceNow

RLHF ist ein menschenorientierter Ansatz für KI-Training, weswegen RLHF besonders für Sprachmodelle geeignet ist, die auf die direkte Interaktion mit Anwendern ausgelegt sind. Dieses Konzept hat sich ServiceNow, der Marktführer im Bereich Workflow-Automatisierung, zunutze gemacht.

Die preisgekrönte Now Platform® von ServiceNow enthält vollständig integrierte, fortschrittliche KI-Funktionen, die in der Lage sind, die RLHF-Strategien Ihres Unternehmens zu unterstützen. Mit Funktionen, die entwickelt wurden, um die Anwender-Experience zu verbessern und den Betrieb zu optimieren, erleichtert die Now Platform die Erzeugung und Wartung intelligenter Workflows, die sich basierend auf Anwenderfeedback und -interaktionen anpassen lassen.  

Profitieren Sie von den umfassenden Tools, der zentralisierten Steuerung, der unübertroffenen Transparenz und dem zuverlässigen Support, die ServiceNow zum Goldstandard unter den Anbietern von KI-Lösungen gemacht haben. Schauen Sie noch heute eine Demo von ServiceNow an, und beginnen Sie mit der Optimierung Ihres KI-Ansatzes.

Weitere Informationen über generative KI Beschleunigen Sie die Produktivität mit Now Assist – einer generativen KI, die direkt in die Now Platform integriert ist. KI entdecken Kontakt
Ressourcen Artikel Was ist KI? Was ist generative KI? Was ist ein LLM? Analystenberichte Kurzinfo IDC: KI-Wert mit einer digitalen Plattform maximieren Generative KI im IT-Betrieb Implementierung von GenAI in der Telekommunikationsbranche Datenblätter KI-Suche Mit ServiceNow® Prädiktive AIOps Ausfälle prognostizieren und verhindern E-Books IT-Services und -Betrieb mit KI modernisieren GenAI: Ist es wirklich so eine große Sache? Die Produktivität mit GenAI unternehmensweit steigern Whitepaper KI-Reifeindex für Unternehmen GenAI für die Telekommunikation