人間からのフィードバックによる強化学習 (RLHF) とは

人間からのフィードバックによる強化学習 (RLHF) は、機械学習の手法であり、AI モデルが従来の報酬機能ではなく、人間からの直接的なフィードバックを通じて行動を学習し、パフォーマンスを効果的に向上させながら、AI を人間の目標や期待に合わせて調整します。

AI のデモ
RLHF について知っておくべきこと
RLHF と従来の RL の違い RLHF のトレーニングプロセス RLHF が重要な理由 RLHF のいくつかの課題 RLHF の仕組み RLHF で生成 AI を強化する方法 人間からのフィードバックによる強化学習と ServiceNow

最新の AI 言語モデルのほとんどは、正確で関連性が高く、人間が書いたようなテキストを生成することに驚くほど長けています。 残念ながら、これだけの能力があっても、ユーザーが「良い」と思うようなコンテンツが作れるとは限りません。これは、少なくとも部分的には、「良い」とは定義が非常に難しい概念だからです。人によって AI 言語モデルに求めるものは異なり、何が良い応答となるかは、ユーザーの基準や状況の文脈によって当然変わってきます。

従来の AI トレーニング手法では、このような懸念にはほぼ対処できません。 こうした手法は、データセットに含まれる実際の単語の並びから次に来る可能性の高い単語を予測するように設計されています。 生成されたコンテンツを特定の参照テキストと比較するためにメトリクスが採用されることがありますが、それでも何かしらの不満が残ります。 結局のところ、AI で生成されたテキストが「良い」かどうかを決められるのは人間の判断だけです。これが、人間からのフィードバックによる強化学習 (RLHF) の背後にある理論です。

RLHF は、従来のトレーニングアプローチを超えて AI 言語モデルを改良するために使用される手法です。 RLHF では、生きている人間によって提供された好みや修正に基づいてモデルをトレーニングします。 AI は、単にデータを見て単語の並びを予測するだけでなく、RLHF を適用することで、人間の基準に従って、何が良い応答や有用な応答を構成するかという人間の考えに近づけることができます。 概念としての RLHF は、2019 年に OpenAI によって初めて提案され、強化学習 (RL) を進化させたものです。

 

すべて展開 すべて折りたたむ RLHF と従来の RL の違い

 人間からのフィードバックによる強化学習と従来の強化学習はどちらも AI システムをトレーニングするための機械学習 (ML) 手法ですが、学習プロセスを導く方法が大きく異なります。 従来の RL は、環境からの報酬信号に依存しています。つまり、AI は事前定義された自動化セット内でアクションからフィードバックを受け取り、試行錯誤を通じて報酬を最大化する方法を学習します。 この自動化されたフィードバックは、何が正確か、何が自然かを定義するのには役立ちますが、必ずしも人間の複雑な好みと一致するわけではありません。

対照的に、RLHF は学習ループに人間の直接的なフィードバックを組み込むことで、人間がどのような結果を高品質と考えるか、あるいは望ましいと考えるかについて、実際の文脈に関連したインサイトを AI に提供します。 この方法により、AI は単にタスクを実行するだけでなく、人間の判断に応じた応答を学習できるため、人間のような理解が不可欠な用途でより効果を発揮します。

Now Intelligence のご紹介 ServiceNow がどのように AI とアナリティクスをラボから引き出し、組織の働き方を変革して、デジタルトランスフォーメーションを加速させているかをご覧ください。 ダウンロード
RLHF のトレーニングプロセス

RLHF は、AI 言語モデルをトレーニングするための独自のアプローチであり、AI を人間の期待や価値観に近づけるように設計されたいくつかの重要なステップが含まれます。 これらのステップの重要な点は以下のとおりです。

言語モデルの事前トレーニング

RLHF の基礎は、大規模なテキストデータのコーパスで言語モデルを事前トレーニングすることです。 このフェーズでは、より専門的なトレーニングが行われる前に、モデルが幅広い言語パターンと文脈を学習できます。

事前トレーニングにより、AI は一般的な言語能力を身につけ、首尾一貫したテキストを理解して生成できるようになります。 このステップでは通常、教師なし学習手法を使用し、モデルは出力の品質に関する明示的なフィードバックなしに、文中の次の単語を予測するように学習します。

報酬モデルのトレーニング

最初の事前トレーニングが完了したら、次のステップでは、報酬モデルのトレーニング用に特別に設計されたデータを収集します。 このモデルは、モデルのテキスト出力に対する人間の評価を数値報酬信号に変換する、RLHF の基本です。

RLHF 報酬モデルのトレーニングは、LM によって生成された出力に対する人間のフィードバックを収集することから始まります。 このフィードバックには、直接的なランク付け、評価、または利用可能なオプションからの選択が含まれます。 収集されたデータは、テキストが人間の好みとどの程度一致しているかを推定する報酬モデルの学習に使用されます。 報酬モデルの有効性は、人間のフィードバックの質と量によって左右されます。

強化学習の適用

RLHF プロセスの最終ステージでは、強化学習手法を通じてトレーニングされた報酬モデルを使用して、事前にトレーニングされた言語モデルを微調整します。 このステージでは、LM のパラメーターを調整して報酬モデルから受け取る報酬を最大化し、テキスト生成を効果的に最適化して、人間の好みに合わせた出力を生成します。

強化学習を使用することで、モデルは継続的なフィードバックに基づいて反復的に改善され、人間の特定の基準を満たす、または他の指定された目標を達成するテキストを生成する能力が強化されます。 

RLHF が重要な理由

人間からのフィードバックによる強化学習は、AI トレーニングにおける大きな進歩であり、従来の方法を超えて、人間のインサイトを直接モデル開発に取り入れることができます。 簡単に言えば、統計的に次に来るべき単語を予測するだけではないということです。 これにより、真にインテリジェントな応答を提供できる AI 言語モデルの作成に世界が一歩近づきます。

RLHF のメリット

もちろん、RLHF には、特に企業にとって、より直接的なメリットがたくさんあります。 AI トレーニングへのこのアプローチは、次のような注目すべきメリットをもたらします。

  • トレーニング時間の短縮 
    直接的なフィードバックを統合することで、RLHF は学習プロセスをスピードアップし、モデルがより早く望ましい結果を達成できるようにします。 これは社内外のチャットボットに適用でき、ユーザーからの多様な問い合わせをより迅速に理解して対応できるようになります。

  • より複雑なトレーニングパラメーターが可能 
    RLHF は、従来のモデルでは扱えなかったような微妙で高度なトレーニングシナリオにも対応でき、人間の判断を使って学習を導き、主観的とみなされるような領域のパラメーターを設定できます。 コンテンツ推奨システムは、RLHF のこのような側面から恩恵を受けることができ、時間の経過に伴うユーザーの好みの微妙な変化に適応できます。

  • AI パフォーマンスの向上 
    RLHF でトレーニングされたモデルは一般的に、人間の基準をよりよく満たすために反復的なフィードバックを通じて継続的に改善されるため、より優れたパフォーマンスを発揮します。 RLHF を使用して言語翻訳ツールのパフォーマンスを向上させることで、より自然で文脈に即した翻訳が可能になります。

  • リスクの軽減 
    人間からのフィードバックを取り入れることで、AI システムが期待どおりの意図された方法で動作し、有害な行動や意図しない行動のリスクを最小限に抑えることができます。 たとえば、自律走行車の導入では、AI トレーニングにおける人間による監視を増やすことがメリットになります。

  • 安全性の向上 
    人間のフィードバックに重点を置いてモデルをトレーニングすることで、AI システムが実世界のシナリオにおいて安全で予測可能な方法で動作するようになります。 RLHF によって医療診断システムが改善されると、AI を活用した医療機関は有害な推奨事項を回避し、患者の安全をさらに優先させることができます。

  • 倫理を守る 
    RLHF は、倫理的配慮や社会規範をモデルに反映させ、AI が人間の価値観を念頭に置いて意思決定を行うことを可能にします。 バイアスを即座に特定して排除できるため、生成された SNS の投稿やその他のブランドコンテンツにバイアスが浸透するのを防ぐことができます。

  • ユーザー満足度の向上 
    RLHF は、AI の出力を人間の期待に近づけることで、全体的なユーザーエクスペリエンスを向上させます。

  • 継続的な学習と適応 
    RLHF のモデルは、新しい情報や人間の好みの変化に応じて適応し、その関連性と有効性を維持します。

RLHF のいくつかの課題

人間からのフィードバックによる強化学習は多くのメリットをもたらしますが、ビジネスにおける効果を妨げる可能性のあるいくつかの課題も伴います。 以下の課題を理解することは、AI システムを強化するための選択肢として RLHF を検討している組織にとって非常に重要です。

人的関与はコストがかかる可能性がある

RLHF は、継続的な人間による入力が必要なため、コスト高になる可能性があります。特に、正確で有用なフィードバックを提供するには専門の注釈者が必要になるためです。 機械学習技術を使用してフィードバックプロセスの一部を自動化することで、部分的な解決策が得られ、人間の入力に依存する部分が減るため、コストを削減できます。

人間のフィードバックは非常に主観的であり、エラーやバイアスが生じる可能性がある

人間の判断は千差万別で、多くの場合、個人のバイアスに影響されます。 これは、トレーニングデータの一貫性と信頼性に影響を与える可能性があります。 このリスクに対処するには、AI のパフォーマンスについてよりバランスのとれた視点を提供できる、多様な人間の注釈者グループを使用します。

人間同士は意見が合わない傾向がある

生身の人間である注釈者は、何が「良い」または「有用な」回答であるかについて、常に意見が一致するとは限らないため、一貫性のない、あるいは矛盾した評価につながる可能性があります。 連帯感を確保するために、レビューチーム間で衝突解決メカニズムや合意形成戦略を採用し、より調和のとれたフィードバックを促すことができます。

RLHF の仕組み

人間のフィードバックを AI のトレーニングに取り入れることは、より自律的なトレーニング方法と比較すると、それほど複雑なアプローチではないように思えるかもしれません。 しかし現実には、RLHF は複雑な数学モデルを活用して、複雑で繊細な意味合いがある人間の入力に基づいて AI の動作を最適化しています。 この洗練されたアプローチは、人間の評価フィードバックと AI システムを導くアルゴリズムトレーニングを融合させ、より効果的で人間の好みに反応する AI システムを実現します。

このプロセスに不可欠なコンポーネントは次のとおりです。 

状態空間

RLHF の状態空間は、意思決定プロセスの任意の時点で AI が利用できるすべての関連情報を表します。 これには、すでに提供されているか推測する必要があるかにかかわらず、その決定に影響を与える可能性のあるすべての変数が含まれます。 状態空間は動的であり、AI が環境とやり取りして新しいデータを収集するにつれて変化します。

行動空間

行動空間は、非常に広大で、AI モデルがプロンプトに応答して生成できる応答やテキスト生成の完全なセットを網羅しています。 言語モデルにおける行動空間があまりにも巨大なため、RLHF はとりわけ困難になりますが、文脈に応じた適切な応答を生成するには非常に大きな力にもなります。

報酬機能

RLHF の報酬機能は、人間のフィードバックに基づいて AI のアクションの成功を数値化します。 報酬が事前定義されており、単純化されることが多い従来の強化学習とは異なり、RLHF は人間のフィードバックを利用して、より繊細で複雑な報酬信号を作成します。 フィードバックは、品質、関連性、人間の価値観への準拠に基づいて AI の出力を評価し、評価結果は学習を促進する定量的指標に変換されます。

制約

制約は、AI を望ましくない動作から遠ざけるために使用されます。 制約には、倫理的なガイドライン、安全性への配慮、AI の動作範囲として規定された制限などが含まれます。 たとえば言語モデルは、不快なコンテンツを生成したり、トピックから逸脱したりするとペナルティを課される場合があります。 制約は、AI の出力が人間のトレーナーによって許容または意図される範囲内に収まるようにするのに役立ちます。

ポリシー

RLHF ポリシーは、AI の意思決定プロセスを規定し、現在の状態から次のアクションまでをマッピングします。 これは基本的にモデルの行動ガイドラインであり、報酬のフィードバックに基づいて継続的に最適化されます。 このポリシーの目標は、累積報酬を最大化することで、AI のアクションを人間の期待や好みに近づけることです。

RLHF で生成 AI を強化する方法

RLHF は、AI 言語トレーニングに対する強力で革新的なアプローチとして、関連分野の生成 AI (GenAI) にも明確な影響を与えています。 これにより、さまざまな生成アプリケーションにおいて、よりインサイトに富んだ、文脈に適した出力が可能になります。 RLHF を生成 AI に応用する方法の例を以下に示します。

応用分野の拡大

RLHF は、言語モデルだけでなく、画像や音楽の生成など、他の形態の生成 AI にもその有用性を広げています。 たとえば、AI 画像生成では、RLHF を使用することで、デジタルアートや広告の用途に不可欠なアート作品のリアリズムや感情的な影響を評価して強化できます。 同様に、音楽生成における RLHF は、特定の感情的なトーンやアクティビティへの共鳴度が高いトラックを作成するのに役立ち、フィットネスアプリやメンタルヘルスセラピーなどの分野でユーザーのエンゲージメントを高めます。 これにより、生成 AI は、文章コンテンツを生成するという一般的な用途を超えることができます。

音声アシスタントの改善

音声テクノロジーの分野では、RLHF は音声アシスタントのユーザーとのやり取りを改良し、より親しみやすく、好奇心が強く、信頼できる音声を実現します。 RLHF は、音声アシスタントが人間に近い方法で応答するようにトレーニングすることで、ユーザー満足度と長期的なエンゲージメントを高めます。

人間のコミュニケーションにおける主観性の扱い

何が「役立つ」または「魅力的」と見なされるかは、個人によって大きく異なる可能性があるため、RLHF は多様なユーザーの期待や文化的規範に適切に応えられるよう、AI の動作をカスタマイズできます。 各モデルは、さまざまなグループからのフィードバックを使用してトレーニングでき、特定のユーザーの好みを満たす可能性が高い、より幅広い人間らしい応答が可能になります。

ServiceNow の価格設定 ServiceNow では、お客様の組織のビジネスの成長とニーズの変化に合わせて拡張可能な、競争力のある製品パッケージをご用意しています。 見積もりを依頼
人間からのフィードバックによる強化学習と ServiceNow

RLHF は、AI トレーニングに対する人間中心のアプローチであり、ユーザーと直接やり取りするように設計された言語モデルにとって間違いなく有利です。 ワークフロー自動化のリーダーである ServiceNow は、このコンセプトを活用しています。

受賞歴のある ServiceNow の Now Platform ® は、ビジネスの RLHF 戦略をサポートできる高度な AI 機能と完全に統合されています。 Now Platform は、ユーザーエクスペリエンスを向上させ、運用を簡素化するように設計された機能を備えており、ユーザーのフィードバックとやり取りに基づいて適応できるインテリジェントなワークフローの作成とメンテナンスを促進します。  

包括的なツール、一元管理、比類のない可視性、信頼性の高いサポートが特長の ServiceNow は、AI ソリューションプロバイダーの中でも代表的な存在です。 今すぐ ServiceNow のデモをご覧ください。AI へのアプローチの最適化を始めましょう。

生成 AI の詳細 Now Platform に直接組み込まれた生成 AI、Now Assist で生産性を向上 AI の詳細を見る お問い合わせ
リソース 記事 AI とは? 生成 AI とは? LLM とは? アナリストレポート IDC InfoBrief:デジタルプラットフォームで AI の価値を最大化 IT 運用における生成 AI 通信業界における生成 AI の実装 データシート AI 検索 ServiceNow® Predictive AIOps による機能停止の予測と防止 電子書籍 AI による IT サービスと IT オペレーションの最新化 生成 AI:本当にそれほど重要なのか? 生成 AI で組織の生産性を向上 ホワイトペーパー エンタープライズ AI 成熟度インデックス 通信事業者向け生成 AI