DeepMind の新しい研究: ReST は大規模なモデルを人間の好みに合わせて調整し、オンライン RLHF よりも効果的です

過去数か月間、私たちは大規模言語モデル (LLM) が高品質のテキストを生成し、幅広い言語タスクを解決する驚くべき能力を持っていることを目の当たりにしてきました。しかし、LLM は、生成される出力が人間の好みと大きく一致しないというジレンマに直面しています。適切なアライメントがないと、言語モデルは安全でないコンテンツを出力する可能性があります。さらに、LLM を調整すると、下流のタスクの改善にも役立ちます。

一部の研究者は、人間の好みを利用してアライメント問題を解決するために、人間のフィードバックに基づく強化学習 (RLHF) を提案しました。

一般的に言えば、RLHF は PPO や A2C などのオンライン RL 手法に依存していますが、これらの手法は計算コストが高く、攻撃に対して脆弱です。オフライン RL はオンライン RL の欠陥を回避できますが、オフライン学習の品質はオフラインデータセットの特性に過度に依存します。したがって、適切にキュレーションされたデータセットは、オフライン強化学習にとって非常に重要です。

この論文では、Google DeepMind の研究者が LLM を人間の好みに合わせるためのシンプルなアルゴリズムを提案し、この方法を ReST (Reinforced Self-Training) と名付けました。人間のフィードバックを使用して言語モデルを改善する RLHF とは異なり、ReST はオフラインデータを生成してトレーニングに使用するため、LLM が人間の好みに合うようになります。

初期の LLM ポリシーが与えられると、ReST はそのポリシーに基づいてデータセットを生成し、それをオフライン RL アルゴリズムに基づいて LLM ポリシーを改善するために使用できます。 ReST は、トレーニングデータセットがオフラインで生成され、データの再利用が可能になるため、一般的なオンライン RLHF 方法よりも効果的です。

研究チームは、ReST はすべての生成タスクに使用できるが、この論文の焦点は機械翻訳であると述べた。結果は、ReST によって翻訳品質が大幅に向上することを示しています。

論文アドレス: https://arxiv.org/pdf/2308.08998.pdf

ある研究者は次のようにコメントしています。「DeepMind は、自然言語生成における反復的な自己改善を実証しました。彼らは、人間のフィードバック強化学習 (RLHF) ループから「人間」を取り除き、ReST を提案しました。」

次に具体的な実装方法を見ていきましょう。

方法の紹介

この研究では、言語モデルの出力を人間の好みに合わせることができる、強化自己トレーニング (ReST) と呼ばれる RLHF アルゴリズムが提案されました。シーケンスに対する人間の好みは、学習された報酬関数を使用してモデル化されます。 ReST アルゴリズムは、一般的な RL パイプラインのデータセットの増加 (Grow) とポリシーの改善 (Improve) を 2 つの別々のオフラインステージに分離します。

下の図 1 に示すように、ReST メソッドは、内側のループ (改善ステップ) と外側のループ (成長ステップ) の 2 つのループで構成されます。また、オンラインまたはオフライン RL の一般的な RLHF 方式と比較して、ReST には次の利点があります。

オンライン RL と比較して、ReST は Grow ステップの出力を Improve ステップで利用するため、計算負荷が大幅に軽減されます。
新しいトレーニングデータは Grow ステップからサンプリングされるため、ポリシーの品質は元のデータセットの品質によって制限されなくなります (オフライン RL など)。
改善ステップと成長ステップが分離されているため、データの品質をチェックし、アライメントを判断することが容易になります。
ReST はシンプルで安定しており、調整するハイパーパラメータはわずかです。

この研究では、まず、シーケンスペアデータセットDが与えられた場合、式(1)のNLL損失を使用して入力シーケンス𝒙を出力シーケンス𝒚にマッピングする初期モデルをトレーニングします。

次に、成長ステップでは、モデルからのサンプルを使用して初期トレーニングデータセットを拡張する新しいデータセット D_𝑔 を作成します。

ここで、条件付け入力は、自己トレーニングの場合と同様に、元のデータセットから再サンプリングされますが、𝑝(𝒙) にアクセスできる場合は、そこから直接サンプリングすることもできます。たとえば、テキストグラフモデルでは、テキスト入力の分布は言語モデル𝑝(𝒙)からサンプリングできます。

次に、改善ステップではD_𝑔を使用してポリシー𝜋_𝜃を微調整します。この研究では、戦略が発散しないようにするために、トレーニングで元のデータセットを保持したことは注目に値します。

ReST アルゴリズム全体は、以下のアルゴリズム 1 に示されています。これには、複数のデータセットの増加と戦略の改善の手順が含まれています。

実験

研究者らは、IWSLT 2014、WMT 2020、Web Domain などのテストベンチマークを使用して、機械翻訳タスクに関する実験を実施しました。

図 3 は、複数の改善ステップでの平均報酬をプロットしたものです。改善ステップが増えるにつれて、3 つのデータセットすべてで翻訳モデルのパフォーマンスが向上していることがわかります。

成長ステップ (G) を増やすと、報酬モデルのスコアが向上しますか?この疑問を念頭に置いて、研究者たちは別の実験を行った。結果は図 4 に示されています。1 つの Grow ステップを持つ方法は、IWSLT 2014 および Web ドメインデータセットで改善されています。Grow ステップが 2 の場合、モデルのスコアは 77.8 から 80.5 に改善され、5.3 の改善が見られます。

ReST は監督付きトレーニングよりも優れていますか?結果は図 5 に示されています。最初の成長ステップの後でも、ReST のさまざまなバリアント (紫) は、教師あり学習 (灰色) を大幅に上回っています。

推論時に Best-of-N サンプリングを使用することで、ReST をさらに改善できますか?図 6 は、BC (動作クローニング) と ReST バリアント間の Best-of-N サンプリング結果を示しています。 ReST のパフォーマンスは、𝑁 と改善ステップの数の増加とともに向上します。 ReST は依然として Best-of-N サンプリングの恩恵を受けることができることが判明しました。

ReST はオンライン RL とどう違うのでしょうか?この研究では、ReST と、RLHF で広く使用されているオンライン RL アルゴリズムである PPO を比較します。結果は表1にまとめられています。

下の図は、すべての ReST バリアントが人間によるスコアリングの点で BC メソッドよりも優れていることを示しています。

<<: AIが「エッジ」に必要である理由

>>: 中山大学、AIGCの大規模応用を促進するためにソース拡散モデル統合コードフレームワークを公開