スタンフォード大学は対照的嗜好学習を提案：強化学習なしで人間のフィードバックから学習する

人間によるフィードバックによる強化学習 (RLHF) は、モデルを人間の意図に合わせるための一般的なパラダイムになりました。一般的に言えば、RLHF アルゴリズムは 2 つの段階で機能します。第 1 段階では、人間の好みを使用して報酬関数を学習し、第 2 段階では、強化学習を使用して学習した報酬を最適化してモデルを調整します。

RLHF パラダイムでは、人間の好みの分布は報酬に従うと想定されていますが、最近の研究ではそうではないことが示されています。人間の好みは、実際にはユーザーの最適な戦略の下での後悔値に従います。したがって、フィードバックに基づいて報酬関数を学習することは、人間の好みに関する誤った仮定に基づいているだけでなく、解決困難な最適化問題につながります。これらの問題は、強化学習段階でのポリシー勾配またはブートストラップから生じます。

これらの最適化の課題により、現在の RLHF メソッドは、コンテキストベースのバンディット設定 (大規模言語モデルなど) に制限されるか、観測次元 (状態ベースのロボティクスなど) が制限されます。

これらの課題を克服するために、スタンフォード大学などの研究チームは、報酬の合計のみを考慮するコミュニティ全体で受け入れられている部分報酬モデルではなく、後悔に基づく人間の好みモデルを使用して、人間からのフィードバックを使用する際の行動を最適化する一連の新しいアルゴリズムを提案しました。部分的なリターンモデルとは異なり、後悔ベースのモデルは最適な戦略に関する情報を直接提供します。

このようなメカニズムは幸運な結果をもたらします。強化学習はまったく必要ありません。

これにより、高次元の状態空間とアクション空間を持つ一般的な MDP フレームワークで RLHF 問題を解決できるようになります。

研究者らは、研究結果の核となる洞察は、後悔に基づく選好フレームワークと最大エントロピー（MaxEnt）原理を組み合わせることで、優位関数と戦略の間の一対一関係を実現できるということであると主張している。利点の最適化を戦略の最適化に置き換えることで、純粋に教師ありの学習目標を導き出すことができます。その最適値は、専門家の報酬の下での最適戦略です。研究チームは、この方法を、広く受け入れられている対照学習の目標に似ていることから、対照的嗜好学習 (CPL) と名付けました。

論文アドレス: https://arxiv.org/pdf/2310.13639.pdf
コードアドレス: https://github.com/jhejna/cpl

CPL には、従来のアプローチに比べて 3 つの重要な利点があります。

まず、CPL は、ポリシー勾配や動的プログラミングを使用せずに、最適な利点を一致させるために教師あり目標のみを使用するため、教師あり学習のように拡張できます。

2 番目に、CPL は完全にポリシー外のアプローチであるため、オフラインの最適でないデータソースを効果的に使用できます。

3 番目に、CPL は任意のマルコフ決定プロセス (MDP) に適用できるため、シーケンシャルデータに対する好みのクエリから学習できます。

研究チームによると、これまでのRLHF法では、上記3つのポイントを同時に満たすことはできなかったという。 CPL 法が上記の 3 つの説明を満たしていることを示すために、研究者らは実験を行い、その結果、この方法は、最適ではない高次元の戦略外データを使用した順次意思決定問題を実際に効果的に処理できることが示されました。

注目すべきことに、彼らは実験で、MetaWorld ベンチマークにおいて、CPL が対話モデルと同じ RLHF 微調整プロセスを効果的に使用して、時間の経過とともに拡張されるアクションポリシーを学習できることを発見しました。

具体的には、教師あり学習アプローチを使用して、高次元の画像観察に関するポリシーを事前トレーニングし、その後、設定を使用してポリシーを微調整します。 CPL は、動的プログラミングやポリシー勾配を必要とせずに、事前ベースの強化学習方法に匹敵するパフォーマンスを実現します。一方、CPL メソッドは 1.6 倍高速で、パラメータ効率は 4 倍です。より密度の高い選好データを使用すると、CPL は 6 つのタスクのうち 5 つで強化学習よりも優れたパフォーマンスを発揮します。

対照的嗜好学習

この方法の核となる考え方はシンプルです。研究者たちは、最大エントロピー強化学習フレームワークを使用する場合、後悔選好モデルで使用される利点関数を、ポリシーの対数確率に簡単に置き換えることができることを発見しました。しかし、この単純な置き換えは大きな利益をもたらす可能性があります。ポリシーの対数確率を使用する場合、アドバンテージ関数を学習したり、強化学習のようなアルゴリズムに関連する最適化の課題に対処したりする必要はありません。

研究者らは、これにより後悔選好モデルがより密接に連携するようになるだけでなく、完全に教師あり学習を通じて人間からのフィードバックから学習することも可能になると述べている。

まず、CPL 目的を導出し、無制限のデータを持つ専門家ユーザー報酬関数 r_E の場合、この方法が最適なポリシーに収束できることを示します。次に、CPL と他の教師あり学習手法との関連性を示します。最後に、CPLを実際に使用する方法について説明します。このアルゴリズムは、強化学習を必要とせずに後悔に基づく好みから直接方針を学習できるため効率的で、順次的な意思決定問題を解決するための新しいクラスの方法に属すると研究者らは述べている。

最適な優位性から最適な戦略へ

後悔選好モデルを使用する場合、選好データセットD_prefには最適な利点関数A^∗(s,a)に関する情報が含まれます。この関数は、状態 s で最適なポリシーによって生成されたアクションと比較して、特定のアクション a がどれだけ悪いかを測定するものと直感的に考えることができます。

したがって、定義により、最適な利点を最大化するアクションが最適なアクションであり、好みから最適な利点関数を学習することで、最適なポリシーを直感的に抽出できるはずです。

具体的には、チームは以下の定理を証明しました。

直接学習戦略の利点。このように π を直接学習することには、多くの実用的および理論的な利点があります。おそらく最も明白なのは、ポリシーを直接学習することで、報酬関数や価値関数などの他の関数を学習する必要がないことです。これにより、CPL は以前の方法よりもはるかに簡単になります。

対照学習とのつながり。 CPL メソッドは、ポリシー学習に対照的な目的を直接使用します。研究者らは、大規模なデータセットとニューラルネットワークによる対照学習目標の実証された成功を考慮すると、CPL は従来の強化学習アルゴリズムを使用する強化学習方法よりも拡張性に優れていると期待していると述べています。

実用的な考慮事項

対照的嗜好学習フレームワークは、利点に基づく嗜好からポリシーを学習するために使用できる一般的な損失関数を提供し、そこから多くのアルゴリズムを導き出すことができます。以下では、実際にうまく機能する特定の CPL フレームワークの例に基づいて、実用的な考慮事項を紹介します。

限られたオフラインデータを使用する CPL。 CPL は無制限の選好データを使用して最適なポリシーに収束できますが、実際には、制限されたオフラインデータセットでの学習に重点が置かれるのが一般的です。この設定では、データセットのサポート範囲外にまで外挿するポリシーは、分布外状態につながるアクションを実行するため、パフォーマンスが低下します。

正規化。有限設定では、データセット内のアクションに高い尤度を割り当てながら、CPL 損失関数を最小化するポリシーを選択する必要があります。これを行うには、保守的な正則化子を使用して次の損失関数を取得します。ポリシーが D_pref 内のアクションに対して高い確率を持つ場合、より低い損失が割り当てられ、分布内に維持されます。

事前トレーニング。研究チームは、ポリシーπ_θを行動クローニング（BC）法を使用して事前にトレーニングすると、より良い結果が得られることが多いことを発見しました。そのため、チームは、CPL 損失による好みを使用して微調整する前に、標準的な最大尤度動作クローニング目標を使用してポリシーをトレーニングしました。

実験と結果

このセクションでは、CPL に関する次の質問に答えます。1. CPL は、後悔に基づく好みに基づいて戦略を効果的に微調整できますか?第二に、CPL は高次元制御問題や大規模ネットワークに拡張できるでしょうか? 3. 高いパフォーマンスを実現するために CPL のどのコンポーネントが重要ですか?

設定データ。最適ではないオフポリシーロールアウトデータと設定を使用して、一般的な MDP のポリシーを学習する CPL の能力を評価します。

ベンチマーク方式。実験では、教師あり微調整 (SFT)、嗜好暗黙的 Q 学習 (P-IQL)、および % BC (ロールアウトの上位 X% の動作を複製してポリシーをトレーニングする) の 3 つのベースライン手法が検討されています。

CPL のパフォーマンスはどうですか?

状態ベースの観測データを使用する場合、CPL はどのように機能しますか?状態ベースの実験結果については、主に表 1 の行 1 と 3 に示されています。

よりスパースな比較データ (行 3) を使用すると、CPL は 6 つの環境のうち 5 つで以前の方法よりも優れており、特にボタンプレス、ビンピッキング、スイープイントの環境では P-IQL に対する利点が顕著です。より密度の高い比較を含むデータセットに適用すると、CPL の P-IQL に対する利点はさらに大きくなり (行 1)、すべての設定で顕著になります。

CPL は高次元の観測にどのように拡張されるのでしょうか? CPL の教師あり目標を高次元連続制御問題に拡張できるかどうかをテストするために、チームは MetaWorld データセットを 64 × 64 の画像にレンダリングしました。

表1の2行目と4行目には画像ベースの実験結果が示されています。彼らは興味深い発見をしました。SFT の場合、パフォーマンスはわずかに向上しましたが、P-IQL の改善は顕著でした。より密度の高い設定データ (行 2) を使用して学習する場合でも、CPL は 6 つの環境のうち 4 つで P-IQL よりも優れており、Sweep Into でも同等です。よりスパースな比較データ (行 4) を使用して学習する場合、CPL と P-IQL はほとんどのタスクで同等のパフォーマンスを発揮します。

CPL の複雑性が大幅に低いことを考慮すると、この結果はさらに驚くべきものです。 P-IQL は、報酬関数、Q 関数、価値関数、およびポリシーを学習する必要があります。 CPL ではこれらのいずれも必要なく、ポリシーを学習するだけで済むため、トレーニング時間とパラメータの数を大幅に削減できます。

下の表 2 に示すように、画像タスクでは、CPL は P-IQL よりも 1.62 倍高速に実行され、パラメータ数は P-IQL の 4 分の 1 未満です。ネットワークが大きくなるにつれて、CPL を使用することによるパフォーマンスの向上は増大するばかりです。

CPL のパフォーマンスに貢献するコンポーネントは何ですか?

実験結果から、より密度の高い比較を行うデータセットを使用すると、CPL とベースラインメソッド間のギャップが大きくなることがわかります。これは対照学習に関するこれまでの研究結果と一致しています。

この効果を研究するために、研究者らは、断片ごとにサンプリングされる比較の数を増やして、5,000 断片の固定サイズのデータセットでの CPL のパフォーマンスを評価しました。下の図 2 は、状態ベースの観察データに基づく引き出しを開けるタスクの結果を示しています。

一般に、プレートスライドタスクを除き、CPL はフラグメントサンプルあたりの比較回数が増えるとメリットが得られます。

最後に、研究チームは CPL のハイパーパラメータ (温度値 α とバイアス正則化 λ) に関するアブレーション研究も実施しました。この研究も引き出しを開けるタスクに基づいており、結果は図 2 の右側に示されています。 CPL はこれらの値で良好なパフォーマンスを発揮しますが、ハイパーパラメータ (特に λ) を適切に調整することで、さらに優れたパフォーマンスを発揮できることがわかりました。

<<: GPT-4はあなたよりも質問をするのが得意です。大きなモデルを繰り返し使用して、人間との対話の障壁を打ち破りましょう。

>>: 総合異常検知の新たな夜明け：華中科技大学などがGPT-4Vの総合異常検知性能を明らかに