RLHF を諦めろ!モデル値を手動でトレーニングする必要はなく、ダートマス大学の中国語が新しいアライメントアルゴリズムのリリースを主導しました。「AI社会」は最高の教師です

大規模言語モデルをトレーニングする最後のステップは、モデルの動作が確立された人間の社会的価値観と一致していることを確認するための「アライメント」です。

「社会的相互作用」を通じて価値判断の合意に達する人間と比較すると、現在の言語モデルはトレーニングコーパスから切り離して価値を学習する傾向があり、その結果、なじみのない環境での一般化パフォーマンスが低下し、敵対的攻撃に対して脆弱になります。

最近、ダートマス大学、ブリティッシュコロンビア大学、スタンフォード大学、ミシガン大学、Google Deepmindの研究者らが共同で、複数の言語モデルをシミュレートされた社会環境に配置し、相互作用を通じて価値観を学習させる新しいトレーニングパラダイムを提案した。

論文リンク: https://arxiv.org/abs/2305.16960

既存の方法と比較すると、この記事で提案された新しい方法はよりスケーラブルで効率的であり、アライメントベンチマークと人間による評価において優れたパフォーマンスを示します。このトレーニングパラダイムのシフトにより、人工知能システムは社会規範や価値観をより正確に反映できるようになります。

SANDBOX: 人間社会のシミュレーション

教師あり微調整（SFT）でルールを事前に定義したり、人間によるフィードバックによる強化学習（RLHF）でスカラー報酬に依存したりする従来のアプローチとは異なり、研究者たちは、人間が社会的規範をナビゲートする方法を学ぶ方法からインスピレーションを得て、人間の経験学習と反復的な改善のプロセスをシミュレートしました。

SANDBOX は人間社会をシミュレートする学習環境であり、言語モデル (LM) に基づくソーシャルエージェントが人間を模倣して対話し、社会的規範を学習し、物議を醸す社会的トピックやリスク関連の問題に関する議論を促進することで社会的規範の出現を促進します。

同時に、エージェントが出力を改善するためのインセンティブとして暗黙のルールがシステムに導入され、アライメントと印象管理の改善を促進できます。

この論文は社会的整合に焦点を当てていますが、ルールはさまざまなシナリオのニーズに合わせて調整できます。

SANDBOX は、エージェント間の社会的相互作用をシミュレートする 3 層方式 (Back-Scatter) で構成されています。

中央エージェントは、ソーシャル質問を受け取った後、予備的な応答を生成し、それを近くのエージェントと共有してフィードバックを取得します。フィードバックには、中央エージェントが予備的な応答を修正するのに役立つスコアと詳細な説明が含まれます。

各エージェントには、応答の履歴を追跡するためのメモリモジュールが含まれています。埋め込みベースのセマンティック検索を使用して、履歴から関連する質問と回答 (QA) のペアを取得し、過去の意見との合意を促進するコンテキスト情報をエージェントに提供します。

システムには、ソーシャルエージェントに加えて、応答の一貫性と関与を評価するタスクを持つ記憶のない観察エージェントも含まれています。

SANDBOX は、さまざまな言語モデルの社会的ダイナミクスのシミュレーション、観察者の評価の監視、収集されたデータの事後分析の実行に役立ちます。

さまざまな言語モデルをシミュレートした後のアライメント分析では、一般的にモデルが大きいほど一貫性とエンゲージメントが向上する一方で、驚くべき結果も得られました。モデルサイズが 20 倍に増加したにもかかわらず、68 億のパラメータを持つ GPT-3 モデルから 1,750 億のパラメータを持つ GPT-3 モデルへの移行によって、大きな改善は得られませんでした。

この結果からは、次の 2 つの重要な結論もわかります。

1. モデルを単純に拡張するだけでは、アライメントの改善は保証されない

2. 非常に小型のモデルでも十分なアライメント性能を発揮できる

アライメントありとなしでトレーニングされたモデルの比較結果から、アライメントトレーニングは主に、より少ないインタラクションでより高いアライメントを達成するモデルの能力を強化することがわかります。これは、ユーザーはインタラクションを通じてモデルをガイドする必要なく、即時のソーシャルアライメント応答を期待するため、実際のアプリケーションでは重要な考慮事項です。

要約すると、SANDBOX プラットフォームは社会的相互作用をモデル化することができ、社会的に適合した言語モデルの開発を促進するだけでなく、AI エージェントの行動パターンを研究するための多目的な環境としても機能します。

安定した配置

安定したアライメントでは、スコアを使用して、各データのミニバッチ内のネガティブサンプルのペナルティを調整します。既存の方法よりも優れているだけでなく、リソースが限られた環境でも簡単に展開できるという利点もあります。

OpenAI が使用する RLHF メカニズムと比較すると、安定したアライメントでは、トレーニング中に近似の教師あり信号を提供するための追加の報酬モデルは必要ありません。

データ準備

調整されたデータは「良い質問」と「悪い質問」の例で構成されていますが、インタラクティブ環境 SANDBOX で生成されるデータは特別で、比較ペア、集合評価、詳細なフィードバック、反復的な応答修正が含まれます。

研究者は、アルパカモデルの要件に従って、データを命令、入力、出力の 3 つの部分に整理し、SANDBOX のインタラクションレコードに適応するために必要な変更を加えました。

研究者らは、再調整と呼ばれる新しいサンプルタイプを使用しました。このサンプルタイプの指示には、質問、低得点の下書きの回答、修正トリガー（例：「入力と比較してフィードバックを改善するために、この回答を修正してください。」）が含まれていました。

入力はピアモデルからのフィードバック (ピアフィードバック) であり、出力は変更された応答です。

研究者らは、再調整されたスタイルのデータを組み込むことで、ユーザーがさまざまなコンテキストビューを使用して保護手段を回避し、モデルに悪意のある動作をさせる「脱獄プロンプト」に対するモデルの防御を効果的に改善できることを発見しました。

最終的に、シミュレートされた相互作用から 169,000 個の整列されたデータサンプルが構築されました。

安定したアライメントアルゴリズム

アルゴリズムの中核では、安定したアライメントが対照的な学習プロセスとして機能し、高得点の応答に報酬を与え、低得点の応答にペナルティを与えます。

ただし、従来の方法とは異なります。

1. 対照的な信号は、ツインネットワークやシフトされた埋め込みではなく、同じミニバッチ内の低評価の応答から発生します。対照学習をより効果的にするには、SANDBOX に記録されたデータのインタラクティブ性が必要です。

2. ヒンジ損失やトリプレット損失で一般的に使用される固定差と比較して、安定したアライメントアルゴリズムは、異なるスコアに応じて各小バッチ内の差を動的に調整します。

具体的には、SFT 損失と低評価の返信による損失の差は、最高評価の返信からの距離に比例して増加します。つまり、モデルは低評価の返信からの学習を避け、最高評価の返信から学習するために、より多くの作業を行う必要があります。

実験セクション

研究者らは、訓練されたモデルの包括的な評価を実施し、主に従来のアライメントベンチマークと敵対的評価におけるパフォーマンスを調べました。

実験では 3 つの異なる仮想社会が構築され、それぞれ 10x10 のグリッド世界に配置され、バックスキャッタープロトコルに従って相互作用する 100 人のエージェントで構成されました。

3 つの社会は、人間の相互作用をシミュレートするために、text-davinci-002 (175B)、text-davinci-003 (175B)、GPT-4 (サイズ不明) という 3 つの異なる言語モデル (LM) を使用しています。ChatGPT (gpt-3.5-turbo) はオブザーバーとして使用されますが、メモリ機能はありません。

物議を醸している社会問題データベースは、主に Anthropic がリリースした HH-RLHF データセットからの 9,662 の質問で構成されています。

比較のためのベンチマークデータセットは 3 つあります。

1. 有用性、関連性、正確性を評価するVicunaテストは、汎用チャットボットの要件を表しています。

2. 物議を醸す社会問題を通じて社会的整合効果を評価する「役に立つ、正直、無害な（HHH）」ベンチマーク。

3. HHH-Adversarial は、HHH ベンチマークのテストセットを使用して敵対的 (脱獄プロンプト) を模倣し、対応する質問に一貫性のない応答を追加して、モデルが依然として社会的に一貫した方法で質問に答えることができるかどうかを評価します。

すべての評価では、Vicuna の評価プロトコルに従い、GPT-4 を審判として使用し、評価プロンプトを変更して複数の候補を比較できるようにしました。

実験結果から、次のことがわかります。

1. 命令調整により、ベースモデルは、アライメントベンチマークで一般的な要求完了タスクを効率的に処理できるようになります。

LLaMA の回答はより冗長な場合が多く、質問とは無関係なこともありますが、一般的な指示の調整を行った後、Alpaca は Vicuna テストと HHH アライメントベンチマークで大幅な改善を示し、スコアはそれぞれ 4.44 から 6.04 と 4.51 から 5.53 に増加しました。

2. SFT はアライメントタスクに大きな利点を示しますが、SFT だけでは敵対的力に対するモデルの堅牢性を高めることはできません。

SFT トレーニング前 (Alpaca) と後 (Alpaca + HHH-SFT) のモデルを比較すると、Vicuna テストと HHH アライメントパフォーマンスの向上にもかかわらず、HHH-Adversarial パフォーマンスがかなり低下していることがわかります。これは、アライメントされた応答のメモリを強化しても、必ずしもモデルが脱獄の手がかりに耐性を持つようになるわけではないことを示しています。

アライメントを安定化すると、モデルの一般化可能性を大幅に低下させることなく、アライメントの可能性をさらに最適化できます。

アライメントトレーニング (TRLX、Chain-of-Hindsight、RRHF、Stable Alignment) の後、すべてのモデルが値アライメントベンチマーク (HHH および HHH-adversarial) でより優れたパフォーマンスを示していますが、RRHF と Stable Alignment のみが一般的な機能を向上させています (Vicuna テストでは、RRHF は 6.81 ポイント、Stable Alignment は 7.40 ポイントを獲得し、どちらも SFT ベースラインの 6.32 ポイントを超えています)。これは、Stable Alignment が一般的な機能を保持しながら、アライメント機能を向上させることを示しています。

<<: AIモデルは研究者ががん検出の精度を向上させるのに役立つ

>>: 報告書によると、プログラマーの70%がプログラミングにさまざまなAIツールを使用している。