大規模モデルにより、微調整なしでダイアログ機能が解放され、RLHF は不要になります。第一著者:上海交通大学卒業生:コストと時間を大幅に節約

大規模モデルにより、微調整なしでダイアログ機能が解放され、RLHF は不要になります。第一著者:上海交通大学卒業生:コストと時間を大幅に節約

大規模モデルの AI アシスタントを開発するには、ChatGPT のような調整と微調整がすでに業界標準の手法であり、通常は SFT + RLHF の 2 つのステップに分かれています。

アレン研究所の新しい研究によると、これらのステップはどちらも必要ないことがわかりました。 ? ?

新しい論文では、事前トレーニングされたばかりの基本モデルがすでに指示に従う能力を習得しておりプロンプトだけでプロジェクトを誘導できると指摘しており、開発コミュニティから強い注目を集めています。

RLHF は非常に高価であり、トレーニングが安定していないため、これにより多額の費用を節約できます。

これに基づいて、この研究では、微調整を必要としない新しいアライメント方法URIALを提案しました。

論文では、この新しい手法を「基礎となるモデルの潜在能力を解き放つ呪文」と表現しており、これにより多くの計算リソースと時間を節約できるとしている。

さらに注目すべきは、安定した RLHF (人間強化学習) 機能を持たない小規模チームでも、低コストでチャットや指示に従うことができるアライメント モデルを開発できることです。

現在、URIAL コードと新しい評価ベンチマーク Just-Eval-Instructがオープンソース化され、アップロードされたばかりです。

この研究は、アレン研究所とワシントン大学のYejin Choi 氏のチームによるものです。Top_p サンプリングは過去に提案されたもので、今日の大規模モデル API 呼び出しでよく使用されるパラメーターです。

第一著者のリン・ユーチェンは上海交通大学の卒業生です。

SFT+RLHF 神話を打ち破る

アライメントの微調整に疑問を持ち始めた最初の研究は、5月にMetaらがLIMAで実施した研究でした。

LIMA は、ChatGPT のパフォーマンスに匹敵するには、SFT (教師あり微調整)に必要なサンプルは 1,000 個だけであると指摘しています。

論文の中で、LIMA チームは「表面的整合仮説」についても検討しました。

モデルの知識と機能は、事前トレーニング段階でほぼすべて学習され、アライメントによって、ユーザーと対話するときにどの特定の形式のサブセットを使用するかをモデルに教えます。

言い換えれば、アライメント フェーズでは、モデルの機能が強化されることなく、モデルの言語スタイルのみが調整されます。

URIAL チームは、表面アライメント仮説から出発して、ベース モデルとアライメント モデル間のトークン分布シフト(TDS) を比較するための広範な実験を実施しました。

この実験では、3 つのグループの基本モデルを使用して、アライメント モデルと比較します。結果は次のようになります。

  • アライメントはトークンの小さなサブセットにのみ影響します。基本モデルとアラインメントされたモデルは、ほとんどの位置でデコードにおいて同じように動作し、上位ランクのトークンのセットを共有します。
  • アライメントには主に、談話マーカー(「まず、次に、とにかく、しかしながら…」)や接続詞、安全性に関する免責事項などのスタイル関連のトークンが含まれますが、これらはわずか 5 ~ 8% を占めるにすぎません。
  • アライメントは、より早く(生成されたコンテンツの先頭)表示されるトークンにとってより重要です。後続の位置にあるアライメント モデルで最高ランクのトークンは、通常、基本モデルの上位 5 つのトークン内にあります。
  • ベースモデルは指示に従うのに十分な知識を獲得しており、適切なコンテキストをプレフィックスとして与えられた場合、アライメントモデルと非常によく似た動作をします。

次の質問は、SFT と RLHF なしで、基本モデルを複数回の会話を行い、指示に従うことができる AI アシスタントに変換するにはどうすればよいかということです。

ウリアル

チームの調整されていないアライメント方法 URIAL (Untuned LLMs with Restyled In-context ALignment)は、ベース モデルのコンテキスト学習機能のみを活用して効果的なアライメントを実現し、必要なのは 3 つのスタイル例とシステム プロンプトだけです。

実験では、研究チームはURIAL法を使用して、7B、70BのLlama2とMistral-7B大型モデルの位置合わせを行いました。

結果は、ベースモデルが強力な場合、 URIAL は SFT や RLHF よりも優れたパフォーマンスを発揮することを示しています。

チームは、URIAL メソッドの主な貢献は次のとおりであると考えています。

  • 実装が非常に簡単で、完全に再現可能であるため、将来的には微調整不要および微調整を必要とする新しいアライメント方法の開発と評価が容易になります。
  • 大規模モデル(Llama2-70b や Falcon-180b など)を簡単に調整できるため、計算能力と時間を大幅に節約できます。
  • 事前トレーニング中にベースモデルを頻繁に評価し、ベースモデルの品質を監視するために使用できます。
  • 異なるベース モデル間のアライメント ポテンシャルを公平に比較​​するために使用できます。これまでは、異なるモデルの微調整プロセスは(データ、トレーニング方法、ハイパーパラメータなど)大きく異なる可能性があり、基本モデルの品質を直接反映することはできませんでした。
  • また、大量のデータで盲目的に微調整して不必要な計算コストを発生させるのではなく、事前トレーニング中にベースモデルが獲得した知識とスキルを分析し、何が欠けているかを特定するなど、大規模なモデルの調整に関する科学を探求するためにも使用できます。

この実験では、URIAL の異なる数の例も調査しました。8 に増やすと、いくつかの指標が大幅に改善されましたが、いくつかの指標も低下しました。最終的に、著者らはバランスの取れたアプローチとして 3 を使用することを推奨しました

異なる例への変更に対しても堅牢です

以前の会話を例の一部として使用する場合、URIAL は基本モデルが複数ラウンドの会話の機能を獲得できるようにすることもできます。

もう一つ

論文でテストされたLlama-2とMistralは、実際には一般的にアルパカ科に属します。

URIAL の微調整不要のアライメント方法は、Alpaca アーキテクチャ以外の大規模モデルにも使用されますか?

Alpaca 以外の大規模なオープンソース モデルを見つけるのは難しいため、リリースされたばかりの Mamba アーキテクチャ ベースのモデルである Transformer Challenger を試してみました。

Mamba は状態空間モデルです。アルパカでもなければ、トランスフォーマーでもありません。

論文の付録に記載されている URIAL 標準プロンプト語のセットを使用した簡単なテストでも、同じことが当てはまることがわかりました。

URIAL を使用して、「状態空間モデルとは何かを 6 歳児でも理解できる方法で説明できますか?」と質問します。

Mamba は数学的に定義された状態を道路上の車の位置と比較しますが、これは比較的シンプルで理解しやすいものです。また、マークダウン形式の画像リンクも提供し、画像とテキストの両方で質問に答えようとします。

URIAL を使用せずにこの質問を直接入力すると、Mamba は基本モデルと同じように動作し、質問に答える代わりにテキストを補完し、説明が重複することになります。

論文: https://allenai.github.io/re-align/

<<:  700億Llama2が即完売!申請不要で商用利用も無料という国産最新大型モデルが発表された。その背後にあるのはプライベートエクイティ大手企業

>>:  2024年に最も使用される11のAIテキスト生成ツール

ブログ    
ブログ    

推薦する

GitHub Wanxing リソース: 強化学習アルゴリズムの実装、チュートリアル コード学習計画

[[273322]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

Googleは、自社のBardを含むチャットボットの使用には注意するよう従業員に警告している。

ロイター通信は6月19日、事情に詳しい4人の関係者の話として、グーグルの親会社アルファベットはチャッ...

...

人工知能と機械学習がもたらす劇的な変化を示す6つの事例

[[219896]]現在、人工知能 (AI) と機械学習 (ML) ほど注目されているテクノロジーは...

...

あなたは人工知能/機械学習についてどれくらい知っていますか?

[[188835]]クイズ番組やマンマシン囲碁で人間に勝ったり、広告で人種差別的な偏見を示したとし...

機械学習プロジェクトに十分なデータがありませんか?ここに5つの良い解決策があります

人工知能プロジェクトに着手する企業の多くは素晴らしいビジネスアイデアを持っていますが、企業の AI ...

ボストン・ダイナミクスのロボット犬はまもなく腕が生え、走って充電できるようになる

ボストン・ダイナミクスの創業者マーク・レイバート氏は、スポットロボット犬は将来「家庭で使用できるよう...

2010年以降、MLコンピューティングパワーの需要は100億ドル増加し、6か月で2倍になり、ディープラーニングは画期的な分野となった。

計算能力、データ、アルゴリズムは、現代の機械学習 (ML) の進歩を導く 3 つの基本的な要素です。...

運輸省は自動運転について「技術革新を歓迎し、支持する」と回答

[[349592]]最近、百度などの企業が自動運転タクシーを導入し、社会的注目を集めています。交通運...

大規模データストレージソリューションの構築: MongoDB の水平拡張の検討

MongoDB は、大規模なデータ ストレージ ソリューションの構築に適した NoSQL データベー...

ディープラーニングアルゴリズム

ディープラーニングアルゴリズムは、マシンビジョンにおける巧妙な受信機コンバーターのようなものです。柔...

AIインタラクションエクスペリエンスを向上させるにはどうすればよいでしょうか?まずこの三元理論を理解しましょう

概要:人工知能製品が徐々に人々の仕事、生活、娯楽に浸透し、あらゆる分野に革命的な変化をもたらすことは...