Llama-2+Mistral+MPT=? 複数の異種大規模モデルの融合が驚くべき結果を示す

LLaMA や Mistral などの大規模言語モデルの成功により、大手企業やスタートアップ企業は独自の大規模言語モデルを作成するようになりました。ただし、新しい大規模言語モデルを最初からトレーニングするコストは非常に高く、新しいモデルと古いモデルの間で機能に冗長性が生じる可能性があります。

最近、中山大学とテンセント AI ラボの研究者らが、「複数の異種の大規模モデルを融合」するために使用される FuseLLM を提案しました。

これまでのモデル統合や重みのマージとは異なり、前者は推論中に複数の大規模言語モデルを同時に展開する必要があり、後者はマージされたモデルが同じ結果を持つことを必要とします。FuseLLM は、複数の異種大規模言語モデルからの知識を外部化し、軽量の継続的なトレーニングを通じて、それぞれの知識と機能を融合された大規模言語モデルに転送できます。

論文がarXivで公開されるとすぐに、ネットユーザーから多くの注目とリポストが集まりました。

ある人は、「このアプローチは、別の言語でモデルをトレーニングしたいときに非常に興味深いものになるだろう」と考え、「私はこれについて考えていた」と言いました。

この論文はICLR 2024に採択されました。

論文タイトル: 大規模言語モデルの知識融合
論文アドレス: https://arxiv.org/abs/2401.10491
論文リポジトリ: https://github.com/fanqiwan/FuseLLM

方法の紹介

FuseLLM の鍵は、確率分布表現の観点から大規模言語モデルの融合を探求することです。同じ入力テキストに対して、異なる大規模言語モデルによって生成された表現は、これらのテキストを理解する上での固有の知識を反映できると著者は考えています。そのため、FuseLLM は、まず複数のソースの大規模言語モデルを使用して表現を生成し、それらの集合的な知識とそれぞれの利点を外部化し、次に生成された複数の表現をそれぞれの長所と短所を活用して融合し、最後に軽量の継続的なトレーニングを通じてそれらをターゲットの大規模言語モデルに移行します。次の図は、FuseLLM アプローチの概要を示しています。

複数の異種大規模言語モデルのトークナイザーと語彙の違いを考慮すると、複数の表現を融合する際には、単語の分割結果をどのように調整するかが重要な問題となります。FuseLLM は、トークンレベルでの完全一致に加えて、最小編集距離に基づいて語彙レベルの調整を設計し、表現で利用可能な情報を最大限に保持します。

複数の大規模言語モデルの集合的な知識を、それぞれの長所を維持しながら組み合わせるためには、モデルによって生成された表現を融合するための慎重に設計された戦略が必要です。具体的には、FuseLLM は、生成された表現とラベルテキスト間のクロスエントロピーを計算することで、さまざまな大規模言語モデルによるテキストの理解を評価し、次に 2 つのクロスエントロピーベースの融合関数を導入します。

MinCE: 複数の大規模モデルを入力して現在のテキストの表現を生成し、最小のクロスエントロピーを持つ表現を出力します。
AvgCE: 複数の大規模モデルを入力して現在のテキストの表現を生成し、クロスエントロピーの加重平均に基づいて表現を出力します。

継続的なトレーニングフェーズでは、FuseLLM は融合表現をターゲットとして使用して融合損失を計算し、言語モデルの損失も保持します。最終的な損失関数は、融合損失と言語モデル損失の合計です。

実験結果

実験セクションでは、著者らは、ソースモデルの構造や機能に共通性がほとんどない、一般的ではあるが困難な大規模言語モデル融合シナリオを検討します。具体的には、70億規模の実験を行い、融合する大規模モデルとして、Llama-2、OpenLLaMA、MPTという3つの代表的なオープンソースモデルを選択しました。

著者らは、一般推論、常識推論、コード生成、テキスト生成、指示追従などのシナリオで FuseLLM を評価し、すべてのソースモデルおよび継続的トレーニングベースラインモデルと比較して大幅なパフォーマンスの向上が達成されたことを発見しました。

一般的な推論と常識的な推論

一般的な推論能力をテストする Big-Bench Hard Benchmark では、継続的なトレーニングの後、Llama-2 CLM は Llama-2 と比較して 27 のタスクで平均 1.86% の改善を達成しましたが、FuseLLM は Llama-2 と比較して 5.16% の改善を達成し、Llama-2 CLM を大幅に上回りました。これは、FuseLLM が複数の大規模言語モデルの利点を組み合わせてパフォーマンスの向上を実現できることを示しています。

常識的推論能力をテストする Common Sense Benchmark では、FuseLLM はすべてのソースモデルとベースラインモデルを上回り、すべてのタスクで最高のパフォーマンスを達成しました。

コード生成とテキスト生成

コード生成機能をテストする MultiPL-E ベンチマークでは、FuseLLM は 10 タスクのうち 9 タスクで Llama-2 を上回り、平均 6.36% のパフォーマンス向上を達成しました。 FuseLLM が MPT や OpenLLaMA を上回らない理由は、ターゲットの大規模言語モデルとして Llama-2 を使用しているためと考えられます。Llama-2 はコード生成能力が弱く、継続的なトレーニングコーパスにおけるコードデータの割合もわずか 7.59% 程度と低いためです。

知識質問応答 (TrivialQA)、読解 (DROP)、コンテンツ分析 (LAMBADA)、機械翻訳 (IWSLT2017)、定理適用 (SciBench) を測定する複数のテキスト生成ベンチマークでも、FuseLLM はすべてのタスクですべてのソースモデルを上回り、タスクの 80% で Llama-2 CLM を上回ります。

従うべき指示

FuseLLM は、融合のために複数のソースモデルの表現を抽出し、ターゲットモデルを継続的にトレーニングするだけでよいため、大規模言語モデルの命令の微調整の融合にも使用できます。命令追従機能を評価する Vicuna ベンチマークでも、FuseLLM はすべてのソースモデルと CLM を上回る優れたパフォーマンスを達成しました。

FuseLLM と Knowledge Distillation、Model Ensemble、Weight Merge の比較

知識蒸留は表現を使用して大規模言語モデルのパフォーマンスを向上させる方法でもあることを考慮して、著者らは FuseLLM を Llama-2 13B から蒸留された Llama-2 KD と比較しました。結果は、FuseLLM が、異なるアーキテクチャを持つ 3 つの 7B モデルを融合することで、単一の 13B モデルから抽出されたパフォーマンスを上回ることを示しています。

FuseLLM を既存の融合方法 (モデルアンサンブルや重みのマージなど) と比較するために、著者らは、複数のソースモデルが同じ構造を持つベースモデルから取得され、異なるコーパスで継続的にトレーニングされるシナリオをシミュレートし、さまざまなテストベンチマークでさまざまな方法の難しさについてテストしました。すべての融合技術は複数のソースモデルの利点を組み合わせることができますが、FuseLLM は最も低い平均パープレキシティを達成できることがわかります。これは、FuseLLM がモデルアンサンブルや重みマージ方法よりも効果的にソースモデルの集合的な知識を組み合わせる可能性があることを示しています。

最後に、コミュニティは現在、大規模モデルの融合に注目していますが、現在の実践は主に重みのマージに基づいており、異なる構造や規模のモデル融合シナリオに拡張することはできません。 FuseLLM は異種モデル融合に関する予備研究に過ぎませんが、現在のテクノロジーコミュニティには構造やスケールが異なる言語、視覚、音声、マルチモーダルの大規模モデルが多数存在することを考えると、今後これらの異種モデルの融合によってどのような驚くべきパフォーマンスが生み出されるのでしょうか。待って見てみましょう！

<<: 3D生成の中核理論の再構築：VAST、香港大学、清華大学が「ゼロ」のトレーニングデータで3Dモデルを生成

>>: ChatGPT 素晴らしいアップデート! @300万GPTをあなたのために働かせましょう