Llama-2+Mistral+MPT=? 複数の異種大規模モデルの融合が驚くべき結果を示す

Llama-2+Mistral+MPT=? 複数の異種大規模モデルの融合が驚くべき結果を示す

LLaMA や Mistral などの大規模言語モデルの成功により、大手企業やスタートアップ企業は独自の大規模言語モデルを作成するようになりました。ただし、新しい大規模言語モデルを最初からトレーニングするコストは非常に高く、新しいモデルと古いモデルの間で機能に冗長性が生じる可能性があります。

最近、中山大学とテンセント AI ラボの研究者らが、「複数の異種の大規模モデルを融合」するために使用される FuseLLM を提案しました。

これまでのモデル統合や重みのマージとは異なり、前者は推論中に複数の大規模言語モデルを同時に展開する必要があり、後者はマージされたモデルが同じ結果を持つことを必要とします。FuseLLM は、複数の異種大規模言語モデルからの知識を外部化し、軽量の継続的なトレーニングを通じて、それぞれの知識と機能を融合された大規模言語モデルに転送できます。

論文がarXivで公開されるとすぐに、ネットユーザーから多くの注目とリポストが集まりました。


ある人は、「このアプローチは、別の言語でモデルをトレーニングしたいときに非常に興味深いものになるだろう」と考え、「私はこれについて考えていた」と言いました。


この論文はICLR 2024に採択されました。


  • 論文タイトル: 大規模言語モデルの知識融合
  • 論文アドレス: https://arxiv.org/abs/2401.10491
  • 論文リポジトリ: https://github.com/fanqiwan/FuseLLM

方法の紹介

FuseLLM の鍵は、確率分布表現の観点から大規模言語モデルの融合を探求することです。同じ入力テキストに対して、異なる大規模言語モデルによって生成された表現は、これらのテキストを理解する上での固有の知識を反映できると著者は考えています。そのため、FuseLLM は、まず複数のソースの大規模言語モデルを使用して表現を生成し、それらの集合的な知識とそれぞれの利点を外部化し、次に生成された複数の表現をそれぞれの長所と短所を活用して融合し、最後に軽量の継続的なトレーニングを通じてそれらをターゲットの大規模言語モデルに移行します。次の図は、FuseLLM アプローチの概要を示しています。

複数の異種大規模言語モデルのトークナイザーと語彙の違いを考慮すると、複数の表現を融合する際には、単語の分割結果をどのように調整するかが重要な問題となります。FuseLLM は、トークン レベルでの完全一致に加えて、最小編集距離に基づいて語彙レベルの調整を設計し、表現で利用可能な情報を最大限に保持します。

複数の大規模言語モデルの集合的な知識を、それぞれの長所を維持しながら組み合わせるためには、モデルによって生成された表現を融合するための慎重に設計された戦略が必要です。具体的には、FuseLLM は、生成された表現とラベル テキスト間のクロス エントロピーを計算することで、さまざまな大規模言語モデルによるテキストの理解を評価し、次に 2 つのクロス エントロピー ベースの融合関数を導入します。

  • MinCE: 複数の大規模モデルを入力して現在のテキストの表現を生成し、最小のクロスエントロピーを持つ表現を出力します。
  • AvgCE: 複数の大規模モデルを入力して現在のテキストの表現を生成し、クロスエントロピーの加重平均に基づいて表現を出力します。

継続的なトレーニング フェーズでは、FuseLLM は融合表現をターゲットとして使用して融合損失を計算し、言語モデルの損失も保持します。最終的な損失関数は、融合損失と言語モデル損失の合計です。

実験結果

実験セクションでは、著者らは、ソース モデルの構造や機能に共通性がほとんどない、一般的ではあるが困難な大規模言語モデル融合シナリオを検討します。具体的には、70億規模の実験を行い、融合する大規模モデルとして、Llama-2、OpenLLaMA、MPTという3つの代表的なオープンソースモデルを選択しました。

著者らは、一般推論、常識推論、コード生成、テキスト生成、指示追従などのシナリオで FuseLLM を評価し、すべてのソース モデルおよび継続的トレーニング ベースライン モデルと比較して大幅なパフォーマンスの向上が達成されたことを発見しました。

一般的な推論と常識的な推論

一般的な推論能力をテストする Big-Bench Hard Benchmark では、継続的なトレーニングの後、Llama-2 CLM は Llama-2 と比較して 27 のタスクで平均 1.86% の改善を達成しましたが、FuseLLM は Llama-2 と比較して 5.16% の改善を達成し、Llama-2 CLM を大幅に上回りました。これは、FuseLLM が複数の大規模言語モデルの利点を組み合わせてパフォーマンスの向上を実現できることを示しています。

常識的推論能力をテストする Common Sense Benchmark では、FuseLLM はすべてのソース モデルとベースライン モデルを上回り、すべてのタスクで最高のパフォーマンスを達成しました。

コード生成とテキスト生成

コード生成機能をテストする MultiPL-E ベンチマークでは、FuseLLM は 10 タスクのうち 9 タスクで Llama-2 を上回り、平均 6.36% のパフォーマンス向上を達成しました。 FuseLLM が MPT や OpenLLaMA を上回らない理由は、ターゲットの大規模言語モデルとして Llama-2 を使用しているためと考えられます。Llama-2 はコード生成能力が弱く、継続的なトレーニング コーパスにおけるコード データの割合もわずか 7.59% 程度と低いためです。

知識質問応答 (TrivialQA)、読解 (DROP)、コンテンツ分析 (LAMBADA)、機械翻訳 (IWSLT2017)、定理適用 (SciBench) を測定する複数のテキスト生成ベンチマークでも、FuseLLM はすべてのタスクですべてのソース モデルを上回り、タスクの 80% で Llama-2 CLM を上回ります。

従うべき指示

FuseLLM は、融合のために複数のソース モデルの表現を抽出し、ターゲット モデルを継続的にトレーニングするだけでよいため、大規模言語モデルの命令の微調整の融合にも使用できます。命令追従機能を評価する Vicuna ベンチマークでも、FuseLLM はすべてのソース モデルと CLM を上回る優れたパフォーマンスを達成しました。

FuseLLM と Knowledge Distillation、Model Ensemble、Weight Merge の比較

知識蒸留は表現を使用して大規模言語モデルのパフォーマンスを向上させる方法でもあることを考慮して、著者らは FuseLLM を Llama-2 13B から蒸留された Llama-2 KD と比較しました。結果は、FuseLLM が、異なるアーキテクチャを持つ 3 つの 7B モデルを融合することで、単一の 13B モデルから抽出されたパフォーマンスを上回ることを示しています。

FuseLLM を既存の融合方法 (モデル アンサンブルや重みのマージなど) と比較するために、著者らは、複数のソース モデルが同じ構造を持つベース モデルから取得され、異なるコーパスで継続的にトレーニングされるシナリオをシミュレートし、さまざまなテスト ベンチマークでさまざまな方法の難しさについてテストしました。すべての融合技術は複数のソース モデルの利点を組み合わせることができますが、FuseLLM は最も低い平均パープレキシティを達成できることがわかります。これは、FuseLLM がモデル アンサンブルや重みマージ方法よりも効果的にソース モデルの集合的な知識を組み合わせる可能性があることを示しています。

最後に、コミュニティは現在、大規模モデルの融合に注目していますが、現在の実践は主に重みのマージに基づいており、異なる構造や規模のモデル融合シナリオに拡張することはできません。 FuseLLM は異種モデル融合に関する予備研究に過ぎませんが、現在のテクノロジー コミュニティには構造やスケールが異なる言語、視覚、音声、マルチモーダルの大規模モデルが多数存在することを考えると、今後これらの異種モデルの融合によってどのような驚くべきパフォーマンスが生み出されるのでしょうか。待って見てみましょう!

<<:  3D生成の中核理論の再構築:VAST、香港大学、清華大学が「ゼロ」のトレーニングデータで3Dモデルを生成

>>:  ChatGPT 素晴らしいアップデート! @300万GPTをあなたのために働かせましょう

ブログ    

推薦する

なぜディープラーニングには局所最小値がないのでしょうか?

この記事では主に定量的な質問に答えます。定量的な問題には主に次のような状況が含まれます。 「私の知る...

2020年に注目すべき10のAIトレンド

来年、AI テクノロジーと市場はどのように進化するのでしょうか? 主要な AI トレンドとしては、エ...

人工知能時代の雇用問題と解決策

人工知能(AI)は現在、頻繁に使われる言葉であり、一般的には、もう一つの総合的な技術革命、つまり「第...

貧弱なメモ帳でもマイクロソフトのAIの影響を受けないわけではない

Windows Insider ユーザーが投稿したスクリーンショットから判断すると、Windows ...

AI、5G、エッジテクノロジーが製造業をリード

オフィスから作業場、製品に至るまで、製造業はテクノロジーで溢れており、コネクテッドエコノミーの導入に...

人工知能 (AI) プロジェクトの失敗: 人材不足に対処する方法

適切な技術人材の採用は、企業組織による人工知能 (AI) の導入に対する大きな障壁となっています。最...

シリコンバレーのAI界で注目の記事:ジャスパーとVCはAIGCブームの最大の敗者となり、潮が引いた後に初めて誰が裸で泳いでいるかがわかる

この夏、人工知能起業家サム・ホーガンが書いた記事がシリコンバレー中で話題になった。現在、AI と大規...

AIがコンピューティングをエッジに押し上げる

[[408175]]ここ数年の流行語といえば、エッジ コンピューティングは 5G や AI と密接に...

ロボティック プロセス オートメーションの 10 大メリット

ロボティック プロセス オートメーション (RPA) ソリューションは、人間が日常的に実行する多くの...

ドローンのパフォーマンスはどんどん標準化されつつありますが、この4つの点はまだ改善が必要です。

近年、飛行制御、ナビゲーション、通信などの技術が継続的に進歩し、私たちの生産や生活におけるドローンの...

AIが「テクノロジー冬季オリンピック」を支援、UBTECHロボティクスが氷と雪の世界に進出

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ディープラーニング、ノイズ除去オートエンコーダを使用して生データを予測する方法は?

[[214638]]ノイズ除去オートエンコーダー (DAE) は、破損したデータを入力として受け入...

ディープラーニング GPU の最も包括的な比較: コスト パフォーマンスの点で最も優れているのはどれですか?

AI に関して言えば、「GPU の混乱」を感じない人はいないでしょう。 Tensor コア、メモリ...

...