GPT-4 はハイブリッド大規模モデルを使用しますか?研究により、MoE+命令チューニングにより大規模モデルのパフォーマンスが向上することが証明された

GPT-4 の登場以来、優れた言語理解、生成、論理的推論など、その強力な創発能力に人々は驚嘆してきました。これらの機能により、GPT-4 は機械学習の分野で最も最先端のモデルの 1 つとなっています。しかし、OpenAI はまだ GPT-4 の技術的な詳細を明らかにしていません。

先月、George Hotz氏は、Latent SpaceというAI技術ポッドキャストのインタビューでGPT-4について言及し、GPT-4は実際にはハイブリッドモデルであると述べました。具体的には、ジョージ・ホッツ氏は、GPT-4 は 8 つのエキスパートモデルの統合システムを使用しており、各モデルには 2,200 億のパラメーター (GPT-3 の 1,750 億のパラメーターよりわずかに多い) があり、これらのモデルはさまざまなデータとタスクの分布に合わせてトレーニングされていると述べました。

Latent Spaceからのインタビューコンテンツ。

これはジョージ・ホッツの単なる推測かもしれませんが、このモデルには確かに合理性があります。最近、Google、カリフォルニア大学バークレー校、MITなどの研究者が共同で発表した論文では、専門家混合モデル（MoE）と命令チューニングを組み合わせることで、大規模言語モデル（LLM）のパフォーマンスを大幅に向上できることが確認されました。

写真

論文アドレス: https://arxiv.org/pdf/2305.14705.pdf

スパース専門家混合モデルは、推論コストを増やすことなく、大規模言語モデル (LLM) に学習可能なパラメータを追加できる特別なニューラルネットワークアーキテクチャです。命令チューニングは、LLM が命令に従うようにトレーニングするための手法です。この研究では、MoE モデルは密なモデルよりも命令チューニングの恩恵を受けることが判明したため、MoE と命令チューニングを組み合わせることが提案されています。

この研究は、以下の3つの実験設定で実証的に調査された。

命令のチューニングなしで単一のダウンストリームタスクを直接微調整します。
命令のチューニング後、下流のタスクに対してコンテキスト内少数ショットまたはゼロショットの一般化を実行します。
命令のチューニング後、個々のダウンストリームタスクに対してさらに微調整が実行されます。

最初のケースでは、MoE モデルは、同じ計算能力を持つ密なモデルよりも全体的に劣っています。ただし、命令チューニングを導入すると (2 番目と 3 番目のケース)、FLAN-MoE_32B (Fine-tuned LAnguage Net、略して Flan は命令チューニングモデル、Flan-MoE は命令チューニング MoE) は 4 つのベンチマークタスクで FLAN-PALM_62B よりも優れたパフォーマンスを発揮しますが、FLOP は 3 分の 1 しか使用しません。

下の図に示すように、命令チューニングを使用する前は、MoE→FT は T5→FT ほど良くありません。命令のチューニング後、Flan-MoE→FT は Flan-T5→FT よりも優れています。命令チューニングによる MoE ゲイン (+15.6) は、密なモデル (+10.2) よりも大きくなります。

写真

GPT-4 のハイブリッドモデルの採用はある程度正当化されているようで、MoE は確かに命令のチューニングからより大きなメリットを得ることができます。

写真

方法の概要

研究者らは、FLAN-MOE（指示によって微調整された専門家モデルのスパース混合セット）モデルでスパース活性化MoE（専門家の混合）を使用しました。さらに、他の Transformer レイヤーのフィードフォワードコンポーネントを MoE レイヤーに置き換えました。

各 MoE レイヤーは「エキスパート」として理解でき、これらのエキスパートはソフトマックス活性化関数を使用してモデル化され、確率分布を取得します。

各 MoE レイヤーには多くのパラメーターがありますが、エキスパートはまばらにアクティブ化されます。つまり、特定の入力トークンに対して、タスクを完了するために限られた専門家のサブセットのみが使用され、モデルの容量が大きくなります。

E 人のエキスパートを持つ MoE レイヤーの場合、これにより実質的に O (E^2) の異なるフィードフォワードネットワークの組み合わせが提供され、計算の柔軟性が向上します。

FLAN-MoE は命令調整モデルであるため、命令調整が非常に重要です。本研究では、FLAN データセットに基づいて FLAN-MOE を微調整します。さらに、本研究では、各 FLAN-MOE の入力シーケンス長を 2048 に、出力長を 512 に調整しました。

実験と分析

平均すると、Flan-MoE は追加の計算を行わずに、すべてのモデルスケールにわたって高密度版 (Flan-T5) よりも優れたパフォーマンスを発揮します。

写真

専門家の数。図 4 は、専門家の数が増えるにつれて、最初はモデルがより豊富な専門サブネットワークセットの恩恵を受け、それぞれのサブネットワークが問題空間内の異なるタスクや側面を処理できることを示しています。このアプローチにより、MoE は複雑なタスクを処理する際に高度な適応性と効率性を発揮し、全体的なパフォーマンスが向上します。ただし、専門家の数が増え続けると、モデルのパフォーマンスの向上は減少し始め、最終的には飽和点に達します。

写真

図 3 と表 1 は、さまざまなルーティング決定が命令チューニングのパフォーマンスにどのように影響するかを詳細に調査したものです。FLAN-Switch 戦略と FLAN-GS 戦略の比較では、より多くのエキスパートをアクティブ化すると、4 つのベンチマークすべてでパフォーマンスが向上することがわかります。これらのベンチマークでは、MMLU-Direct モデルが最も顕著な改善を示し、BASE/LARGE サイズモデルでは 38.0% から 39.9% に増加しました。

特に、命令のチューニングにより、同等の容量の高密度モデルと比較して、MMLU、BBH、内部 QA および推論ベンチマークを保持する際の MoE モデルのパフォーマンスが大幅に向上します。これらの利点は、より大きな MoE モデルではさらに増幅されます。たとえば、命令チューニングにより ST_32B のパフォーマンスは 45.2% 向上しますが、FLAN-PALM_62B の場合、向上率は比較的小さく、約 6.6% です。

モデル拡張を実行すると、Flan-MoE (Flan-ST-32B) は Flan-PaLM-62B よりも優れたパフォーマンスを発揮します。

写真

さらに、本研究では、特定のモデルのゲーティング関数、エキスパートモジュール、および MoE パラメータを固定していくつかの分析実験を実施しました。以下の表 2 に示すように、実験結果から、エキスパートモジュールまたは MoE コンポーネントをフリーズすると、モデルのパフォーマンスに悪影響が出ることがわかります。

対照的に、ゲーティング関数をフリーズすると、モデルのパフォーマンスがわずかに向上しますが、有意ではありません。研究者らは、この観察結果は FLAN-MOE の適合不足に関連していると推測している。この研究では、微調整データの効率を調査するためにアブレーション実験も実施しました。図 5 はアブレーション研究を示しています。

最後に、直接微調整MoEとFLAN-MOEのギャップを比較するために、この研究では、シングルタスク微調整MoE、シングルタスク微調整FLAN-MoE、および高密度モデルに関する実験を実施しました。結果を下の図6に示します。

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<: ビッグモデルの時代、周志華教授の「ラーニングウェア」の考え方を分析：小さなモデルでも大きなことができる

>>: AIによる教育革命：自己主導型およびガイド型適応型学習の包括的分析