GPT-4 はハイブリッド大規模モデルを使用しますか?研究により、MoE+命令チューニングにより大規模モデルのパフォーマンスが向上することが証明された

GPT-4 はハイブリッド大規模モデルを使用しますか?研究により、MoE+命令チューニングにより大規模モデルのパフォーマンスが向上することが証明された

GPT-4 の登場以来、優れた言語理解、生成、論理的推論など、その強力な創発能力に人々は驚嘆してきました。これらの機能により、GPT-4 は機械学習の分野で最も最先端のモデルの 1 つとなっています。しかし、OpenAI はまだ GPT-4 の技術的な詳細を明らかにしていません。

先月、George Hotz氏は、Latent SpaceというAI技術ポッドキャストのインタビューでGPT-4について言及し、GPT-4は実際にはハイブリッドモデルであると述べました。具体的には、ジョージ・ホッツ氏は、GPT-4 は 8 つのエキスパート モデルの統合システムを使用しており、各モデルには 2,200 億のパラメーター (GPT-3 の 1,750 億のパラメーターよりわずかに多い) があり、これらのモデルはさまざまなデータとタスクの分布に合わせてトレーニングされていると述べました。

Latent Spaceからのインタビューコンテンツ。

これはジョージ・ホッツの単なる推測かもしれませんが、このモデルには確かに合理性があります。最近、Google、カリフォルニア大学バークレー校、MITなどの研究者が共同で発表した論文では、専門家混合モデル(MoE)と命令チューニングを組み合わせることで、大規模言語モデル(LLM)のパフォーマンスを大幅に向上できることが確認されました。

写真

論文アドレス: https://arxiv.org/pdf/2305.14705.pdf

スパース専門家混合モデルは、推論コストを増やすことなく、大規模言語モデル (LLM) に学習可能なパラメータを追加できる特別なニューラル ネットワーク アーキテクチャです。命令チューニングは、LLM が命令に従うようにトレーニングするための手法です。この研究では、MoE モデルは密なモデルよりも命令チューニングの恩恵を受けることが判明したため、MoE と命令チューニングを組み合わせることが提案されています。

この研究は、以下の3つの実験設定で実証的に調査された。

  • 命令のチューニングなしで単一のダウンストリーム タスクを直接微調整します。
  • 命令のチューニング後、下流のタスクに対してコンテキスト内少数ショットまたはゼロショットの一般化を実行します。
  • 命令のチューニング後、個々のダウンストリーム タスクに対してさらに微調整が実行されます。

最初のケースでは、MoE モデルは、同じ計算能力を持つ密なモデルよりも全体的に劣っています。ただし、命令チューニングを導入すると (2 番目と 3 番目のケース)、FLAN-MoE_32B (Fine-tuned LAnguage Net、略して Flan は命令チューニング モデル、Flan-MoE は命令チューニング MoE) は 4 つのベンチマーク タスクで FLAN-PALM_62B よりも優れたパフォーマンスを発揮しますが、FLOP は 3 分の 1 しか使用しません。

下の図に示すように、命令チューニングを使用する前は、MoE→FT は T5→FT ほど良くありません。命令のチューニング後、Flan-MoE→FT は Flan-T5→FT よりも優れています。命令チューニングによる MoE ゲイン (+15.6) は、密なモデル (+10.2) よりも大きくなります。

写真

GPT-4 のハイブリッド モデルの採用はある程度正当化されているようで、MoE は確かに命令のチューニングからより大きなメリットを得ることができます。

写真

方法の概要

研究者らは、FLAN-MOE(指示によって微調整された専門家モデルのスパース混合セット)モデルでスパース活性化MoE(専門家の混合)を使用しました。さらに、他の Transformer レイヤーのフィードフォワード コンポーネントを MoE レイヤーに置き換えました。

各 MoE レイヤーは「エキスパート」として理解でき、これらのエキスパートはソフトマックス活性化関数を使用してモデル化され、確率分布を取得します。

各 MoE レイヤーには多くのパラメーターがありますが、エキスパートはまばらにアクティブ化されます。つまり、特定の入力トークンに対して、タスクを完了するために限られた専門家のサブセットのみが使用され、モデルの容量が大きくなります。

E 人のエキスパートを持つ MoE レイヤーの場合、これにより実質的に O (E^2) の異なるフィードフォワード ネットワークの組み合わせが提供され、計算の柔軟性が向上します。


FLAN-MoE は命令調整モデルであるため、命令調整が非常に重要です。本研究では、FLAN データセットに基づいて FLAN-MOE を微調整します。さらに、本研究では、各 FLAN-MOE の入力シーケンス長を 2048 に、出力長を 512 に調整しました。

実験と分析

平均すると、Flan-MoE は追加の計算を行わずに、すべてのモデル スケールにわたって高密度版 (Flan-T5) よりも優れたパフォーマンスを発揮します。

写真

専門家の数。図 4 は、専門家の数が増えるにつれて、最初はモデルがより豊富な専門サブネットワーク セットの恩恵を受け、それぞれのサブネットワークが問題空間内の異なるタスクや側面を処理できることを示しています。このアプローチにより、MoE は複雑なタスクを処理する際に高度な適応性と効率性を発揮し、全体的なパフォーマンスが向上します。ただし、専門家の数が増え続けると、モデルのパフォーマンスの向上は減少し始め、最終的には飽和点に達します。

写真

図 3 と表 1 は、さまざまなルーティング決定が命令チューニングのパフォーマンスにどのように影響するかを詳細に調査したものです。FLAN-Switch 戦略と FLAN-GS 戦略の比較では、より多くのエキスパートをアクティブ化すると、4 つのベンチマークすべてでパフォーマンスが向上することがわかります。これらのベンチマークでは、MMLU-Direct モデルが最も顕著な改善を示し、BASE/LARGE サイズ モデルでは 38.0% から 39.9% に増加しました。

特に、命令のチューニングにより、同等の容量の高密度モデルと比較して、MMLU、BBH、内部 QA および推論ベンチマークを保持する際の MoE モデルのパフォーマンスが大幅に向上します。これらの利点は、より大きな MoE モデルではさらに増幅されます。たとえば、命令チューニングにより ST_32B のパフォーマンスは 45.2% 向上しますが、FLAN-PALM_62B の場合、向上率は比較的小さく、約 6.6% です。

モデル拡張を実行すると、Flan-MoE (Flan-ST-32B) は Flan-PaLM-62B よりも優れたパフォーマンスを発揮します。

写真

さらに、本研究では、特定のモデルのゲーティング関数、エキスパートモジュール、および MoE パラメータを固定していくつかの分析実験を実施しました。以下の表 2 に示すように、実験結果から、エキスパート モジュールまたは MoE コンポーネントをフリーズすると、モデルのパフォーマンスに悪影響が出ることがわかります。

対照的に、ゲーティング関数をフリーズすると、モデルのパフォーマンスがわずかに向上しますが、有意ではありません。研究者らは、この観察結果は FLAN-MOE の適合不足に関連していると推測している。この研究では、微調整データの効率を調査するためにアブレーション実験も実施しました。図 5 はアブレーション研究を示しています。

最後に、直接微調整MoEとFLAN-MOEのギャップを比較するために、この研究では、シングルタスク微調整MoE、シングルタスク微調整FLAN-MoE、および高密度モデルに関する実験を実施しました。結果を下の図6に示します。

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<:  ビッグモデルの時代、周志華教授の「ラーニングウェア」の考え方を分析:小さなモデルでも大きなことができる

>>:  AIによる教育革命:自己主導型およびガイド型適応型学習の包括的分析

ブログ    

推薦する

設計原則、テスト指標...顔アルゴリズムテストのハードコアスキルを体系的に整理

ビジュアル AI 分野の開発者にとって、適切なアルゴリズムを選択することはプロジェクトの戦いの半分を...

Google Cloud が AI を活用したパーソナライズされたおすすめ商品をオンライン小売業者向けに提供開始

海外メディアの報道によると、1月22日、Google Cloudは、世界中の小売業者が電子商取引機能...

...

...

WeChatロボットの長期無料導入、初心者でも簡単にAIを始められる

以前、ローカルで WeChat ロボットを構築する方法を紹介しました。昨日、クラスメートから、ローカ...

...

マイクロソフトは、重大なセキュリティ脆弱性を97%の精度で特定できるAIシステムを開発した。

Microsoft は、テストにおいてセキュリティ脆弱性と非セキュリティ脆弱性を 99% の精度で...

Pythonアルゴリズムを使用して取引する方法

投資管理会社でシステム開発エンジニアとして働いていたとき、定量金融で成功するには、数学、プログラミン...

...

ディープラーニングの父、ヒントン:次世代ニューラルネットワーク

ディープラーニングの父ヒントン氏:次世代ニューラルネットワーク SIGIRは、情報検索の分野における...

Zhiyuan が世界最大の中国語と英語のベクトルモデルトレーニングデータセットをリリースしました。最大3億のテキストペアまで拡張可能

9月15日、北京人工知能産業サミットおよび中関村科学城科学技術イノベーションコンテスト授賞式において...

グラフ最適化のためのエンドツーエンドの転送可能な深層強化学習

[[425806]]多様なアクセラレータ セットでトレーニングされた大規模で複雑なニューラル ネット...

陳作寧院士:人工知能モデルとアルゴリズムの7つの発展傾向

新しいものに直面したとき、あなたはそれに適応しますか、学びますか、拒否しますか、それとも無視しますか...

Nature: 科学者がディープラーニングを使って初めて人間の意識を定量化

今、科学者たちは人間の意識について新たな理解を得ています!この研究では、ディープラーニングアルゴリズ...

1つのモデルが12種類のAI詐欺を打ち破り、あらゆる種類のGANとディープフェイクを打ち破り、オープンソース化

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...