GPT-4 の登場以来、優れた言語理解、生成、論理的推論など、その強力な創発能力に人々は驚嘆してきました。これらの機能により、GPT-4 は機械学習の分野で最も最先端のモデルの 1 つとなっています。しかし、OpenAI はまだ GPT-4 の技術的な詳細を明らかにしていません。 先月、George Hotz氏は、Latent SpaceというAI技術ポッドキャストのインタビューでGPT-4について言及し、GPT-4は実際にはハイブリッドモデルであると述べました。具体的には、ジョージ・ホッツ氏は、GPT-4 は 8 つのエキスパート モデルの統合システムを使用しており、各モデルには 2,200 億のパラメーター (GPT-3 の 1,750 億のパラメーターよりわずかに多い) があり、これらのモデルはさまざまなデータとタスクの分布に合わせてトレーニングされていると述べました。 Latent Spaceからのインタビューコンテンツ。 これはジョージ・ホッツの単なる推測かもしれませんが、このモデルには確かに合理性があります。最近、Google、カリフォルニア大学バークレー校、MITなどの研究者が共同で発表した論文では、専門家混合モデル(MoE)と命令チューニングを組み合わせることで、大規模言語モデル(LLM)のパフォーマンスを大幅に向上できることが確認されました。 写真 論文アドレス: https://arxiv.org/pdf/2305.14705.pdf スパース専門家混合モデルは、推論コストを増やすことなく、大規模言語モデル (LLM) に学習可能なパラメータを追加できる特別なニューラル ネットワーク アーキテクチャです。命令チューニングは、LLM が命令に従うようにトレーニングするための手法です。この研究では、MoE モデルは密なモデルよりも命令チューニングの恩恵を受けることが判明したため、MoE と命令チューニングを組み合わせることが提案されています。 この研究は、以下の3つの実験設定で実証的に調査された。
最初のケースでは、MoE モデルは、同じ計算能力を持つ密なモデルよりも全体的に劣っています。ただし、命令チューニングを導入すると (2 番目と 3 番目のケース)、FLAN-MoE_32B (Fine-tuned LAnguage Net、略して Flan は命令チューニング モデル、Flan-MoE は命令チューニング MoE) は 4 つのベンチマーク タスクで FLAN-PALM_62B よりも優れたパフォーマンスを発揮しますが、FLOP は 3 分の 1 しか使用しません。 下の図に示すように、命令チューニングを使用する前は、MoE→FT は T5→FT ほど良くありません。命令のチューニング後、Flan-MoE→FT は Flan-T5→FT よりも優れています。命令チューニングによる MoE ゲイン (+15.6) は、密なモデル (+10.2) よりも大きくなります。 写真 GPT-4 のハイブリッド モデルの採用はある程度正当化されているようで、MoE は確かに命令のチューニングからより大きなメリットを得ることができます。 写真 方法の概要研究者らは、FLAN-MOE(指示によって微調整された専門家モデルのスパース混合セット)モデルでスパース活性化MoE(専門家の混合)を使用しました。さらに、他の Transformer レイヤーのフィードフォワード コンポーネントを MoE レイヤーに置き換えました。 各 MoE レイヤーは「エキスパート」として理解でき、これらのエキスパートはソフトマックス活性化関数を使用してモデル化され、確率分布を取得します。 各 MoE レイヤーには多くのパラメーターがありますが、エキスパートはまばらにアクティブ化されます。つまり、特定の入力トークンに対して、タスクを完了するために限られた専門家のサブセットのみが使用され、モデルの容量が大きくなります。 E 人のエキスパートを持つ MoE レイヤーの場合、これにより実質的に O (E^2) の異なるフィードフォワード ネットワークの組み合わせが提供され、計算の柔軟性が向上します。 FLAN-MoE は命令調整モデルであるため、命令調整が非常に重要です。本研究では、FLAN データセットに基づいて FLAN-MOE を微調整します。さらに、本研究では、各 FLAN-MOE の入力シーケンス長を 2048 に、出力長を 512 に調整しました。 実験と分析平均すると、Flan-MoE は追加の計算を行わずに、すべてのモデル スケールにわたって高密度版 (Flan-T5) よりも優れたパフォーマンスを発揮します。 写真 専門家の数。図 4 は、専門家の数が増えるにつれて、最初はモデルがより豊富な専門サブネットワーク セットの恩恵を受け、それぞれのサブネットワークが問題空間内の異なるタスクや側面を処理できることを示しています。このアプローチにより、MoE は複雑なタスクを処理する際に高度な適応性と効率性を発揮し、全体的なパフォーマンスが向上します。ただし、専門家の数が増え続けると、モデルのパフォーマンスの向上は減少し始め、最終的には飽和点に達します。 写真 図 3 と表 1 は、さまざまなルーティング決定が命令チューニングのパフォーマンスにどのように影響するかを詳細に調査したものです。FLAN-Switch 戦略と FLAN-GS 戦略の比較では、より多くのエキスパートをアクティブ化すると、4 つのベンチマークすべてでパフォーマンスが向上することがわかります。これらのベンチマークでは、MMLU-Direct モデルが最も顕著な改善を示し、BASE/LARGE サイズ モデルでは 38.0% から 39.9% に増加しました。 特に、命令のチューニングにより、同等の容量の高密度モデルと比較して、MMLU、BBH、内部 QA および推論ベンチマークを保持する際の MoE モデルのパフォーマンスが大幅に向上します。これらの利点は、より大きな MoE モデルではさらに増幅されます。たとえば、命令チューニングにより ST_32B のパフォーマンスは 45.2% 向上しますが、FLAN-PALM_62B の場合、向上率は比較的小さく、約 6.6% です。 モデル拡張を実行すると、Flan-MoE (Flan-ST-32B) は Flan-PaLM-62B よりも優れたパフォーマンスを発揮します。 写真 さらに、本研究では、特定のモデルのゲーティング関数、エキスパートモジュール、および MoE パラメータを固定していくつかの分析実験を実施しました。以下の表 2 に示すように、実験結果から、エキスパート モジュールまたは MoE コンポーネントをフリーズすると、モデルのパフォーマンスに悪影響が出ることがわかります。 対照的に、ゲーティング関数をフリーズすると、モデルのパフォーマンスがわずかに向上しますが、有意ではありません。研究者らは、この観察結果は FLAN-MOE の適合不足に関連していると推測している。この研究では、微調整データの効率を調査するためにアブレーション実験も実施しました。図 5 はアブレーション研究を示しています。 最後に、直接微調整MoEとFLAN-MOEのギャップを比較するために、この研究では、シングルタスク微調整MoE、シングルタスク微調整FLAN-MoE、および高密度モデルに関する実験を実施しました。結果を下の図6に示します。 興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。 |
<<: ビッグモデルの時代、周志華教授の「ラーニングウェア」の考え方を分析:小さなモデルでも大きなことができる
>>: AIによる教育革命:自己主導型およびガイド型適応型学習の包括的分析
2019年11月21日〜22日、第一回ファーウェイ宜春市ビッグデータ・人工知能サミットフォーラムと宜...
データ分析と人工知能 (AI) 市場に関するニュースをフォローしている人なら誰でも、過去数年間で多く...
「グーグルには現在、先見の明のあるリーダーはいない。経営陣から上級副社長、副社長に至るまで、彼らは皆...
ニューロテクノロジーは人間の神経系の原理に基づいており、人間の脳の極めて複雑なモデル構造を研究するこ...
近年、Transformer に基づく大規模言語モデルは、驚くべきコンテキスト内学習 (ICL) 機...
非常にリアルで正確に制御可能な 3 次元の顔のモデリングは、デジタル ヒューマン構築における重要な課...
10月11日、アリババは2017年杭州雲奇大会で、人類のテクノロジーの未来を探求する実験室「大墨学院...
近年、協働ロボットはサイバー空間でよく使われる用語になりました。信頼性と効率性が厳しく問われているに...
「すべての開発者が平等かつ便利にAI機能にアクセスできるようにするのが、私たちのビジョンであり、コミ...
[[286629]]ビッグデータダイジェスト制作出典: techtalks編纂者:穆金、曹培鑫、銭...
ビッグデータ技術が今や世界の主要なマーケティングツールの 1 つになっていることは周知の事実です。 ...
科学技術の継続的な発展と革新が生産性の継続的な進歩を推進しています。産業革命以来、機械化された作業は...
人工知能は戦闘機を効果的に操縦できるのか?米空軍は、コードネームXQ-58ヴァルキリーという実験機で...
ゼブラテクノロジーズグレーターチャイナのテクニカルディレクター、チェン・ニン氏近年の人工知能(AI)...