DeepMind と Mamba の中国人著者が、Transformer という革新的な作品を発表!パフォーマンスはLlama 2に匹敵するほど劇的に向上し、推論のエネルギー効率も大幅に改善されました。

DeepMind と Mamba の中国人著者が、Transformer という革新的な作品を発表!パフォーマンスはLlama 2に匹敵するほど劇的に向上し、推論のエネルギー効率も大幅に改善されました。

トランスフォーマーが再び挑戦!

今回の挑戦者は有名な Google DeepMind 社で、同社は Hawk と Griffin という 2 つの新しいアーキテクチャを同時にリリースしました。

論文アドレス: https://arxiv.org/abs/2402.19427

ゲート付き線形 RNN とローカル アテンションを組み合わせたこの新しいモデル アーキテクチャは、非常に優れたパフォーマンスを発揮します。

まず、線形 RNN アーキテクチャも使用する Griffin は、トレーニング データの半分を使用したすべての評価において、以前に人気があった Mamba よりも優れたパフォーマンスを発揮します。

さらに重要なことは、グリフィンがモデルを 14B に拡張し、マンバがやりたかったができなかったことを実現したことです。

第二に、Transformer アーキテクチャに基づくモデルに関しては、Griffin は 1/6 のトレーニング データで、同じ数のパラメーターを持つ Llama 2 と同等か、さらにはそれを上回ることができます。

同時に、このモデルは非常に長いコンテキストを活用して予測を向上させることができ、線形 RNN がトレーニングに使用されたシーケンスの長さをはるかに超えて一般化できることを実証しています。

さらに、チームは、この組み合わせたアーキテクチャが、長いコンテキストからのトークンのコピーや取得など、合成タスクにおける Transformer の多くの機能を保持していることを実証しました。

記事の共同筆頭著者は、Griffin の新しいモデル アーキテクチャは非常に効率的であり、線形 RNN の効率性の利点と Transformer の表現力とスケーラビリティをすべて組み合わせていると興奮気味にツイートしました。

Twitter の写真も非常に興味深いです。マンバが自分のパイソンでトランスフォーマーに挑んでいる写真を覚えていますか?今回、グリフィンはCポジションを獲得し、トラックでトップに立った。

グリフィンの方がマンバにダメージを与えている気がします。結局、鷲が蛇を捕まえるのですから...

しかし、これは単なる冗談です。Mamba の作者である Albert Gu もこの記事の著者の一人であることがわかるので、世界中のすべての線形 RNN が同じファミリーに属している可能性があります。

話を元に戻すと、Transformer は現在市場を独占していますが、その二次計算とストレージのオーバーヘッドは科学研究と産業に大きなプレッシャーを与えています (Huang の資金源にはなっていますが...)。

誰もが最適化に懸命に取り組んでいた一方で(Mamba のもう一人の作者である Tri Dao が開発した FlashAttention シリーズなど)、別の方法も模索していたため、Transformer に挑戦するこれらのアーキテクチャが誕生しました。

——本当に効果があるなら、「Attention Is All You Need」のように歴史に残るでしょう。

最近人気を集めているいくつかの有名な研究は、RWKV、Mamba、そして今日のHawkとGriffinなど、線形RNNに関連しています。

リカレント ニューラル ネットワーク (RNN) は、推論オーバーヘッドが線形であり、トランスフォーマーに比べて計算とストレージの面で自然な利点があるため、長いシーケンス データの処理で優れたパフォーマンスを発揮します。

しかし、RNN シリーズは、メモリと選択的な情報抽出の点で Transformer と比較して根本的な欠点があるため、現在のタスクではあまり表現力がありません。

さらに、構造上の問題により、大規模な RNN のトレーニングは非常に困難です。

この目的のために、研究者らは、ゲート付き線形サイクルを使用する RNN である Hawk と、ゲート付き線形フィードバックとローカル アテンション メカニズムを組み合わせたハイブリッド モデルである Griffin を提案しました。

まず、研究者らは、新しいゲート線形再帰層である RG-LRU 層を提案し、その周りに MQA に代わる新しい再帰ブロックを設計しました。

その後、研究者たちはこの再帰ブロックに基づいて、Hawk(MLP と再帰ブロックを組み合わせたもの)と Griffin(MLP と再帰ブロックおよびローカルアテンションを組み合わせたもの)という 2 つの新しいモデルを構築しました。

具体的には:

1. Hawk モデルと Griffin モデルは、パラメータ数が 70 億を超えた場合でも、トレーニング FLOP と保持損失に関して Transformer モデルと同様のべき乗則スケーリング関係を示します (図 1(a))。

2. すべてのモデル サイズにおいて、Griffin の保持損失は、強力な Transformer ベースラインよりもわずかに低くなります。

3. Hawk モデルと Griffin モデルは、さまざまなスケールで 300B トークンを使用してトレーニングされました。一連のダウンストリーム タスクでは、Hawk は 2 倍のトークンでトレーニングされた Mamba モデルよりも優れたパフォーマンスを発揮し、Griffin は 6 倍のトークンでトレーニングされた Llama-2 に匹敵します。

4. TPU-v3 では、Hawk と Griffin は Transformers に匹敵するトレーニング効率を実現します。研究者たちは、Pallas の RG-LRU レイヤー カーネルを設計することで、メモリ転送を最小限に抑えながら、対角 RNN レイヤーのメモリ制限によって生じる課題を克服しました。

5. 推論フェーズでは、Hawk と Griffin は MQA Transformers よりもスループットが大幅に高く (図 1(b))、長いシーケンスを処理する際のレイテンシが低くなります。

6. Griffin は、トレーニング中には見ら​​れなかった長いシーケンスを処理する際に Transformer よりも優れたパフォーマンスを発揮し、トレーニング データからコピーおよび取得タスクを効率的に学習することもできます。ただし、事前トレーニング済みモデルを微調整せずにコピーおよび正確な検索タスクの評価に直接使用すると、Hawk と Griffin のパフォーマンスは Transformer よりも悪くなります。

モデルアーキテクチャ

すべてのモデルには、(1)残差ブロック、(2)MLPブロック、(3)時間混合ブロックという3つのコア部分が含まれています。

残差ブロックと MLP ブロックはすべてのモデルで同じですが、時間混合ブロックには 3 つの異なる実装があります。

1. グローバルマルチクエリアテンション(MQA)

2. ローカル(スライディングウィンドウ)MQA

3. 研究者が提案したループブロック。

リカレント ブロックでは、研究者らは線形リカレント ユニットにヒントを得た新しいタイプのリカレント レイヤー、Real Gated Linear Recurrent Unit (RG-LRU) を提案しました。

図 2(a) に示すように、モデルのグローバル構造は残差ブロックによって定義され、その設計は事前正規化トランスフォーマー アーキテクチャにヒントを得ています。

まず、入力シーケンスが埋め込まれ、次に 𝑁 個の残差ブロックを通過します (ここで 𝑁 はモデルの深さを表します)。その後、RMSNorm が適用され、最終的なアクティベーションが生成されます。

トークンの確率を計算するために、研究者は最後に線形層とソフトマックス関数を追加しました。この線形層の重みは入力埋め込み層と共有されることに留意してください。

Transformerのように拡張可能

スケーリング研究では、3 つの異なるモデルを評価し、70 億のパラメータまでのパフォーマンスとそれを超えるパフォーマンスを示します。

1. MQAトランスフォーマーベースラインモデル

残差モードとゲート MLP ブロックが使用され、MQA と RoPE 技術が組み合わされます。

2. ホークモデル

Hawk は MQA Transformer と同じ残差パターンと MLP ブロック設計に従いますが、時間混合部分に MQA の代わりに新しい再帰ブロック (RG-LRU レイヤーを含む) を採用しています。リカレントブロックの幅を約3/4に拡張することで、パラメータ数はマルチヘッドアテンションブロックとほぼ同等のレベルに達し、モデル次元𝐷の設定と一致します。

3. グリフィンモデル

Griffin の大きな利点は、グローバル アテンション メカニズムと比較して、MQA のように KV キャッシュをシーケンスの長さに応じて線形に増加させるのではなく、固定状態サイズでシーケンスを要約することです。ローカルアテンションにも同じ特性があるため、再帰ブロックとローカルアテンションを組み合わせることで、この利点を維持できます。ローカルアテンションは最新の情報を正確にモデル化でき、リカレントレイヤーは長いシーケンスにわたって情報を転送できるため、この組み合わせは非常に効果的であることがわかりました。

Griffin は、Transformer ベースラインと同じ残差モデルと MLP ブロックを使用しますが、再帰ブロックと MQA ブロックの混合を採用している点で上記の 2 つのモデルとは異なります。具体的には、研究者らは、2 つの残差ブロックと 1 つの再帰ブロックを交互に使用し、次にローカル アテンション メカニズムに基づいて残差ブロックを使用する階層構造を設計しました。通常、ローカル アテンションのウィンドウ サイズは 1024 トークンです。

大規模並列トレーニング

モデルのサイズが大きくなると、デバイスごとにバッチ サイズが 1 であっても、トレーニング中にモデルを 1 台のデバイスに収めることができなくなります。

そのため、トレーニング中、著者はモデルの並列処理を使用して、大規模なモデルをデバイス間で分割します。異なるトレーニング デバイス間の通信にはコストがかかるため、大規模な高速トレーニングにはモデルを効果的にシャーディングすることが重要です。

ゲート付き MLP の場合、ここではメガトロン スタイルのシャーディング (つまり、テンソル並列処理) が使用され、前方パスと後方パスの両方で all-reduce 操作を実行する必要があります。同じ戦略をアテンション ブロックの線形レイヤーに適用して、複数のヘッドを異なるデバイスに割り当てることもできます。

再帰ブロックには、ブランチごとに 2 つの線形レイヤーが含まれます。したがって、メガトロンのシャーディング方式も効率的に適用できます。 Conv1D レイヤーはチャネル間で独立して動作し、そのパラメーターは通信オーバーヘッドを発生させることなくデバイス間で分割できます。

追加のデバイス間通信を回避するために、研究者は密な行列の代わりに RG-LRU のゲートにブロック対角重み (以下の式 1 と 2) を使用します。

本論文のすべての実験において、著者らは再帰ゲートおよび入力ゲートとして 16 個のブロックを使用しました。再帰の対角構造には Conv1D と同じ利点があり、通信なしでパラメータの分割と計算が可能になります。この戦略を使用すると、ループ ブロックの通信要件は MLP ブロックの通信要件と同じになります。

さらに、オプティマイザー (Adam など) の状態パラメーターは、モデル パラメーター自体のサイズを超えて、大量のメモリを消費する可能性があります。

この問題に対処するために、研究者らは ZeRO を採用し、さらに bfloat16 を使用してモデル パラメーターとアクティベーションを表現し、データ転送のオーバーヘッドを最小限に抑えました。

上の図は、シーケンス長が 2K の MQA をベースラインとして使用し、Griffin と MQA のトレーニング時間を示しています。ここでは、さまざまなモデル サイズとシーケンス長がテストされています。

シーケンスの長さが長くなると、実験ではバッチ サイズが比例して縮小され、各バッチ内のトークンの合計数は一定に保たれます。

畳み込みスキャンや相関スキャンを使用しないのはなぜですか?

線形 RNN モデルの利点の 1 つは、計算の連想的な性質から生まれる高い並列性であり、畳み込みまたはプレフィックス合計アルゴリズム (関連スキャン) を通じてデバイス上で効率的に実行できます。

ただし、RG-LRU のゲーティング メカニズムは畳み込みビューと互換性がありません。原理的には連想スキャンを使用して必要な FLOP 数を削減することは可能ですが、実際には主なボトルネックとなるメモリ オーバーヘッドは削減されません。

経験的に、TPU-v3 では、関連付けスキャンはネイティブ Jax 線形スキャンよりも大幅に遅くなります。著者らは、並列プレフィックスサムアルゴリズムのツリー再構成のランダムアクセスの性質が TPU アーキテクチャに適しておらず、その結果メモリ転送が遅くなるのではないかと推測しています。

推論速度

推論速度を評価する際に考慮すべき主な指標が 2 つあります。

1 つ目はレイテンシです。これは、特定のバッチ サイズで指定された数のトークンを生成するのにかかる時間を測定します。 2 つ目はスループットです。これは、指定された数のトークンをサンプリングするときに、単一のデバイスで 1 秒あたりに生成できるトークンの最大数を測定します。

スループットはトークンのサンプリング、バッチ サイズ、レイテンシに関連しているため、レイテンシを削減するかメモリ使用量を削減することでスループットを向上させ、デバイスでより大きなバッチ サイズを使用できるようになります。

高速な応答時間を必要とするリアルタイム アプリケーションの場合、レイテンシを考慮する必要があります。人間のフィードバックによる強化学習 (RLHF) や言語モデル出力のスコアリングなど、他の言語アプリケーションを検討する場合、スループットは重要です。

ここでは、MQA (Transformer) をベースラインとして、サイズ 1B のパラメータを持つモデルの推論結果をテストします。 MQA は、文献でよく使用される標準の MHA よりも推論プロセスがはるかに高速です。

比較対象となるモデルは、MQA Transformer、Hawk、Griffin です。

図 4 は、バッチ サイズが 16、事前入力されてから空、または 4096 トークンの場合のモデルのレイテンシを比較しています。長いシーケンスの場合、Hawk と Griffin は MQA Transformer よりもサンプル遅延が速くなります。

これは、シーケンス長とプリフィル長 (KV キャッシュのサイズに影響します) が増加する場合に特に顕著になります。 Griffin は Hawk と同様のレイテンシを実現し、線形 RNN とローカル アテンションの優れた互換性を実証しています。

次に研究者らは、空のプロンプトで 512、1024、2048、4196 トークンをサンプリングしたときの同じモデルの最大スループット (トークン/秒) を比較しました。

上の図に示すように、Griffin と Hawk の両方のスループットが MQA Transformer のベースラインよりも大幅に高いことがわかります。

これは、反復モデルのレイテンシが低いことが一因ですが、Griffin と Hawk はキャッシュが小さいため、MQA Transformer よりも単一のデバイスで大きなバッチ サイズに対応できることも大きな理由です。

バッチ サイズが大きい場合、ローカル アテンション バッファのサイズが最終的にパラメータのサイズと同程度になるため、Hawk は Griffin よりも高いスループットを実現します。

ユーザーコメント

この論文の結果は重要であるが、一部のネットユーザーは納得しておらず、この論文のモデルとMambaの比較が「公平」であるかどうか疑問視している。

「この論文は、LLM 研究における大きな問題を示しています。彼らは、より少ないトークンで Mamba よりも優れたパフォーマンスを発揮すると主張しています。しかし、セクション 3.2 になって初めて、彼らはトレーニングに Mamba とはまったく異なるデータセットを使用していることを認めています。」

「実はデータこそが最も大切なので、パフォーマンスの比較は無意味です。まったく無意味です。科学的な結論や洞察は得られません…」

陰謀論から導き出されたモデルが受け入れられないケースもあります。

「ディープマインドがこのような研究を発表する動機は何でしょうか? 彼らがOpenAIとの競争で優位に立ちたいのであれば、何かクールな新しいアーキテクチャを発見したとしても、それを秘密にしておくでしょう。」

「これは、これらの結果が現時点では良好であるが、競争上の優位性を提供するという点で革命的となるほど十分ではないことを意味するのでしょうか?」

嵐の後の結末はどうなるでしょうか? 時の経過を待ちましょう。

著者について

アルバート・グ

アルバート・グーは、以前人気があったマンバアーキテクチャの作者でもある。

2015 年、アルバート・グーはカーネギーメロン大学 (CMU) でコンピューターサイエンスと数学の二重学士号を取得しました。

その後、スタンフォード大学でコンピューターサイエンスを専攻し、現在はCMUで助教授を務めています。

アルバート・グーは2011年にFacebookでソフトウェアエンジニアリングのインターンとして働き、2015年には英国ロンドンのJump Tradingでアルゴリズム取引のインターンとして働きました。

2019 年、Albert Gu 氏は DeepMind で研究科学者インターンとしてインターンをしました。

彼の研究対象は次のとおりです。

構造化線形表現を含む機械学習のための構造化表現。

代数と埋め込み、シーケンス モデルの分析と設計。

長期コンテキストの非ユークリッド表現学習について。

近年、Albert Gu は ICML、ICLR、NeurlPS などのトップ AI カンファレンスで、引用数の多い論文を多数発表しています。

ソハム・デ

論文の共著者であるソーハム・デ氏は、Google DeepMindの研究科学者であり、大規模なディープラーニングのより深い理解とパフォーマンスの向上に注力しています。

以前は、2018年にメリーランド大学でDana Nau教授とTom Goldstein教授の指導の下、主に機械学習の問題に対する高速確率的最適化アルゴリズムを研究して博士号を取得しました。

サミュエル・L・スミス

サミュエルはケンブリッジ大学で学士、修士、博士の学位を取得しました。2016 年に理論物理学の博士号を取得し、その後 Google Brain と DeepMind で働きました。

ジョージ・クリスティアン・ムラール

論文の共著者であるジョージ・クリスチャン・ムラール氏も、Google DeepMindのソフトウェアエンジニアです。Googleで働く前は、ブルームバーグでプログラマーとして働いていました。

アレクサンダル・ボテフ

論文の共著者であるアレクサンダル・ボテフ氏は、ユニバーシティ・カレッジ・ロンドンを卒業し、機械学習の修士号とディープラーニングの博士号を取得しています。彼は OpenAI と Google DeepMind でインターンをし、2019 年に研究科学者として DeepMind に入社しました。

<<: 

>>:  Mac専用の大型モデルフレームワークが登場! 2行のコードでデプロイでき、ローカルデータとチャットでき、中国語もサポートしています

ブログ    
ブログ    
ブログ    

推薦する

Tableau の 157 億ドルの買収の背後にある、50 ページの詳細なレポートが BI の未来を明らかにする

レポート概要BIビジネスインテリジェンスの核心は、意思決定の価値を反映することです。 • 企業のデジ...

ちょうど今、ビートルズはAIがプロデュースした「最後の」新曲をリリースした。

音楽に詳しい友人なら、ビートルズを知らない人はいないでしょう。ビートルズは、歴史上最も偉大で最も影響...

メタバースは過大評価されてきたが、2050年までにAIによって現実のものとなる

メタバースの概念が誇張され、まるでそれが本当に存在するかのように人々が話していることは間違いありませ...

人間の審判が解雇される?冬季オリンピックのテストマッチで選手の得点をつけた人物はAIだった

2021年の欧州選手権でイングランドはデンマークを破り、初めて欧州選手権決勝に進出した。歴史に名を残...

米国はドローンに「ナンバープレート」を発行する

[[373346]]米国連邦航空局(FAA)は月曜日、小型ドローンの夜間飛行を許可すると発表した。新...

南京大学の周志華氏と清華大学の胡世民氏が学者候補に選出されました!コンピュータ分野合計7名

[[414852]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

CPU、GPU、NPU、FPGA はディープラーニングでどのように優位性を発揮するのでしょうか?

AIの応用が広まるにつれ、ディープラーニングは現在のAI研究と応用の主流の方法となっています。膨大...

...

...

...

2024年に期待するAI関連ニュース5選

OpenAIが2022年11月にChatGPTをリリースした後、GPT-4やEU AI法案からAI検...

怠け者に朗報:AIが家事を引き受けてくれる

誰もが食べることは大好きですが、必ずしも鍋を洗うのは好きではありません。この文章を読んだ後、自分自身...

AI が会議をよりクリエイティブにする 5 つの方法

[[263855]]人工知能について考えるとき、まず頭に浮かぶのは人間とのコミュニケーション、特に非...