DeepMind と Mamba の中国人著者が、Transformer という革新的な作品を発表!パフォーマンスはLlama 2に匹敵するほど劇的に向上し、推論のエネルギー効率も大幅に改善されました。

トランスフォーマーが再び挑戦！

今回の挑戦者は有名な Google DeepMind 社で、同社は Hawk と Griffin という 2 つの新しいアーキテクチャを同時にリリースしました。

論文アドレス: https://arxiv.org/abs/2402.19427

ゲート付き線形 RNN とローカルアテンションを組み合わせたこの新しいモデルアーキテクチャは、非常に優れたパフォーマンスを発揮します。

まず、線形 RNN アーキテクチャも使用する Griffin は、トレーニングデータの半分を使用したすべての評価において、以前に人気があった Mamba よりも優れたパフォーマンスを発揮します。

さらに重要なことは、グリフィンがモデルを 14B に拡張し、マンバがやりたかったができなかったことを実現したことです。

第二に、Transformer アーキテクチャに基づくモデルに関しては、Griffin は 1/6 のトレーニングデータで、同じ数のパラメーターを持つ Llama 2 と同等か、さらにはそれを上回ることができます。

同時に、このモデルは非常に長いコンテキストを活用して予測を向上させることができ、線形 RNN がトレーニングに使用されたシーケンスの長さをはるかに超えて一般化できることを実証しています。

さらに、チームは、この組み合わせたアーキテクチャが、長いコンテキストからのトークンのコピーや取得など、合成タスクにおける Transformer の多くの機能を保持していることを実証しました。

記事の共同筆頭著者は、Griffin の新しいモデルアーキテクチャは非常に効率的であり、線形 RNN の効率性の利点と Transformer の表現力とスケーラビリティをすべて組み合わせていると興奮気味にツイートしました。

Twitter の写真も非常に興味深いです。マンバが自分のパイソンでトランスフォーマーに挑んでいる写真を覚えていますか?今回、グリフィンはCポジションを獲得し、トラックでトップに立った。

グリフィンの方がマンバにダメージを与えている気がします。結局、鷲が蛇を捕まえるのですから...

しかし、これは単なる冗談です。Mamba の作者である Albert Gu もこの記事の著者の一人であることがわかるので、世界中のすべての線形 RNN が同じファミリーに属している可能性があります。

話を元に戻すと、Transformer は現在市場を独占していますが、その二次計算とストレージのオーバーヘッドは科学研究と産業に大きなプレッシャーを与えています (Huang の資金源にはなっていますが...)。

誰もが最適化に懸命に取り組んでいた一方で（Mamba のもう一人の作者である Tri Dao が開発した FlashAttention シリーズなど）、別の方法も模索していたため、Transformer に挑戦するこれらのアーキテクチャが誕生しました。

——本当に効果があるなら、「Attention Is All You Need」のように歴史に残るでしょう。

最近人気を集めているいくつかの有名な研究は、RWKV、Mamba、そして今日のHawkとGriffinなど、線形RNNに関連しています。

リカレントニューラルネットワーク (RNN) は、推論オーバーヘッドが線形であり、トランスフォーマーに比べて計算とストレージの面で自然な利点があるため、長いシーケンスデータの処理で優れたパフォーマンスを発揮します。

しかし、RNN シリーズは、メモリと選択的な情報抽出の点で Transformer と比較して根本的な欠点があるため、現在のタスクではあまり表現力がありません。

さらに、構造上の問題により、大規模な RNN のトレーニングは非常に困難です。

この目的のために、研究者らは、ゲート付き線形サイクルを使用する RNN である Hawk と、ゲート付き線形フィードバックとローカルアテンションメカニズムを組み合わせたハイブリッドモデルである Griffin を提案しました。

まず、研究者らは、新しいゲート線形再帰層である RG-LRU 層を提案し、その周りに MQA に代わる新しい再帰ブロックを設計しました。

その後、研究者たちはこの再帰ブロックに基づいて、Hawk（MLP と再帰ブロックを組み合わせたもの）と Griffin（MLP と再帰ブロックおよびローカルアテンションを組み合わせたもの）という 2 つの新しいモデルを構築しました。

具体的には：

1. Hawk モデルと Griffin モデルは、パラメータ数が 70 億を超えた場合でも、トレーニング FLOP と保持損失に関して Transformer モデルと同様のべき乗則スケーリング関係を示します (図 1(a))。

2. すべてのモデルサイズにおいて、Griffin の保持損失は、強力な Transformer ベースラインよりもわずかに低くなります。

3. Hawk モデルと Griffin モデルは、さまざまなスケールで 300B トークンを使用してトレーニングされました。一連のダウンストリームタスクでは、Hawk は 2 倍のトークンでトレーニングされた Mamba モデルよりも優れたパフォーマンスを発揮し、Griffin は 6 倍のトークンでトレーニングされた Llama-2 に匹敵します。

4. TPU-v3 では、Hawk と Griffin は Transformers に匹敵するトレーニング効率を実現します。研究者たちは、Pallas の RG-LRU レイヤーカーネルを設計することで、メモリ転送を最小限に抑えながら、対角 RNN レイヤーのメモリ制限によって生じる課題を克服しました。

5. 推論フェーズでは、Hawk と Griffin は MQA Transformers よりもスループットが大幅に高く (図 1(b))、長いシーケンスを処理する際のレイテンシが低くなります。

6. Griffin は、トレーニング中には見られなかった長いシーケンスを処理する際に Transformer よりも優れたパフォーマンスを発揮し、トレーニングデータからコピーおよび取得タスクを効率的に学習することもできます。ただし、事前トレーニング済みモデルを微調整せずにコピーおよび正確な検索タスクの評価に直接使用すると、Hawk と Griffin のパフォーマンスは Transformer よりも悪くなります。

モデルアーキテクチャ

すべてのモデルには、（1）残差ブロック、（2）MLPブロック、（3）時間混合ブロックという3つのコア部分が含まれています。

残差ブロックと MLP ブロックはすべてのモデルで同じですが、時間混合ブロックには 3 つの異なる実装があります。

1. グローバルマルチクエリアテンション（MQA）

2. ローカル（スライディングウィンドウ）MQA

3. 研究者が提案したループブロック。

リカレントブロックでは、研究者らは線形リカレントユニットにヒントを得た新しいタイプのリカレントレイヤー、Real Gated Linear Recurrent Unit (RG-LRU) を提案しました。

図 2(a) に示すように、モデルのグローバル構造は残差ブロックによって定義され、その設計は事前正規化トランスフォーマーアーキテクチャにヒントを得ています。

まず、入力シーケンスが埋め込まれ、次に 𝑁 個の残差ブロックを通過します (ここで 𝑁 はモデルの深さを表します)。その後、RMSNorm が適用され、最終的なアクティベーションが生成されます。

トークンの確率を計算するために、研究者は最後に線形層とソフトマックス関数を追加しました。この線形層の重みは入力埋め込み層と共有されることに留意してください。

Transformerのように拡張可能

スケーリング研究では、3 つの異なるモデルを評価し、70 億のパラメータまでのパフォーマンスとそれを超えるパフォーマンスを示します。

1. MQAトランスフォーマーベースラインモデル

残差モードとゲート MLP ブロックが使用され、MQA と RoPE 技術が組み合わされます。

2. ホークモデル

Hawk は MQA Transformer と同じ残差パターンと MLP ブロック設計に従いますが、時間混合部分に MQA の代わりに新しい再帰ブロック (RG-LRU レイヤーを含む) を採用しています。リカレントブロックの幅を約3/4に拡張することで、パラメータ数はマルチヘッドアテンションブロックとほぼ同等のレベルに達し、モデル次元𝐷の設定と一致します。

3. グリフィンモデル

Griffin の大きな利点は、グローバルアテンションメカニズムと比較して、MQA のように KV キャッシュをシーケンスの長さに応じて線形に増加させるのではなく、固定状態サイズでシーケンスを要約することです。ローカルアテンションにも同じ特性があるため、再帰ブロックとローカルアテンションを組み合わせることで、この利点を維持できます。ローカルアテンションは最新の情報を正確にモデル化でき、リカレントレイヤーは長いシーケンスにわたって情報を転送できるため、この組み合わせは非常に効果的であることがわかりました。

Griffin は、Transformer ベースラインと同じ残差モデルと MLP ブロックを使用しますが、再帰ブロックと MQA ブロックの混合を採用している点で上記の 2 つのモデルとは異なります。具体的には、研究者らは、2 つの残差ブロックと 1 つの再帰ブロックを交互に使用し、次にローカルアテンションメカニズムに基づいて残差ブロックを使用する階層構造を設計しました。通常、ローカルアテンションのウィンドウサイズは 1024 トークンです。

大規模並列トレーニング

モデルのサイズが大きくなると、デバイスごとにバッチサイズが 1 であっても、トレーニング中にモデルを 1 台のデバイスに収めることができなくなります。

そのため、トレーニング中、著者はモデルの並列処理を使用して、大規模なモデルをデバイス間で分割します。異なるトレーニングデバイス間の通信にはコストがかかるため、大規模な高速トレーニングにはモデルを効果的にシャーディングすることが重要です。

ゲート付き MLP の場合、ここではメガトロンスタイルのシャーディング (つまり、テンソル並列処理) が使用され、前方パスと後方パスの両方で all-reduce 操作を実行する必要があります。同じ戦略をアテンションブロックの線形レイヤーに適用して、複数のヘッドを異なるデバイスに割り当てることもできます。

再帰ブロックには、ブランチごとに 2 つの線形レイヤーが含まれます。したがって、メガトロンのシャーディング方式も効率的に適用できます。 Conv1D レイヤーはチャネル間で独立して動作し、そのパラメーターは通信オーバーヘッドを発生させることなくデバイス間で分割できます。

追加のデバイス間通信を回避するために、研究者は密な行列の代わりに RG-LRU のゲートにブロック対角重み (以下の式 1 と 2) を使用します。

本論文のすべての実験において、著者らは再帰ゲートおよび入力ゲートとして 16 個のブロックを使用しました。再帰の対角構造には Conv1D と同じ利点があり、通信なしでパラメータの分割と計算が可能になります。この戦略を使用すると、ループブロックの通信要件は MLP ブロックの通信要件と同じになります。

さらに、オプティマイザー (Adam など) の状態パラメーターは、モデルパラメーター自体のサイズを超えて、大量のメモリを消費する可能性があります。

この問題に対処するために、研究者らは ZeRO を採用し、さらに bfloat16 を使用してモデルパラメーターとアクティベーションを表現し、データ転送のオーバーヘッドを最小限に抑えました。

上の図は、シーケンス長が 2K の MQA をベースラインとして使用し、Griffin と MQA のトレーニング時間を示しています。ここでは、さまざまなモデルサイズとシーケンス長がテストされています。

シーケンスの長さが長くなると、実験ではバッチサイズが比例して縮小され、各バッチ内のトークンの合計数は一定に保たれます。

畳み込みスキャンや相関スキャンを使用しないのはなぜですか?

線形 RNN モデルの利点の 1 つは、計算の連想的な性質から生まれる高い並列性であり、畳み込みまたはプレフィックス合計アルゴリズム (関連スキャン) を通じてデバイス上で効率的に実行できます。

ただし、RG-LRU のゲーティングメカニズムは畳み込みビューと互換性がありません。原理的には連想スキャンを使用して必要な FLOP 数を削減することは可能ですが、実際には主なボトルネックとなるメモリオーバーヘッドは削減されません。

経験的に、TPU-v3 では、関連付けスキャンはネイティブ Jax 線形スキャンよりも大幅に遅くなります。著者らは、並列プレフィックスサムアルゴリズムのツリー再構成のランダムアクセスの性質が TPU アーキテクチャに適しておらず、その結果メモリ転送が遅くなるのではないかと推測しています。

推論速度

推論速度を評価する際に考慮すべき主な指標が 2 つあります。

1 つ目はレイテンシです。これは、特定のバッチサイズで指定された数のトークンを生成するのにかかる時間を測定します。 2 つ目はスループットです。これは、指定された数のトークンをサンプリングするときに、単一のデバイスで 1 秒あたりに生成できるトークンの最大数を測定します。

スループットはトークンのサンプリング、バッチサイズ、レイテンシに関連しているため、レイテンシを削減するかメモリ使用量を削減することでスループットを向上させ、デバイスでより大きなバッチサイズを使用できるようになります。

高速な応答時間を必要とするリアルタイムアプリケーションの場合、レイテンシを考慮する必要があります。人間のフィードバックによる強化学習 (RLHF) や言語モデル出力のスコアリングなど、他の言語アプリケーションを検討する場合、スループットは重要です。

ここでは、MQA (Transformer) をベースラインとして、サイズ 1B のパラメータを持つモデルの推論結果をテストします。 MQA は、文献でよく使用される標準の MHA よりも推論プロセスがはるかに高速です。

比較対象となるモデルは、MQA Transformer、Hawk、Griffin です。

図 4 は、バッチサイズが 16、事前入力されてから空、または 4096 トークンの場合のモデルのレイテンシを比較しています。長いシーケンスの場合、Hawk と Griffin は MQA Transformer よりもサンプル遅延が速くなります。

これは、シーケンス長とプリフィル長 (KV キャッシュのサイズに影響します) が増加する場合に特に顕著になります。 Griffin は Hawk と同様のレイテンシを実現し、線形 RNN とローカルアテンションの優れた互換性を実証しています。

次に研究者らは、空のプロンプトで 512、1024、2048、4196 トークンをサンプリングしたときの同じモデルの最大スループット (トークン/秒) を比較しました。

上の図に示すように、Griffin と Hawk の両方のスループットが MQA Transformer のベースラインよりも大幅に高いことがわかります。

これは、反復モデルのレイテンシが低いことが一因ですが、Griffin と Hawk はキャッシュが小さいため、MQA Transformer よりも単一のデバイスで大きなバッチサイズに対応できることも大きな理由です。

バッチサイズが大きい場合、ローカルアテンションバッファのサイズが最終的にパラメータのサイズと同程度になるため、Hawk は Griffin よりも高いスループットを実現します。

ユーザーコメント

この論文の結果は重要であるが、一部のネットユーザーは納得しておらず、この論文のモデルとMambaの比較が「公平」であるかどうか疑問視している。

「この論文は、LLM 研究における大きな問題を示しています。彼らは、より少ないトークンで Mamba よりも優れたパフォーマンスを発揮すると主張しています。しかし、セクション 3.2 になって初めて、彼らはトレーニングに Mamba とはまったく異なるデータセットを使用していることを認めています。」

「実はデータこそが最も大切なので、パフォーマンスの比較は無意味です。まったく無意味です。科学的な結論や洞察は得られません…」

陰謀論から導き出されたモデルが受け入れられないケースもあります。

「ディープマインドがこのような研究を発表する動機は何でしょうか？彼らがOpenAIとの競争で優位に立ちたいのであれば、何かクールな新しいアーキテクチャを発見したとしても、それを秘密にしておくでしょう。」

「これは、これらの結果が現時点では良好であるが、競争上の優位性を提供するという点で革命的となるほど十分ではないことを意味するのでしょうか？」

嵐の後の結末はどうなるでしょうか? 時の経過を待ちましょう。

著者について

アルバート・グ

アルバート・グーは、以前人気があったマンバアーキテクチャの作者でもある。

2015 年、アルバート・グーはカーネギーメロン大学 (CMU) でコンピューターサイエンスと数学の二重学士号を取得しました。

その後、スタンフォード大学でコンピューターサイエンスを専攻し、現在はCMUで助教授を務めています。

アルバート・グーは2011年にFacebookでソフトウェアエンジニアリングのインターンとして働き、2015年には英国ロンドンのJump Tradingでアルゴリズム取引のインターンとして働きました。

2019 年、Albert Gu 氏は DeepMind で研究科学者インターンとしてインターンをしました。

彼の研究対象は次のとおりです。

構造化線形表現を含む機械学習のための構造化表現。
代数と埋め込み、シーケンスモデルの分析と設計。
長期コンテキストの非ユークリッド表現学習について。

近年、Albert Gu は ICML、ICLR、NeurlPS などのトップ AI カンファレンスで、引用数の多い論文を多数発表しています。

ソハム・デ

論文の共著者であるソーハム・デ氏は、Google DeepMindの研究科学者であり、大規模なディープラーニングのより深い理解とパフォーマンスの向上に注力しています。

以前は、2018年にメリーランド大学でDana Nau教授とTom Goldstein教授の指導の下、主に機械学習の問題に対する高速確率的最適化アルゴリズムを研究して博士号を取得しました。

サミュエル・L・スミス

サミュエルはケンブリッジ大学で学士、修士、博士の学位を取得しました。2016 年に理論物理学の博士号を取得し、その後 Google Brain と DeepMind で働きました。

ジョージ・クリスティアン・ムラール

論文の共著者であるジョージ・クリスチャン・ムラール氏も、Google DeepMindのソフトウェアエンジニアです。Googleで働く前は、ブルームバーグでプログラマーとして働いていました。

アレクサンダル・ボテフ

論文の共著者であるアレクサンダル・ボテフ氏は、ユニバーシティ・カレッジ・ロンドンを卒業し、機械学習の修士号とディープラーニングの博士号を取得しています。彼は OpenAI と Google DeepMind でインターンをし、2019 年に研究科学者として DeepMind に入社しました。

<<:

>>: Mac専用の大型モデルフレームワークが登場！ 2行のコードでデプロイでき、ローカルデータとチャットでき、中国語もサポートしています

ブログ

ビッグデータと人工知能 - 機械的思考から統計的思考へ

ブログ

IBM Watson Healthの大規模レイオフによるAI導入の苦痛

ブログ

DeepMind と Mamba の中国人著者が、Transformer という革新的な作品を発表!パフォーマンスはLlama 2に匹敵するほど劇的に向上し、推論のエネルギー効率も大幅に改善されました。

モデルアーキテクチャ

Transformerのように拡張可能

大規模並列トレーニング

推論速度

ユーザーコメント

著者について

AI はどのようにして既存の人間の偏見を強化するのでしょうか?

崑崙Core2が量産開始：性能が2～3倍向上し、中国の産業知能に強力な「コア」を注入

OpenAIがSoraを発表: 現実を再定義する画期的なビデオ生成モデル

会話型 AI でビジネス成果を向上させる 5 つの方法

ビッグデータと人工知能 - 機械的思考から統計的思考へ

IBM Watson Healthの大規模レイオフによるAI導入の苦痛

推薦する

張北院士：生成型人工知能の3つの大きな機能と1つの大きな欠点

Swift モバイルゲーム開発に適用される幅優先探索アルゴリズム

呉俊：人工知能は今後20年間で大きな発展を遂げないかもしれません。

人工知能が普及したら、誰が職を失うのでしょうか？この3つのタイプの人々が最前線にいるかもしれない

人工知能が診断ツールをどのように変えるのか

512 個の GPU が 10 兆個のパラメータを持つ巨大モデルを作成します。このモデルは今年のダブルイレブンで使用されました

Google は、AI 言語モデルの自己修正機能の向上を支援する BIG-Bench Mistake データセットをリリースしました。

コストを70%削減する秘訣: これらの企業はAIをコスト効率よく活用する方法を見つけました

中国ダイビングチームの勝利には人工知能が貢献した

清華大学がゲーム会社を設立しました！ 10人以上のChatGPTが勤務し、7分でゲームを開発

AI は「彼ら」による盗聴を防ぐことができますか?

顔認識技術の倫理

AIとIoTが教育に与える影響

AR/AIにはリアルタイムの光補正アルゴリズムが必要、パシフィック・フューチャー・テクノロジーは技術革新のチャンスをつかめるか？