AIトレーニングの最大の障害は計算能力ではなく「メモリの壁」である

[[390958]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

AIトレーニングに必要な計算能力は年々大幅に増加しています。最近の研究では、将来のAIトレーニングのボトルネックは計算能力ではなく、GPUメモリになると指摘されています。

AI アクセラレータは、ハードウェアのピーク時の計算能力を高めるために他の部分を簡素化または削除することがよくありますが、メモリと通信の課題を解決するのは困難です。

チップ内、チップ間、AI アクセラレータ間の通信は、AI トレーニングのボトルネックになっています。

Transformer モデル (赤) のパラメータ数は 2 年間で 240 倍という超指数関数的な増加を示していますが、単一の GPU (緑) のメモリは 2 年間で 2 倍の割合でしか拡大していません。

△SOTAモデルのパラメータ数（赤点）とAIアクセラレータのストレージ容量（緑点）の年ごとの変化

AI モデルのトレーニングに必要なメモリは、通常、パラメータの数倍になります。トレーニングでは中間アクティベーションの保存が必要になるため、通常、メモリ使用量はパラメータ数（埋め込みを除く）の 3 ～ 4 倍に増加します。

その結果、AI トレーニングは必然的に「メモリの壁」にぶつかります。これは、メモリ容量だけでなく、メモリ転送帯域幅も意味します。

多くの場合、データ転送の容量と速度はまだメモリの壁に達していません。

△異なるニューラルネットワークモデルをトレーニングするために必要なメモリの量

図からわかるように、GPU メモリ容量が増加するたびに、開発者は新しいモデルを設計します。

2019 年の GPT-2 に必要なメモリ容量は、2012 年の AlexNet の 7 倍以上です。

Google チームが 2017 年に Transformer を提案して以来、モデルに必要なメモリ容量は大幅に増加し始めています。

ビデオメモリをスタックするために複数の GPU に頼ることができないのはなぜですか?

では、単一のハードウェアの限られたメモリ容量と帯域幅を解消するために、トレーニングを複数の AI アクセラレータに拡張し、分散メモリを使用することは可能でしょうか?

実際、そうすることでメモリウォールの問題にも直面することになります。ニューラルネットワークアクセラレータ間でデータを移動する際の通信ボトルネックは、チップ上でデータを移動するよりもさらに遅く、非効率的です。

単一システムメモリの場合と同様に、帯域幅の拡張に関する技術的な課題はまだ克服されていません。水平スケーリングは、通信とデータ転送が少ない、計算集約的な問題にのみ適しています。

図からわかるように、コンピュータ機器の計算能力は 20 年間で 90,000 倍に増加しました。

メモリはDDRからGDDR6xに進化し、グラフィックカード、ゲーム端末、高性能コンピューティングに使用できるようになりましたが、インターフェース規格もPCIe1.0aからNVLink3.0にアップグレードされました。

しかし、コンピューティング能力の増加と比較すると、通信帯域幅の伸びはわずか30倍に過ぎず、非常に遅いと言えます。

計算能力とメモリのギャップが拡大するにつれて、より大きなモデルのトレーニングは困難になります。

「記憶の壁」を突破する方法

メモリ制限の問題を解決するにはどうすればよいですか?著者は3つの側面から分析を行った。

トレーニングアルゴリズムの改善

ニューラルネットワークモデルのトレーニングにおける課題の 1 つは、総当たりハイパーパラメータの調整です。これは 2 次確率最適化法によって実現できますが、現在の方法ではメモリ使用量が 3 ～ 4 倍に増加するため、まだ解決する必要があります。

Microsoft のゼロメソッド (1 兆レベルのモデルパラメータトレーニングメソッド) では、冗長な最適化状態変数を削除することで、同じメモリを使用して 8 倍の規模のモデルをトレーニングできます。

すべてのアクティベーションを保存する代わりに、パス中にアクティベーションのサブセットのみを保存または検査することもできます。これにより、メモリ使用量を 5 倍削減できますが、計算量は 20% 多く必要になります。

さらに、単精度演算から半精度（FP16）演算への進歩により、ハードウェアの計算能力が10倍以上向上し、INT8精度のトレーニングに適した最適化されたアルゴリズムのさらなる研究が可能になりました。

効率的な展開

最新の SOTA モデル (GPT-3 など) では分散メモリの展開が必要であり、これは大きな課題です。これらのモデルは、精度を下げたり、冗長なパラメータを削除したりすることで、推論用に圧縮できます。

トレーニングまたは推論中に、精度を INT4 まで下げることができ、モデルのフットプリントとレイテンシを 8 分の 1 に削減できます。ただし、トレーニング精度を FP16 よりも大幅に低くすることは依然として困難です。

冗長なパラメータを削除すると、精度が低下する可能性があります。現在の方法では、構造化されたスパース性を持つニューロンの 30% と、非構造化されたスパース性を持つニューロンの 80% を、精度への影響を最小限に抑えながら削減できます。

AIアクセラレータの設計

ストレージ帯域幅とピークコンピューティング能力の両方を同時に向上させることは困難ですが、ピークコンピューティングを犠牲にして帯域幅を向上させることは可能です。

帯域幅が制限された問題では、CPU は GPU よりもはるかに優れたパフォーマンスを発揮しますが、CPU のピーク時の計算能力は GPU よりも約 1 桁小さくなります。

したがって、より効率的なキャッシュを実現するために、2 つのアーキテクチャ間の別のアーキテクチャを検討することができます。

<<: 機械学習のための特徴選択の5つの方法！

>>: ソフトウェアテストに AI を統合する 9 つのメリット

AIトレーニングの最大の障害は計算能力ではなく「メモリの壁」である

ビデオメモリをスタックするために複数の GPU に頼ることができないのはなぜですか?

「記憶の壁」を突破する方法

AIとビッグデータでカスタマージャーニーを変革する方法

iOS の位置決めと座標系アルゴリズム

DAMOアカデミーは、初めて半教師あり知識注入を使用して、新しい事前トレーニング済み対話モデルを立ち上げ、大幅な改善を達成しました。

新しい指紋技術でコカインの使用を検出できる

農業における人工知能の応用

AI「黒ヘルメット」が成都でデビュー、警察が2分で路上で数百人の体温を検査！

推薦する

1300億のパラメータを持つ中国初の大規模数学モデルMathGPTがリリースされました！複数のベンチマークがGPT-4を上回る

AI専門家の周明氏が軽量な「孟子モデル」を作成し、オープンソース化しました！ 10億のパラメータでCLUEリストの3位に到達

ChatGPTが企業の収益向上にどのように役立つか

エッジAIの進歩が次世代ドローンのイノベーションをどう推進するか

DevOps で AI を使用して非線形スケーリングを実現する方法

人間の心臓細胞から作られたロボット魚は本物の魚よりも速く泳ぐ。ハーバード大学の新しい研究がサイエンス誌に掲載される。

Google AGI ロボットの大躍進！ 54人のチームが7か月間かけて強力な一般化と推論を実現した。これはDeepMindとGoogle Brainの合併後の新たな成果である。