AIトレーニングの最大の障害は計算能力ではなく「メモリの壁」である

AIトレーニングの最大の障害は計算能力ではなく「メモリの壁」である

[[390958]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

AIトレーニングに必要な計算能力は年々大幅に増加しています。最近の研究では、将来のAIトレーニングのボトルネックは計算能力ではなく、GPUメモリになると指摘されています。

AI アクセラレータは、ハードウェアのピーク時の計算能力を高めるために他の部分を簡素化または削除することがよくありますが、メモリと通信の課題を解決するのは困難です。

チップ内、チップ間、AI アクセラレータ間の通信は、AI トレーニングのボトルネックになっています。

Transformer モデル (赤) のパラメータ数は 2 年間で 240 倍という超指数関数的な増加を示していますが、単一の GPU (緑) のメモリは 2 年間で 2 倍の割合でしか拡大していません。

△SOTAモデルのパラメータ数(赤点)とAIアクセラレータのストレージ容量(緑点)の年ごとの変化

AI モデルのトレーニングに必要なメモリは、通常、パラメータの数倍になります。トレーニングでは中間アクティベーションの保存が必要になるため、通常、メモリ使用量はパラメータ数(埋め込みを除く)の 3 ~ 4 倍に増加します。

その結果、AI トレーニングは必然的に「メモリの壁」にぶつかります。これは、メモリ容量だけでなく、メモリ転送帯域幅も意味します。

多くの場合、データ転送の容量と速度はまだメモリの壁に達していません。

△異なるニューラルネットワークモデルをトレーニングするために必要なメモリの量

図からわかるように、GPU メモリ容量が増加するたびに、開発者は新しいモデルを設計します。

2019 年の GPT-2 に必要なメモリ容量は、2012 年の AlexNet の 7 倍以上です。

Google チームが 2017 年に Transformer を提案して以来、モデルに必要なメモリ容量は大幅に増加し始めています。

ビデオメモリをスタックするために複数の GPU に頼ることができないのはなぜですか?

では、単一のハードウェアの限られたメモリ容量と帯域幅を解消するために、トレーニングを複数の AI アクセラレータに拡張し、分散メモリを使用することは可能でしょうか?

実際、そうすることでメモリウォールの問題にも直面することになります。ニューラル ネットワーク アクセラレータ間でデータを移動する際の通信ボトルネックは、チップ上でデータを移動するよりもさらに遅く、非効率的です。

単一システムメモリの場合と同様に、帯域幅の拡張に関する技術的な課題はまだ克服されていません。水平スケーリングは、通信とデータ転送が少ない、計算集約的な問題にのみ適しています。

図からわかるように、コンピュータ機器の計算能力は 20 年間で 90,000 倍に増加しました。

メモリはDDRからGDDR6xに進化し、グラフィックカード、ゲーム端末、高性能コンピューティングに使用できるようになりましたが、インターフェース規格もPCIe1.0aからNVLink3.0にアップグレードされました。

しかし、コンピューティング能力の増加と比較すると、通信帯域幅の伸びはわずか30倍に過ぎず、非常に遅いと言えます。

計算能力とメモリのギャップが拡大するにつれて、より大きなモデルのトレーニングは困難になります。

「記憶の壁」を突破する方法

メモリ制限の問題を解決するにはどうすればよいですか?著者は3つの側面から分析を行った。

トレーニングアルゴリズムの改善

ニューラル ネットワーク モデルのトレーニングにおける課題の 1 つは、総当たりハイパーパラメータの調整です。これは 2 次確率最適化法によって実現できますが、現在の方法ではメモリ使用量が 3 ~ 4 倍に増加するため、まだ解決する必要があります。

Microsoft のゼロ メソッド (1 兆レベルのモデル パラメータ トレーニング メソッド) では、冗長な最適化状態変数を削除することで、同じメモリを使用して 8 倍の規模のモデルをトレーニングできます。

すべてのアクティベーションを保存する代わりに、パス中にアクティベーションのサブセットのみを保存または検査することもできます。これにより、メモリ使用量を 5 倍削減できますが、計算量は 20% 多く必要になります。

さらに、単精度演算から半精度(FP16)演算への進歩により、ハードウェアの計算能力が10倍以上向上し、INT8精度のトレーニングに適した最適化されたアルゴリズムのさらなる研究が可能になりました。

効率的な展開

最新の SOTA モデル (GPT-3 など) では分散メモリの展開が必要であり、これは大きな課題です。これらのモデルは、精度を下げたり、冗長なパラメータを削除したりすることで、推論用に圧縮できます。

トレーニングまたは推論中に、精度を INT4 まで下げることができ、モデルのフットプリントとレイテンシを 8 分の 1 に削減できます。ただし、トレーニング精度を FP16 よりも大幅に低くすることは依然として困難です。

冗長なパラメータを削除すると、精度が低下する可能性があります。現在の方法では、構造化されたスパース性を持つニューロンの 30% と、非構造化されたスパース性を持つニューロンの 80% を、精度への影響を最小限に抑えながら削減できます。

AIアクセラレータの設計

ストレージ帯域幅とピークコンピューティング能力の両方を同時に向上させることは困難ですが、ピークコンピューティングを犠牲にして帯域幅を向上させることは可能です。

帯域幅が制限された問題では、CPU は GPU よりもはるかに優れたパフォーマンスを発揮しますが、CPU のピーク時の計算能力は GPU よりも約 1 桁小さくなります。

したがって、より効率的なキャッシュを実現するために、2 つのアーキテクチャ間の別のアーキテクチャを検討することができます。

<<:  機械学習のための特徴選択の5つの方法!

>>:  ソフトウェアテストに AI を統合する 9 つのメリット

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

1 つの記事で AI エージェント テクノロジーを理解する

環境と自律的に対話し、収集したデータに基づいて決定を下し、人間の介入を最小限に抑えてシナリオベースの...

BAIRの最新のRLアルゴリズムはGoogle Dreamerを上回り、パフォーマンスが2.8倍向上しました。

ピクセルベースの RL アルゴリズムが復活しました。BAIR は対照学習と RL を組み合わせたアル...

OpenAIを退社して無職だったカルパシー氏が大規模モデルを使った新プロジェクトに取り組み、1日で星の数が1000を突破

じっとしていられないアンドレイ・カルパティに新しいプロジェクトが! OpenAIはここ数日、非常に忙...

2020 年の人工知能に関するトップ 10 の予測

[[318614]] [51CTO.com クイック翻訳] 2019年、世界中の意思決定者の53%が...

ビッグデータと人工知能が決済に革命を起こす

事実は、データ技術の進歩と発展により、仮想カードと電子ウォレットが支払い管理により適したものになって...

人工知能による雇用促進

近年、人工知能は急速に発展し、新たな科学技術革命と産業変革を主導する中核的な原動力となり、人類の生産...

このおもちゃからヒントを得たアクチュエータは、ソフトロボットにジャンプする能力を与える可能性がある。

[[327163]]海外メディアの報道によると、ポッパーという、押すと飛び上がるおもちゃで遊んだこ...

2019年の世界人工知能チップ産業の市場競争状況の分析

1. 世界の人工知能チップ産業の企業概要の分析近年、さまざまな勢力が AIチップに注目しています。参...

AIも催眠術をかけられるのか?

いつか、おそらく数十年以内に、人工ニューラル ネットワークを使用して、人間の脳をリアルにシミュレート...

人工知能(AI)について知っておくべきことすべて

人工知能の進歩は前例のない機会をもたらすと同時に、経済的、政治的、社会的混乱ももたらします。専門家は...

説明可能な不正防止AIについてお話しましょう

人工知能は近年急速に発展し、さまざまな業界の無数のユースケースで強力なイノベーションツールとして広く...

将来の医療における人工知能の重要な役割

今日の製薬業界が直面している最大の課題の 1 つは、新薬の開発と市場投入にかかるコストの高さです。こ...

...

...