この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 AIトレーニングに必要な計算能力は年々大幅に増加しています。最近の研究では、将来のAIトレーニングのボトルネックは計算能力ではなく、GPUメモリになると指摘されています。 AI アクセラレータは、ハードウェアのピーク時の計算能力を高めるために他の部分を簡素化または削除することがよくありますが、メモリと通信の課題を解決するのは困難です。 チップ内、チップ間、AI アクセラレータ間の通信は、AI トレーニングのボトルネックになっています。 Transformer モデル (赤) のパラメータ数は 2 年間で 240 倍という超指数関数的な増加を示していますが、単一の GPU (緑) のメモリは 2 年間で 2 倍の割合でしか拡大していません。 △SOTAモデルのパラメータ数(赤点)とAIアクセラレータのストレージ容量(緑点)の年ごとの変化 AI モデルのトレーニングに必要なメモリは、通常、パラメータの数倍になります。トレーニングでは中間アクティベーションの保存が必要になるため、通常、メモリ使用量はパラメータ数(埋め込みを除く)の 3 ~ 4 倍に増加します。 その結果、AI トレーニングは必然的に「メモリの壁」にぶつかります。これは、メモリ容量だけでなく、メモリ転送帯域幅も意味します。 多くの場合、データ転送の容量と速度はまだメモリの壁に達していません。 △異なるニューラルネットワークモデルをトレーニングするために必要なメモリの量 図からわかるように、GPU メモリ容量が増加するたびに、開発者は新しいモデルを設計します。 2019 年の GPT-2 に必要なメモリ容量は、2012 年の AlexNet の 7 倍以上です。 Google チームが 2017 年に Transformer を提案して以来、モデルに必要なメモリ容量は大幅に増加し始めています。 ビデオメモリをスタックするために複数の GPU に頼ることができないのはなぜですか?では、単一のハードウェアの限られたメモリ容量と帯域幅を解消するために、トレーニングを複数の AI アクセラレータに拡張し、分散メモリを使用することは可能でしょうか? 実際、そうすることでメモリウォールの問題にも直面することになります。ニューラル ネットワーク アクセラレータ間でデータを移動する際の通信ボトルネックは、チップ上でデータを移動するよりもさらに遅く、非効率的です。 単一システムメモリの場合と同様に、帯域幅の拡張に関する技術的な課題はまだ克服されていません。水平スケーリングは、通信とデータ転送が少ない、計算集約的な問題にのみ適しています。 図からわかるように、コンピュータ機器の計算能力は 20 年間で 90,000 倍に増加しました。 メモリはDDRからGDDR6xに進化し、グラフィックカード、ゲーム端末、高性能コンピューティングに使用できるようになりましたが、インターフェース規格もPCIe1.0aからNVLink3.0にアップグレードされました。 しかし、コンピューティング能力の増加と比較すると、通信帯域幅の伸びはわずか30倍に過ぎず、非常に遅いと言えます。 計算能力とメモリのギャップが拡大するにつれて、より大きなモデルのトレーニングは困難になります。 「記憶の壁」を突破する方法メモリ制限の問題を解決するにはどうすればよいですか?著者は3つの側面から分析を行った。 トレーニングアルゴリズムの改善 ニューラル ネットワーク モデルのトレーニングにおける課題の 1 つは、総当たりハイパーパラメータの調整です。これは 2 次確率最適化法によって実現できますが、現在の方法ではメモリ使用量が 3 ~ 4 倍に増加するため、まだ解決する必要があります。 Microsoft のゼロ メソッド (1 兆レベルのモデル パラメータ トレーニング メソッド) では、冗長な最適化状態変数を削除することで、同じメモリを使用して 8 倍の規模のモデルをトレーニングできます。 すべてのアクティベーションを保存する代わりに、パス中にアクティベーションのサブセットのみを保存または検査することもできます。これにより、メモリ使用量を 5 倍削減できますが、計算量は 20% 多く必要になります。 さらに、単精度演算から半精度(FP16)演算への進歩により、ハードウェアの計算能力が10倍以上向上し、INT8精度のトレーニングに適した最適化されたアルゴリズムのさらなる研究が可能になりました。 効率的な展開 最新の SOTA モデル (GPT-3 など) では分散メモリの展開が必要であり、これは大きな課題です。これらのモデルは、精度を下げたり、冗長なパラメータを削除したりすることで、推論用に圧縮できます。 トレーニングまたは推論中に、精度を INT4 まで下げることができ、モデルのフットプリントとレイテンシを 8 分の 1 に削減できます。ただし、トレーニング精度を FP16 よりも大幅に低くすることは依然として困難です。 冗長なパラメータを削除すると、精度が低下する可能性があります。現在の方法では、構造化されたスパース性を持つニューロンの 30% と、非構造化されたスパース性を持つニューロンの 80% を、精度への影響を最小限に抑えながら削減できます。 AIアクセラレータの設計 ストレージ帯域幅とピークコンピューティング能力の両方を同時に向上させることは困難ですが、ピークコンピューティングを犠牲にして帯域幅を向上させることは可能です。 帯域幅が制限された問題では、CPU は GPU よりもはるかに優れたパフォーマンスを発揮しますが、CPU のピーク時の計算能力は GPU よりも約 1 桁小さくなります。 したがって、より効率的なキャッシュを実現するために、2 つのアーキテクチャ間の別のアーキテクチャを検討することができます。 |
>>: ソフトウェアテストに AI を統合する 9 つのメリット
開発者がディープフェイクのパンドラの箱を開けたことで、本物と区別がつかないほどリアルな写真を偽造する...
機械学習は、確率論、統計、近似理論、凸解析、アルゴリズム複雑性理論など、多くの分野が関わる多分野にわ...
[[187627]]機械学習は、Apple の Siri や Google のアシスタントなどのス...
音声認識とは、機械またはプログラムが話し言葉の単語やフレーズを認識し、機械が読み取り可能な形式に変換...
科学技術の継続的な革新により、より多くの新しいインテリジェント製品が開発され、さまざまな業界で使用さ...
まず、一般的なビザンチン将軍問題からコンセンサスとは何かを理解しましょう。ビザンチン将軍問題ビザンチ...
翻訳者 |李睿レビュー | Chonglou LangChain は、生成 AI を使用するアプリケ...
[[430068]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
概要過去 6 か月間で、人工知能の分野は科学技術分野で最も頻繁に言及される用語の 1 つになりました...