世界がH100を奪い合っている！ Nvidia が GPU の優位性を達成、主任科学者が成功の 4 つの要素を明らかに

現在、NVIDIA は GPU の優位性の座にしっかりと座っています。

ChatGPT の誕生により、生成 AI が爆発的に増加し、コンピューティング能力をめぐる世界的な戦いが勃発しました。

少し前に、H100の世界需要が43万枚を超え、この傾向は少なくとも2024年末まで続くだろうという記事が出ました。

過去 10 年間で、Nvidia は AI タスクにおけるチップのパフォーマンスを 1000 倍に向上させることに成功しました。

1兆ドル規模の市場に参入したばかりの企業は、どのようにして成功を収めるのでしょうか?

最近、Nvidia の主任科学者 Bill Dally 氏がシリコンバレーで開催された IEEE 2023 Hot Chips シンポジウムで高性能マイクロプロセッサに関する基調講演を行いました。

彼のプレゼンテーションの PPT の 1 ページには、これまでの Nvidia の成功につながった 4 つの要素がまとめられていました。

ムーアの法則は、Nvidia の「魔法の魔法」のほんの一部に過ぎず、新しい「デジタル表現」が大部分を占めています。

Nvidia が 10 年間で AI タスク向け GPU パフォーマンスを 1000 倍向上させた方法

上記のすべてを合わせると、黄の法則が得られます。

黄暁明氏はかつて、「グラフィックスプロセッサの出現により、ムーアの法則はもはや維持できなくなり、新しい超強力な法則に取って代わられた」と述べました。

デジタル表現：16倍の改善

ダリー氏は、全体として、私たちの最大の利益は「数字の表現」の向上から生まれたと語った。

これらの数値は、ニューラルネットワークの「主要なパラメータ」を表します。

これらのパラメータの 1 つは重み、つまりモデル内のニューロン間の接続の強さです。

もう 1 つは活性化です。これは、ニューロンへの重み付けされた入力の合計に何倍するかによって、ニューロンが活性化され、次の層に情報が伝播されるかどうかが決定されます。

P100 より前の Nvidia GPU では、これらの重みを表すために単精度浮動小数点数を使用していました。

IEEE 754 標準によれば、これらの数値は 32 ビットの長さで、そのうち 23 ビットは小数部を表し、8 ビットは基本的に小数の指数、1 ビットは数値の符号を表します。

しかし、機械学習の研究者たちはすぐに、多くの計算ではそれほど正確でない数値を使用しても、ニューラルネットワークは同じ正確な答えを出すことを発見しました。

これの明らかな利点は、機械学習の主要な計算（乗算と累算）で処理する必要のあるビット数が少なくなると、ロジックをより高速、小型、効率的にできることです。

そのため、P100 では NVIDIA は半精度 FP16 を使用しました。

Google は bfloat16 と呼ばれる独自のバージョンも考案しました。

両者の違いは、小数ビットと指数ビットの相対的な数にあります。小数ビットは精度を提供し、指数ビットは範囲を提供します。 Bfloat16 は FP32 と同じビット範囲を持っているため、2 つの形式を切り替えるのが簡単になります。

現在に戻ると、Nvidia の主要グラフィックプロセッサ H100 は、8 ビットの数値を使用して、ChatGPT などの大規模 Transformer ニューラルネットワークやその他の大規模言語モデルの特定のタスクを完了できます。

しかし、Nvidia はこれが普遍的な解決策ではないことを発見しました。

たとえば、Nvidia の Hopper GPU アーキテクチャでは、実際には計算に 2 つの異なる FP8 形式が使用されています。1 つはわずかに精度が高く、もう 1 つは範囲がわずかに広い形式です。 Nvidia の特に優れた点は、どのフォーマットをいつ使用するかを知っていることです。

Dally 氏と彼のチームは、より少ないビット数で AI パフォーマンスを最大化するためのさまざまな興味深いアイデアを持っています。明らかに、浮動小数点システムは理想的ではありません。

大きな問題の 1 つは、数値がどれだけ大きくても小さくても、浮動小数点の精度が非常に一貫していることです。

ただし、ニューラルネットワークのパラメーターは大きな数値を使用せず、主に 0 付近に集中します。したがって、Nvidia の研究開発は、0 付近の数値をより正確に表現する効率的な方法を見つけることに重点を置いています。

複雑な命令: 12.5倍

「命令のフェッチとデコードのオーバーヘッドは、単純な算術演算を実行するオーバーヘッドをはるかに上回ります」とダリー氏は語った。

彼は乗算命令の例を使いました。乗算命令には、数学演算自体を実行するために必要な 1.5 ジュールの 20 倍の固定オーバーヘッドがあります。 NVIDIA は、大規模な計算を複数の命令の連続ではなく単一の命令で実行するように GPU を設計することで、個々の計算のオーバーヘッドを効果的に削減し、大きな成果を達成しました。

ダリー氏は、オーバーヘッドはまだあるが、複雑な命令の場合はより多くの数学演算に分散されると述べた。たとえば、複雑な命令である整数行列積和演算 (IMMA) のオーバーヘッドは、数学計算のエネルギーコストのわずか 16% を占めます。

ムーアの法則: 2.5倍

ムーアの法則の有効性を維持するには、数十億ドルの投資、極めて複雑なエンジニアリング設計、さらには国際関係の不安定化も必要となるでしょう。しかし、これらの投資がNvidia GPUの成功の主な理由ではありません。

Nvidia は GPU の製造に世界最先端の製造技術を使用しており、H100 は TSMC の N5 (5nm) プロセスを使用して製造されています。チップ工場は2022年末まで次世代N3プロセスの建設を開始しない予定。 N5 は、構築される前は業界で最も先進的な製造プロセスでした。

スパース性: 2倍

計算負荷を軽減するためにこれらのネットワークを「スパース」にするのは難しい作業です。

しかし、H100 の前身である A100 では、NVIDIA は新しいテクノロジ「構造化スパース性」を導入しました。このハードウェア設計により、可能な 4 つのプルーニングイベントのうち 2 つが強制され、新しいクラスのより小さな行列計算が実現します。

「スパース性はまだ終わっていません」とダリー氏は言う。「活性化関数をもう少し改良する必要があり、重み付けのスパース性をさらに高めることができます。」

<<: テレンス・タオ：初心者はAIツールを使って専門家レベルのタスクを実行すべきではないし、GPTは専門家にとってあまり役に立たない

>>: H100推理が8倍に急上昇！ NVIDIAは10以上のモデルをサポートするオープンソースのTensorRT-LLMを正式に発表した。

二足歩行ロボットは撮影以外にも応用シーンが多すぎて問題になっている

ブログ

世界がH100を奪い合っている！ Nvidia が GPU の優位性を達成、主任科学者が成功の 4 つの要素を明らかに

デジタル表現：16倍の改善

複雑な命令: 12.5倍

ムーアの法則: 2.5倍

スパース性: 2倍

二足歩行ロボットは撮影以外にも応用シーンが多すぎて問題になっている

光と闇：人工知能と人類の未来

今後10年間でAIはどのように発展するでしょうか? iFLYTEKの劉清鋒氏はこう語った。

1 分で新しい GPT が作成されます。カスタマイズされたGPTは3日以内に爆発的に普及し、理想のボーイフレンドや科学研究ツールがインターネット上に溢れかえった

AIビデオ分析技術はどのように機能するのでしょうか?どのように機能しますか?

ビジュアルTransformer BERTの事前トレーニングのための新しい方法：USTC、MSRAなどが提案したPeCo

AI、メタバース、職場におけるDEI

自動運転タクシー市場が急成長中。最初にこの市場を活用できるのは、Google、Uber、それともTeslaのどれでしょうか?

推薦する

AI はあなたの仕事を奪うだけでなく、もっと恐ろしい脅威をもたらす可能性があります...

次世代IoTシステムにおける環境CV技術

「5年以内に人間のプログラマーはいなくなる」とスタビリティAIのボスが大胆な予測をしたところ、大物グループがそれを激しく非難した。「完全に間違っており、彼らはそれを説明するのが面倒だ」

GPT-3とAlphaFold 2は2020年に衝撃を与えました。2021年のAIの最大のハイライトは何でしょうか？

AIサークルが爆発した！マイクロソフトがトランスフォーマーのブロックを解除、シーケンスの長さが10億以上に拡大

NvidiaはArmの買収を断念すると報じられており、400億ドルの買収は危うい状況にある

人間と踊る！中国の6団体が制作したヒューマノイドロボットがストリートショーに進出

520 開発者のバレンタインデー: 全プラットフォームで 35 の PaddlePaddle アップグレード「Show AI」

今後数年間の AI 求人市場はどのようになるでしょうか?

旅の途中のハードウェアプロジェクトが公開されました。 Apple Vision Proのエンジニアがスーパーバイザーを務め、かつてはマスクの脳コンピューターインターフェース企業で働いていた

AI による効率化: データセンターのエネルギー使用を再定義

Java ソートアルゴリズムの概要 (VII): クイックソート

機械学習モデルは展開するには大きすぎますか? 3つの解決策をご紹介します