Huang が H100 を「ブースト」: NVIDIA が大規模モデルアクセラレーションパッケージを発表、Llama2 推論速度が 2 倍に

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

大規模モデルの推論速度がわずか1ヶ月で2倍に向上しました。

NVIDIA は最近、LLM 推論専用の加速プログラムである H100 用の「チキンブラッドパッケージ」のリリースを正式に発表しました。

おそらく、来年発売される GH200 を無駄に待つ必要はなくなるでしょう。

GPU の計算能力は、常に大規模モデルのパフォーマンスに影響を与えます。ハードウェアプロバイダーとユーザーの両方が、より高速な計算を望んでいます。

大規模モデルを支えるハードウェアの最大手サプライヤーとして、NVIDIA は大規模モデルのハードウェアを高速化する方法を研究してきました。

NVIDIA は多くの AI 企業との協力を通じて、ついに大規模モデル推論最適化プログラム TensorRT-LLM (略して TensorRT) をリリースしました。

TensorRT は、大規模モデルの推論速度を 2 倍にするだけでなく、非常に使いやすいです。

C++ と CUDA に関する深い知識がなくても、最適化戦略を素早くカスタマイズし、H100 で大規模なモデルをより高速に実行できます。

Nvidiaの科学者ジム・ファン氏はリツイートし、Nvidiaの「もう一つの優位性」はGPUのパフォーマンスを最大化できるサポートソフトウェアだとコメントした。

Nvidia は、Huang 氏の「買えば買うほど節約できる」という言葉を実践するかのように、ソフトウェアを使って自社の製品を強化しているが、それでも価格の高さに不満を言う人がいるのは変わらない。

価格に加えて、一部のネットユーザーはその運用効果に疑問を呈している。

パフォーマンスが何倍にも向上すると常に宣伝されていますが、私たち自身で Llama 2 を実行すると、1 秒あたり数十のトークンしか処理できません。

本当に効果があるかどうかは、さらにテストする必要があるかもしれません。まずは TensorRT を詳しく見てみましょう。

大規模モデルの推論速度を2倍にする

大規模モデルを実行する場合、TensorRT-LLM 最適化後の H100 はどれくらい高速になりますか?

Nvidia の発表では、Llama 2 と GPT-J-6B の 2 つのモデルのデータが提供されました。

最適化された H100 では、Llama 2 の推論速度は A100 の 4.6 倍、8 月の最適化されていない H100 バージョンの 1.77 倍です。

GPT-J-6Bの推論速度は、8月の時点でA100の8倍、最適化されていないバージョンの2倍です。

TensorRT は、さまざまな LLM のニーズに基づいて最適化ソリューションを迅速にカスタマイズできるオープンソースのモジュール式 Python API も提供します。

この API は、ディープラーニングコンパイラ、カーネル最適化、前処理/後処理、およびマルチノード通信機能を統合します。

その中で、GPT(2/3)やLlamaなどの一般的なモデルについては、そのまま使用できるカスタマイズ版も存在します。

TensorRT の最新のオープンソース AI カーネルを通じて、開発者は、Transformer を大幅に高速化するアテンションアルゴリズム FlashAttention を含むモデル自体を最適化することもできます。

では、TensorRT はどのようにして LLM 推論速度を最適化するのでしょうか?

まず、TensorRT のマルチノード共同作業モードの最適化の恩恵を受ける必要があります。

Llama のような大規模なモデルは単一のグラフィックカードでは実行できず、複数の GPU を同時に実行する必要があります。

以前は、このタスクを実行するには、モデルを手作業で分解する必要がありました。

TensorRT を使用すると、システムはモデルを自動的に分割し、NVLink を介して複数の GPU 間で効率的に実行できます。

第二に、TensorRT は動的バッチ処理と呼ばれる最適化されたスケジューリング技術も使用します。

推論プロセス中、LLM は実際にモデルの反復を複数回実行します。

動的バッチ処理テクノロジーは、次の一連のリクエストを処理する前にタスクのバッチ全体が完了するのを待つのではなく、完了したシーケンスを直ちに実行します。

実際のテストでは、動的バッチ処理により LLM の GPU 要求スループットが半分に削減され、運用コストが大幅に削減されました。

もう 1 つの重要なポイントは、メモリ消費を削減するために16 ビット精度の浮動小数点数を 8 ビット精度に変換することです。

トレーニング段階では、FP16 と比較して FP8 は消費するリソースが少なく、INT-8 よりも精度が高く、モデルの精度に影響を与えずにパフォーマンスが向上します。

Hopper Transformer エンジンにより、モデル内のコードを手動で変更する必要なく、FP16 から FP8 への変換とコンパイルがシステムによって自動的に完了します。

現在、TensorRT-LLM の早期バージョンがダウンロード可能であり、正式バージョンは数週間以内にリリースされ、NeMo フレームワークに統合される予定です。

もう一つ

大きな出来事が起こるたびに、レーウェンフックは必ずそこにいます。

Nvidiaの発表では「Metaなどの大手AI企業との協力」については触れられていたが、OpenAIについては触れられていなかった。

この発表から、一部のネットユーザーがこの点を発見し、OpenAI フォーラムに投稿しました。

老黄（犬の頭）に指示されなかったのは誰か見てみましょう

Lao Huang はどのような「サプライズ」をもたらしてくれると期待していますか?

<<:

>>: ジェネレーティブAIは企業にとって新たなリスクとなっているが、重要な問題を放置すべきではない

ブログ

ByteDance アルゴリズムの面接の質問、解けますか?

ブログ

Transformerを廃止すれば、完全な畳み込みネットワークでもE2E検出を実現できる。

ブログ

6つの興味深い画像グレースケール変換アルゴリズム

ブログ

人工知能オンライン機能システムのデータアクセス技術

ブログ

スマート運転の新たな戦い：「レーダーとビジョンの融合」に対抗、5つの勢力が別々に攻撃

ブログ

ディープフェイクが流行中！誰かがこれを使ってロシアの野党の人物を真似し、ズームで欧州の国会議員を「からかう」

ブログ

ブロックチェーンとAIを最大限に活用する方法

ブログ

パーシー・リャンらによる新しい研究：新しいBingのような生成型検索エンジンはそれほど役に立たないかもしれない

ブログ

自然言語処理がビジネスインテリジェンスの未来である理由

ブログ

Huang が H100 を「ブースト」: NVIDIA が大規模モデルアクセラレーションパッケージを発表、Llama2 推論速度が 2 倍に

大規模モデルの推論速度を2倍にする

もう一つ

ByteDance アルゴリズムの面接の質問、解けますか?

Transformerを廃止すれば、完全な畳み込みネットワークでもE2E検出を実現できる。

6つの興味深い画像グレースケール変換アルゴリズム

人工知能オンライン機能システムのデータアクセス技術

スマート運転の新たな戦い：「レーダーとビジョンの融合」に対抗、5つの勢力が別々に攻撃

ディープフェイクが流行中！誰かがこれを使ってロシアの野党の人物を真似し、ズームで欧州の国会議員を「からかう」

ブロックチェーンとAIを最大限に活用する方法

パーシー・リャンらによる新しい研究：新しいBingのような生成型検索エンジンはそれほど役に立たないかもしれない

自然言語処理がビジネスインテリジェンスの未来である理由

推薦する

百度の最新アルゴリズム調整対応戦略

ジェネレーティブAIは高度な分析に新たな可能性をもたらす

LSTMに匹敵するTransformerは機械学習界に火をつけました。それは万能です。

GitHub で 2.3k スターを獲得した ML 論文のリストを入手し、自分の仕事に活用しましょう。

人工知能の博士による記事では、分類と回帰評価指標について詳しく説明しています。機械学習の必読書です。

SSD ソリッドステートドライブの構造: マスター制御アルゴリズム、ファームウェア、NAND フラッシュメモリ

IoT 革命の基盤を築く: 手遅れになる前に企業がデータ戦略を完成させる方法

レポート：中国の人工知能産業は2022年までに300億ドル近くの価値に達する

業界: 過去数か月で、古い AI チップの価格が下がり、大規模モデルのトレーニングのコストが 60% 低下しました。

1月に8万人以上の従業員が解雇されました！世界のテクノロジー業界のレイオフリストが発表されました。企業が大きいほど、レイオフする人数も多くなります。X社は従業員の半数を一気にレイオフしました！

マスク氏のChatGPTバージョンが急成長中！ Pythonなしで11人が2か月間懸命に働いた

Zigbeeプロトコルスタックの暗号化アルゴリズムについての簡単な説明