この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 大規模モデルの推論速度がわずか1ヶ月で2倍に向上しました。 NVIDIA は最近、LLM 推論専用の加速プログラムである H100 用の「チキン ブラッド パッケージ」のリリースを正式に発表しました。 おそらく、来年発売される GH200 を無駄に待つ必要はなくなるでしょう。 GPU の計算能力は、常に大規模モデルのパフォーマンスに影響を与えます。ハードウェア プロバイダーとユーザーの両方が、より高速な計算を望んでいます。 大規模モデルを支えるハードウェアの最大手サプライヤーとして、NVIDIA は大規模モデルのハードウェアを高速化する方法を研究してきました。 NVIDIA は多くの AI 企業との協力を通じて、ついに大規模モデル推論最適化プログラム TensorRT-LLM (略して TensorRT) をリリースしました。 TensorRT は、大規模モデルの推論速度を 2 倍にするだけでなく、非常に使いやすいです。 C++ と CUDA に関する深い知識がなくても、最適化戦略を素早くカスタマイズし、H100 で大規模なモデルをより高速に実行できます。 Nvidiaの科学者ジム・ファン氏はリツイートし、Nvidiaの「もう一つの優位性」はGPUのパフォーマンスを最大化できるサポートソフトウェアだとコメントした。 Nvidia は、Huang 氏の「買えば買うほど節約できる」という言葉を実践するかのように、ソフトウェアを使って自社の製品を強化しているが、それでも価格の高さに不満を言う人がいるのは変わらない。 価格に加えて、一部のネットユーザーはその運用効果に疑問を呈している。 パフォーマンスが何倍にも向上すると常に宣伝されていますが、私たち自身で Llama 2 を実行すると、1 秒あたり数十のトークンしか処理できません。 本当に効果があるかどうかは、さらにテストする必要があるかもしれません。まずは TensorRT を詳しく見てみましょう。 大規模モデルの推論速度を2倍にする大規模モデルを実行する場合、TensorRT-LLM 最適化後の H100 はどれくらい高速になりますか? Nvidia の発表では、Llama 2 と GPT-J-6B の 2 つのモデルのデータが提供されました。 最適化された H100 では、Llama 2 の推論速度は A100 の 4.6 倍、8 月の最適化されていない H100 バージョンの 1.77 倍です。 GPT-J-6Bの推論速度は、8月の時点でA100の8倍、最適化されていないバージョンの2倍です。 TensorRT は、さまざまな LLM のニーズに基づいて最適化ソリューションを迅速にカスタマイズできるオープンソースのモジュール式 Python API も提供します。 この API は、ディープラーニング コンパイラ、カーネル最適化、前処理/後処理、およびマルチノード通信機能を統合します。 その中で、GPT(2/3)やLlamaなどの一般的なモデルについては、そのまま使用できるカスタマイズ版も存在します。 TensorRT の最新のオープンソース AI カーネルを通じて、開発者は、Transformer を大幅に高速化するアテンション アルゴリズム FlashAttention を含むモデル自体を最適化することもできます。 では、TensorRT はどのようにして LLM 推論速度を最適化するのでしょうか? まず、TensorRT のマルチノード共同作業モードの最適化の恩恵を受ける必要があります。 Llama のような大規模なモデルは単一のグラフィック カードでは実行できず、複数の GPU を同時に実行する必要があります。 以前は、このタスクを実行するには、モデルを手作業で分解する必要がありました。 TensorRT を使用すると、システムはモデルを自動的に分割し、NVLink を介して複数の GPU 間で効率的に実行できます。 第二に、TensorRT は動的バッチ処理と呼ばれる最適化されたスケジューリング技術も使用します。 推論プロセス中、LLM は実際にモデルの反復を複数回実行します。 動的バッチ処理テクノロジーは、次の一連のリクエストを処理する前にタスクのバッチ全体が完了するのを待つのではなく、完了したシーケンスを直ちに実行します。 実際のテストでは、動的バッチ処理により LLM の GPU 要求スループットが半分に削減され、運用コストが大幅に削減されました。 もう 1 つの重要なポイントは、メモリ消費を削減するために16 ビット精度の浮動小数点数を 8 ビット精度に変換することです。 トレーニング段階では、FP16 と比較して FP8 は消費するリソースが少なく、INT-8 よりも精度が高く、モデルの精度に影響を与えずにパフォーマンスが向上します。 Hopper Transformer エンジンにより、モデル内のコードを手動で変更する必要なく、FP16 から FP8 への変換とコンパイルがシステムによって自動的に完了します。 現在、TensorRT-LLM の早期バージョンがダウンロード可能であり、正式バージョンは数週間以内にリリースされ、NeMo フレームワークに統合される予定です。 もう一つ大きな出来事が起こるたびに、レーウェンフックは必ずそこにいます。 Nvidiaの発表では「Metaなどの大手AI企業との協力」については触れられていたが、OpenAIについては触れられていなかった。 この発表から、一部のネットユーザーがこの点を発見し、OpenAI フォーラムに投稿しました。
Lao Huang はどのような「サプライズ」をもたらしてくれると期待していますか? |
>>: ジェネレーティブAIは企業にとって新たなリスクとなっているが、重要な問題を放置すべきではない
大規模言語モデル (LLM) が強力であることは議論の余地のない事実ですが、それでも単純な間違いを犯...
[51CTO.com クイック翻訳]ニューラルネットワークは人工知能の分野で非常に人気が高まっていま...
1. 5G上のAI 2022年には産業用AIとAI-on-5G IoTアプリケーションが主流になるで...
Apple の大規模言語モデルと AI チャットボットに関する最新ニュースが届きました。本日、ブル...
[[397103]] 「AIコア技術の躍進は産業の高度化の原動力であり、オープンソースはAI発展の新...
世界中の企業は、競合他社に対して競争上の優位性を獲得するのに役立つ高度なテクノロジーを常に探していま...
少し前、UIUC と南洋理工大学の 3 人の研究者が 20 か月かけて 673 本の論文を研究し、信...
[[327238]] Twitter社が永久に在宅勤務を行うと発表した後、ザッカーバーグ氏は今後5年...
10 種類以上のチップが発売され、多くの合併や買収が行われています。これは、過去 500 日間の中国...
[[408381]]ロボット犬とボーイズバンドが一緒に「ダンス」すると、どんな火花が散るのでしょうか...
翻訳者 | 張野貴校正 | 孫淑娟 良策インテリジェント仮想アシスタント市場の洞察インテリジェント ...
[51CTO.comからの原文] 今日の医療業界は、次第にテクノロジー化と精密化が進んでいます。医療...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
近年、コア技術の継続的な進歩と市場需要の継続的な解放により、ドローン産業は急速に発展しています。アプ...