H100推理が8倍に急上昇! NVIDIAは10以上のモデルをサポートするオープンソースのTensorRT-LLMを正式に発表した。

H100推理が8倍に急上昇! NVIDIAは10以上のモデルをサポートするオープンソースのTensorRT-LLMを正式に発表した。

GPU が不足している人々は、その苦境に別れを告げようとしています。

NVIDIA は現在、H100 上で大規模言語モデルの推論を高速化できるオープンソース ソフトウェア TensorRT-LLM をリリースしました。

それで、何回改善できるのでしょうか?

TensorRT-LLM とその一連の最適化機能 (In-Flight バッチ処理を含む) を追加した後、全体的なモデル スループットが 8 倍に増加しました。

GPT-J-6B A100 と H100 の TensorRT-LLM の有無の比較

さらに、Llama 2を例にとると、A100のみを使用した場合と比較して、TensorRT-LLMは推論性能を4.6倍向上させることができます。

Llama 2 70B、A100、H100 と TensorRT-LLM の有無の比較

ネットユーザーによると、強力な H100 と TensorRT-LLM を組み合わせることで、大規模言語モデル推論の現状は間違いなく完全に変わるとのことです。

TensorRT-LLM: 大規模モデル推論を加速する強力なツール

現状では、大規模モデルのパラメータ規模が巨大であるため、「展開と推論」の難易度とコストは依然として高いままです。

NVIDIA が開発した TensorRT-LLM は、GPU を通じて LLM スループットを大幅に向上し、コストを削減することを目的としています。

具体的には、TensorRT-LLM は、TensorRT のディープラーニング コンパイラー、FasterTransformer の最適化されたカーネル、前処理と後処理、およびマルチ GPU/マルチノード通信を、シンプルなオープン ソース Python API にカプセル化します。

NVIDIA は FasterTransformer をさらに強化し、製品化されたソリューションにしました。

TensorRT-LLM は、使いやすく、オープンソースでモジュール化された Python アプリケーション プログラミング インターフェイスを提供していることがわかります。

コーダーは、さまざまな大規模言語モデルを展開、実行、デバッグし、最高のパフォーマンスと迅速なカスタマイズ機能を実現するために、C++ または CUDA の詳細な専門知識を必要としません。

Nvidia の公式ブログによると、TensorRT-LLM は 4 つの方法で Nvidia GPU 上の LLM 推論パフォーマンスを最適化します。

まず、現在の 10 を超える大規模モデルに対して、開発者がすぐに実行できるように TensorRT-LLM が導入されました。

2 番目に、オープンソース ソフトウェア ライブラリである TensorRT-LLM により、LLM は複数の GPU と複数の GPU サーバーで同時に推論を実行できるようになります。

サーバーはそれぞれ Nvidia の NVLink および InfiniBand 相互接続を介して接続されます。

3 つ目は「インフライト バッチング」です。これは、異なるモデル タスクが他のタスクとは独立して GPU に出入りできるようにする新しいスケジューリング テクノロジです。

最後に、TensorRT-LLM は、H100 Transformer Engine を活用してモデル推論中のメモリ使用量とレイテンシを削減するように最適化されています。

次に、TensorRT-LLM がモデルのパフォーマンスをどのように向上させるかを詳しく見てみましょう。

豊かなLLMエコシステムをサポート

TensorRT-LLM は、オープンソース モデル エコシステムに優れたサポートを提供します。

Meta の Llama 2-70B などの最大かつ最も高度な言語モデルでは、リアルタイムで応答を提供するために複数の GPU が連携して動作する必要があります。

以前は、LLM 推論の最適なパフォーマンスを実現するために、開発者は AI モデルを書き直し、手動で複数のフラグメントに分割し、GPU 間で実行を調整する必要がありました。

TensorRT-LLM はテンソル並列処理を使用して重み行列を各デバイスに分散し、このプロセスを簡素化して大規模で効率的な推論を可能にします。

各モデルは、開発者の介入やモデルの変更なしに、NVLink 経由で接続された複数の GPU および複数のサーバー上で並列に実行できます。

新しいモデルとモデル アーキテクチャが利用可能になると、開発者は TensorRT-LLM でオープン ソース化された最新の NVIDIA AI カーネルを使用してモデルを最適化できます。

GPT モデル実行のコンテキストと生成フェーズ向けの最先端の FlashAttention 実装と Masked Multi-Head Attention を含む Kernal Fusion をサポートしました。

さらに、TensorRT-LLM には、多くの一般的な大規模言語モデルの完全に最適化された、すぐに実行できるバージョンが含まれています。

これらには、Meta Llama 2、OpenAI GPT-2 および GPT-3、Falcon、Mosaic MPT、BLOOM など 10 を超えるモデルが含まれており、これらはすべてシンプルで使いやすい TensorRT-LLM Python API を使用して呼び出すことができます。

これらの機能により、開発者はさまざまな業界のさまざまなニーズを満たすカスタマイズされた大規模言語モデルをより迅速かつ正確に構築できるようになります。

飛行中のバッチ処理

大規模言語モデルは、今日ではさまざまなアプリケーションで使用されています。

チャットボットでの単純な質疑応答から、ドキュメントの要約や長いコード ブロックの生成まで、1 つのモデルを複数の一見異なるタスクに同時に使用できます。ワークロードは非常に動的であり、出力サイズはさまざまな規模のタスクのニーズを満たす必要があります。

タスクが多様であると、リクエストを効率的にバッチ処理して効率的に並列実行することが難しくなり、一部のリクエストが他のリクエストよりも早く完了する可能性があります。

これらの動的負荷を管理するために、TensorRT-LLM には「インフライト バッチング」と呼ばれる最適化されたスケジューリング手法が含まれています。

その基本原理は、大規模な言語モデルのテキスト生成プロセス全体を、モデル上の複数の実行反復に分解できることです。

インフライト バッチ処理では、TensorRT-LLM ランタイムは、バッチ全体が完了するまで待ってから次のリクエスト セットを続行するのではなく、バッチから完了したシーケンスを直ちに解放します。

新しいリクエストが実行されている間も、前のバッチでまだ完了していない他のリクエストは引き続き処理されます。

インフライト バッチ処理と追加のカーネル レベルの最適化により GPU の使用率が向上し、H100 での LLM リアルタイム リクエスト ベンチマークのスループットが少なくとも 2 倍になります。

FP8を使用したH100トランスフォーマーエンジン

TensorRT-LLM は、H100 Transformer Engine と呼ばれる機能も提供しており、大規模なモデル推論時のメモリ消費とレイテンシを効果的に削減できます。

LLM には数十億のモデル重みと活性化関数が含まれているため、通常は FP16 または BF16 値を使用してトレーニングおよび表現され、それぞれが 16 ビットのメモリを占有します。

ただし、推論時には、量子化技術を使用して、ほとんどのモデルを 8 ビットまたは 4 ビットの整数 (INT8 または INT4) などの低い精度で効率的に表現できます。

量子化とは、精度を犠牲にすることなく、モデルの重みとアクティベーションの精度を下げるプロセスです。精度を低くすると、各パラメータが小さくなり、モデルが GPU メモリで占めるスペースが少なくなります。

これにより、実行中のメモリ操作に費やす時間を短縮しながら、同じハードウェアを使用して大規模なモデルでの推論が可能になります。

H100 Transformer Engine テクノロジーにより、TensorRT-LLM を搭載した H100 GPU では、モデルの重みを新しい FP8 形式に簡単に変換し、最適化された FP8 カーネルを活用するためにモデルを自動的にコンパイルできるようになります。

このプロセスにはコードは必要ありません。 H100 で導入された FP8 データ形式により、開発者はモデルを量子化し、モデルの精度を犠牲にすることなくメモリ消費を大幅に削減できます。

INT8 や INT4 などの他のデータ形式と比較すると、FP8 量子化はより高い精度を維持しながら最速のパフォーマンスを実現し、実装が最も簡単です。

TensorRT-LLMの入手方法

TensorRT-LLMはまだ正式にリリースされていませんが、ユーザーはまずこれを体験することができます。

応募リンクは以下の通りです。

https://developer.nvidia.com/tensorrt-llm-early-access/join

NVIDIA はまた、TensorRT-LLM を NVIDIA NeMo フレームワークに近々統合する予定であると述べました。

このフレームワークは、NVIDIA が最近開始した AI Enterprise の一部であり、企業顧客に安全で安定した、管理しやすいエンタープライズ レベルの AI ソフトウェア プラットフォームを提供します。

開発者や研究者は、NVIDIA NGC の NeMo フレームワークまたは GitHub のプロジェクトを通じて TensorRT-LLM にアクセスできます。

ただし、このバージョンへの早期アクセスを申請するには、ユーザーは NVIDIA 開発者プログラムに登録する必要があることに注意してください。

ネットユーザーの間で熱い議論

Reddit のネットユーザーたちは TensorRT-LLM のリリースについて白熱した議論を交わしました。

LLM 専用にハードウェアを最適化した後、パフォーマンスがどの程度向上するかは想像しにくいです。

しかし、一部のネットユーザーは、この出来事の意義は黄氏がH100をもっと売るのに役立つことだと信じている。

しかし、一部のネットユーザーはこれにあまり同意していません。彼らは、Tensor RTはSDをローカルに展開するユーザーにとっても役立つため、RTX GPUを持っている限り、将来的に同様の製品の恩恵を受けることができるはずだと考えています。

よりマクロな視点で見ると、おそらく LLM の場合、一連のハードウェア レベルの最適化が行われ、将来的には LLM のパフォーマンスを向上させるために LLM 専用に設計されたハードウェアも登場するでしょう。この状況は実際に多くの一般的なアプリケーションで発生しており、LLM も例外ではありません。


<<:  世界がH100を奪い合っている! Nvidia が GPU の優位性を達成、主任科学者が成功の 4 つの要素を明らかに

>>: 

ブログ    
ブログ    

推薦する

BAIRの最新のRLアルゴリズムはGoogle Dreamerを上回り、パフォーマンスが2.8倍向上しました。

ピクセルベースの RL アルゴリズムが復活しました。BAIR は対照学習と RL を組み合わせたアル...

AIがタンパク質構造を予測し、サイエンス誌とネイチャー誌の年間技術革新として掲載され、無限の可能性を秘めている

2021 年に AI 分野で最も画期的な賞を授与するとしたら、誰を選びますか? 「サイエンス」と「ネ...

データサイエンスと機械学習のためのトップ 16 プラットフォーム

調査会社ガートナーは、データ サイエンスおよび機械学習プラットフォームを「さまざまなデータ サイエン...

AIがプライバシーを尊重しながら優れた顧客体験を生み出す方法

ゼブラテクノロジーズグレーターチャイナのテクニカルディレクター、チェン・ニン氏近年の人工知能(AI)...

復活したジャンルのトップ10を数えると、必ず気に入るジャンルが見つかる

統計モデルやその他のアルゴリズムに加えて、回帰は機械学習を正常に動作させるための重要な要素です。回帰...

...

ニューラルコンピュータAIモデルのブレークスルー!トレーニング時間は1秒あたり120万フレームに達し、新記録を樹立

[[326502]]今週、IBMは、同社のニューラル・コンピュータ・システムが1秒あたり120万フレ...

AI分野で世界で最も影響力のある機関トップ100のランキング、中国の機関6つがランクイン

[[243888]]現在、「人工知能」という言葉は主要メディアプラットフォームで頻繁に登場し、注目を...

...

ルカン氏と彼のポスドク研究員はarxivに論文を発表したが、redditのネットユーザーから「最初の写真は間違っている」と疑問視された。

ニューラル ネットワーク モデルのトレーニングの最大の欠点は、大量のトレーニング データが必要になる...

サイバーセキュリティにおける AI: 誇大宣伝と現実

人工知能(AI)の可能性は魅力的です。セキュリティ管理者への警鐘。自律的な自己学習ソリューションの力...

...

ゲイリー・マーカスはヒントンとマスクを公然と非難した。「ディープラーニングは壁にぶつかった。10万ドル賭けるよ」

「もし誰かが(ディープラーニングが)壁にぶつかったと言うなら、ディープラーニングではできないことの...

トレンドマイクロ:2030年までにAIがサイバーセキュリティ担当者に取って代わる

トレンドマイクロは、2021年に向けて、サイバー犯罪者がホームネットワークを利用して企業のITおよび...

ニューラルネットワークと人間の思考の深い関係

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...