H100推理が8倍に急上昇！ NVIDIAは10以上のモデルをサポートするオープンソースのTensorRT-LLMを正式に発表した。

GPU が不足している人々は、その苦境に別れを告げようとしています。

NVIDIA は現在、H100 上で大規模言語モデルの推論を高速化できるオープンソースソフトウェア TensorRT-LLM をリリースしました。

それで、何回改善できるのでしょうか?

TensorRT-LLM とその一連の最適化機能 (In-Flight バッチ処理を含む) を追加した後、全体的なモデルスループットが 8 倍に増加しました。

GPT-J-6B A100 と H100 の TensorRT-LLM の有無の比較

さらに、Llama 2を例にとると、A100のみを使用した場合と比較して、TensorRT-LLMは推論性能を4.6倍向上させることができます。

Llama 2 70B、A100、H100 と TensorRT-LLM の有無の比較

ネットユーザーによると、強力な H100 と TensorRT-LLM を組み合わせることで、大規模言語モデル推論の現状は間違いなく完全に変わるとのことです。

TensorRT-LLM: 大規模モデル推論を加速する強力なツール

現状では、大規模モデルのパラメータ規模が巨大であるため、「展開と推論」の難易度とコストは依然として高いままです。

NVIDIA が開発した TensorRT-LLM は、GPU を通じて LLM スループットを大幅に向上し、コストを削減することを目的としています。

具体的には、TensorRT-LLM は、TensorRT のディープラーニングコンパイラー、FasterTransformer の最適化されたカーネル、前処理と後処理、およびマルチ GPU/マルチノード通信を、シンプルなオープンソース Python API にカプセル化します。

NVIDIA は FasterTransformer をさらに強化し、製品化されたソリューションにしました。

TensorRT-LLM は、使いやすく、オープンソースでモジュール化された Python アプリケーションプログラミングインターフェイスを提供していることがわかります。

コーダーは、さまざまな大規模言語モデルを展開、実行、デバッグし、最高のパフォーマンスと迅速なカスタマイズ機能を実現するために、C++ または CUDA の詳細な専門知識を必要としません。

Nvidia の公式ブログによると、TensorRT-LLM は 4 つの方法で Nvidia GPU 上の LLM 推論パフォーマンスを最適化します。

まず、現在の 10 を超える大規模モデルに対して、開発者がすぐに実行できるように TensorRT-LLM が導入されました。

2 番目に、オープンソースソフトウェアライブラリである TensorRT-LLM により、LLM は複数の GPU と複数の GPU サーバーで同時に推論を実行できるようになります。

サーバーはそれぞれ Nvidia の NVLink および InfiniBand 相互接続を介して接続されます。

3 つ目は「インフライトバッチング」です。これは、異なるモデルタスクが他のタスクとは独立して GPU に出入りできるようにする新しいスケジューリングテクノロジです。

最後に、TensorRT-LLM は、H100 Transformer Engine を活用してモデル推論中のメモリ使用量とレイテンシを削減するように最適化されています。

次に、TensorRT-LLM がモデルのパフォーマンスをどのように向上させるかを詳しく見てみましょう。

豊かなLLMエコシステムをサポート

TensorRT-LLM は、オープンソースモデルエコシステムに優れたサポートを提供します。

Meta の Llama 2-70B などの最大かつ最も高度な言語モデルでは、リアルタイムで応答を提供するために複数の GPU が連携して動作する必要があります。

以前は、LLM 推論の最適なパフォーマンスを実現するために、開発者は AI モデルを書き直し、手動で複数のフラグメントに分割し、GPU 間で実行を調整する必要がありました。

TensorRT-LLM はテンソル並列処理を使用して重み行列を各デバイスに分散し、このプロセスを簡素化して大規模で効率的な推論を可能にします。

各モデルは、開発者の介入やモデルの変更なしに、NVLink 経由で接続された複数の GPU および複数のサーバー上で並列に実行できます。

新しいモデルとモデルアーキテクチャが利用可能になると、開発者は TensorRT-LLM でオープンソース化された最新の NVIDIA AI カーネルを使用してモデルを最適化できます。

GPT モデル実行のコンテキストと生成フェーズ向けの最先端の FlashAttention 実装と Masked Multi-Head Attention を含む Kernal Fusion をサポートしました。

さらに、TensorRT-LLM には、多くの一般的な大規模言語モデルの完全に最適化された、すぐに実行できるバージョンが含まれています。

これらには、Meta Llama 2、OpenAI GPT-2 および GPT-3、Falcon、Mosaic MPT、BLOOM など 10 を超えるモデルが含まれており、これらはすべてシンプルで使いやすい TensorRT-LLM Python API を使用して呼び出すことができます。

これらの機能により、開発者はさまざまな業界のさまざまなニーズを満たすカスタマイズされた大規模言語モデルをより迅速かつ正確に構築できるようになります。

飛行中のバッチ処理

大規模言語モデルは、今日ではさまざまなアプリケーションで使用されています。

チャットボットでの単純な質疑応答から、ドキュメントの要約や長いコードブロックの生成まで、1 つのモデルを複数の一見異なるタスクに同時に使用できます。ワークロードは非常に動的であり、出力サイズはさまざまな規模のタスクのニーズを満たす必要があります。

タスクが多様であると、リクエストを効率的にバッチ処理して効率的に並列実行することが難しくなり、一部のリクエストが他のリクエストよりも早く完了する可能性があります。

これらの動的負荷を管理するために、TensorRT-LLM には「インフライトバッチング」と呼ばれる最適化されたスケジューリング手法が含まれています。

その基本原理は、大規模な言語モデルのテキスト生成プロセス全体を、モデル上の複数の実行反復に分解できることです。

インフライトバッチ処理では、TensorRT-LLM ランタイムは、バッチ全体が完了するまで待ってから次のリクエストセットを続行するのではなく、バッチから完了したシーケンスを直ちに解放します。

新しいリクエストが実行されている間も、前のバッチでまだ完了していない他のリクエストは引き続き処理されます。

インフライトバッチ処理と追加のカーネルレベルの最適化により GPU の使用率が向上し、H100 での LLM リアルタイムリクエストベンチマークのスループットが少なくとも 2 倍になります。

FP8を使用したH100トランスフォーマーエンジン

TensorRT-LLM は、H100 Transformer Engine と呼ばれる機能も提供しており、大規模なモデル推論時のメモリ消費とレイテンシを効果的に削減できます。

LLM には数十億のモデル重みと活性化関数が含まれているため、通常は FP16 または BF16 値を使用してトレーニングおよび表現され、それぞれが 16 ビットのメモリを占有します。

ただし、推論時には、量子化技術を使用して、ほとんどのモデルを 8 ビットまたは 4 ビットの整数 (INT8 または INT4) などの低い精度で効率的に表現できます。

量子化とは、精度を犠牲にすることなく、モデルの重みとアクティベーションの精度を下げるプロセスです。精度を低くすると、各パラメータが小さくなり、モデルが GPU メモリで占めるスペースが少なくなります。

これにより、実行中のメモリ操作に費やす時間を短縮しながら、同じハードウェアを使用して大規模なモデルでの推論が可能になります。

H100 Transformer Engine テクノロジーにより、TensorRT-LLM を搭載した H100 GPU では、モデルの重みを新しい FP8 形式に簡単に変換し、最適化された FP8 カーネルを活用するためにモデルを自動的にコンパイルできるようになります。

このプロセスにはコードは必要ありません。 H100 で導入された FP8 データ形式により、開発者はモデルを量子化し、モデルの精度を犠牲にすることなくメモリ消費を大幅に削減できます。

INT8 や INT4 などの他のデータ形式と比較すると、FP8 量子化はより高い精度を維持しながら最速のパフォーマンスを実現し、実装が最も簡単です。

TensorRT-LLMの入手方法

TensorRT-LLMはまだ正式にリリースされていませんが、ユーザーはまずこれを体験することができます。

応募リンクは以下の通りです。

https://developer.nvidia.com/tensorrt-llm-early-access/join

NVIDIA はまた、TensorRT-LLM を NVIDIA NeMo フレームワークに近々統合する予定であると述べました。

このフレームワークは、NVIDIA が最近開始した AI Enterprise の一部であり、企業顧客に安全で安定した、管理しやすいエンタープライズレベルの AI ソフトウェアプラットフォームを提供します。

開発者や研究者は、NVIDIA NGC の NeMo フレームワークまたは GitHub のプロジェクトを通じて TensorRT-LLM にアクセスできます。

ただし、このバージョンへの早期アクセスを申請するには、ユーザーは NVIDIA 開発者プログラムに登録する必要があることに注意してください。

ネットユーザーの間で熱い議論

Reddit のネットユーザーたちは TensorRT-LLM のリリースについて白熱した議論を交わしました。

LLM 専用にハードウェアを最適化した後、パフォーマンスがどの程度向上するかは想像しにくいです。

しかし、一部のネットユーザーは、この出来事の意義は黄氏がH100をもっと売るのに役立つことだと信じている。

しかし、一部のネットユーザーはこれにあまり同意していません。彼らは、Tensor RTはSDをローカルに展開するユーザーにとっても役立つため、RTX GPUを持っている限り、将来的に同様の製品の恩恵を受けることができるはずだと考えています。

よりマクロな視点で見ると、おそらく LLM の場合、一連のハードウェアレベルの最適化が行われ、将来的には LLM のパフォーマンスを向上させるために LLM 専用に設計されたハードウェアも登場するでしょう。この状況は実際に多くの一般的なアプリケーションで発生しており、LLM も例外ではありません。

<<: 世界がH100を奪い合っている！ Nvidia が GPU の優位性を達成、主任科学者が成功の 4 つの要素を明らかに

>>:

H100推理が8倍に急上昇！ NVIDIAは10以上のモデルをサポートするオープンソースのTensorRT-LLMを正式に発表した。

TensorRT-LLM: 大規模モデル推論を加速する強力なツール

豊かなLLMエコシステムをサポート

飛行中のバッチ処理

FP8を使用したH100トランスフォーマーエンジン

TensorRT-LLMの入手方法

ネットユーザーの間で熱い議論

2021年の人工知能業界の予測

あなたは人工知能の前で「透明な人」ですか？

蝶ネクタイボイスチェンジャーなしでも1秒でコナンになれる——音声合成＋ディープラーニング

マスク氏が自動運転を「ザッカーバーグの家へ行く」ライブ放送、45分間で手動介入は1回のみ：FSD V12は「ベータ版」ではなくなる

明らかにした！ BBC は 365 の職業を分析し、これが機械によって排除される可能性が最も低い職業であると判明しました。

今後10年間の主要な投資の方向性を予測して、あなたは未来に向けて準備ができていますか?

コンピューティングパワーのギャップを克服: Baidu は、コンピューティングパワーを最適化するために PaddlePaddle と組み合わせた新しい AI コンピューティングアーキテクチャを発表

人工知能の時代では、ロボットがあらゆる面で人間に取って代わっている

AIが初めて量子レベルで物質を記述！自然：化学分野で最も価値のある技術の一つ

推薦する

GPT-4Vを試した後、マイクロソフトは166ページに及ぶ評価レポートを作成した。業界関係者：上級ユーザー必読

インスパー・シャオ・シュエ：人工知能はモノのインターネットを「スマート」にする

[強く推奨] 史上最も包括的な IT アーキテクト技術知識マップ 34 選

Meituanグラフニューラルネットワークトレーニングフレームワークの実践と探索

ディープラーニングでよく使われる8つの活性化関数

再サンプリングからデータ合成まで: 機械学習における不均衡な分類問題にどのように対処するか?

ストレージ自動化、予測分析、人工知能について知っておくべき6つのこと

マスク氏の最新インタビュー：自動運転、AI、テスラのヒューマノイドロボットについて

2Dを3Dにするには、たった2枚の写真だけが必要です。このAIは、ろうそくを吹き消すプロセスを想像することができます。第一著者と第二著者はともに中国人です。

Spark Graphx はグラフの最大クリークマイニング、疑似並列アルゴリズムを実装します

2018 年の人工知能の 8 つの主要トレンド!

90年代以降の世代は、分野を超えてNLPを独学で学び、オープンソースライブラリHanLPを作成しました。このライブラリはGitHubで15,000個のスターを獲得しています。