Nvidia は、ハイエンド GPU チップ上の AI モデルのパフォーマンスを向上させる TensorRT-LLM オープンソースソフトウェアをリリースしました。

Nvidia は最近、TensorRT-LLM と呼ばれる新しいオープンソースソフトウェアスイートのリリースを発表しました。これは、Nvidia GPU 上の大規模言語モデル最適化の機能を拡張し、展開後の人工知能推論パフォーマンスの限界を押し上げます。

生成 AI ビッグ言語モデルは、その優れた機能により人気が高まり、人工知能の可能性を広げています。多くの業界で広く使用されており、ユーザーはチャットボットを通じて「データと対話」したり、大きな文書を要約したり、ソフトウェアコードを記述したり、情報を理解する新しい方法を発見したりできます。

「大規模言語モデルの推論はますます困難になっています」と、Nvidia のハイパースケールおよび高性能コンピューティング担当副社長の Ian Buck 氏は語ります。「モデルが複雑になり、よりスマートになり、より大きくなるのは当然ですが、モデルが単一の GPU を超えて拡張され、複数の GPU で実行する必要がある場合は課題になります。」

人工知能において、推論とは、要約、コードの生成、推奨事項の提供、質問への回答など、モデルがこれまでに見たことのない新しいデータを処理するプロセスです。これは、大規模な言語モデルの主力です。

モデルエコシステムが急速に拡大するにつれて、モデルはより大きく強力になり、モデルが大きくなりすぎて単一の GPU で同時に実行できなくなり、分割する必要が生じます。開発者とエンジニアは、リアルタイムで応答を得るために、ワークロードを手動で分離またはセグメント化し、実行を調整する必要があります。 TensorRT-LLM は、「テンソル並列処理」を通じてこの問題を解決し、複数の GPU にわたる大規模で効率的な推論を可能にします。

さらに、現在市場にはさまざまな大規模言語モデルが存在するため、Nvidia はコアを現在主流の大規模言語モデルに合わせて最適化しました。ソフトウェアスイートには、Meta Platform の Llama 2、OpenAI の GPT-2 および GPT-3、Falcon、MosaicMPT、BLOOM など、大規模言語モデルの完全に最適化された、すぐに実行できるバージョンが含まれています。

動的ワークロードのための「バッチオンザフライ」メカニズム

大規模言語モデルの性質上、モデルのワークロードは非常に動的になる可能性があります。ワークロードの要件とタスクの使用法は、時間の経過とともに変化する可能性があります。単一のモデルをチャットボットとして使用して質問したり回答したりできるほか、大きなドキュメントや短いドキュメントを要約するためにも使用できます。したがって、出力サイズはまったく異なる桁数になる可能性があります。

これらのさまざまなワークロードを処理するために、TensorRT-LLM は「オンザフライバッチング」と呼ばれるメカニズムを導入します。これは、テキスト生成プロセスを複数のフラグメントに分割して GPU に出入りできるようにする最適化されたスケジューリングプロセスであり、新しいバッチを開始する前にワークロードのバッチ全体を完了する必要がありません。

以前は、非常に大きなドキュメントの要約抽出などの大きなリクエストがあった場合、キューを先に進める前に、後ろにあるすべての処理はそのプロセスが完了するまで待機する必要がありました。

Nvidia は、Meta、Cohere、Grammarly、Databricks、Tabnine など、多数のベンダーと協力して TensorRT-LLM を最適化してきました。彼らの協力により、Nvidia は、大規模言語モデルをカスタマイズするための新しいアーキテクチャを定義および最適化するためのオープンソースの Python アプリケーションユーザーインターフェイスを含む、ソフトウェアスイートの機能とツールセットの合理化を継続してきました。

たとえば、MosaicML は、TensorRT-LLM を既存のソフトウェアスタックに統合するときに、TensorRT-LLM の上に追加機能を追加します。これは簡単なプロセスだとデータブリックスのエンジニアリング担当副社長、ナビーン・ラオ氏は言う。

「TensorRT-LLM は使いやすく、機能が豊富で (トークンストリーミング、動的バッチ処理、ページアテンション、量子化など)、効率的で、NVIDIA GPU を使用した大規模言語モデルの提供に最高のパフォーマンスを提供し、コスト削減をお客様に還元できます。」

Nvidia は、TensorRT-LLM とそれがもたらすオンザフライバッチ処理などのメリットにより、Nvidia H100 を使用して記事の要約を抽出する推論パフォーマンスが 2 倍以上に向上すると主張しています。 GPT-J-6B モデルを使用した CNN/Daily Mail の記事要約の A100 テストでは、H100 単体では A100 より 4 倍高速で、TensorRT-LLM 最適化を有効にすると 8 倍高速になりました。

TensorRT-LLM は、開発者やエンジニアにディープラーニングコンパイラ、最適化された大規模言語モデルカーネル、前処理と後処理、マルチ GPU/マルチノード通信機能、シンプルなオープンソース API を提供し、大規模言語モデルの作成のための推論を迅速に最適化して実行できるようにします。大規模な言語モデルがデータセンターを継続的に再形成するにつれて、企業のより高いパフォーマンスに対する需要は、開発者がこれまで以上に、より高いパフォーマンスの結果を実現するための機能とアクセスを提供するツールを必要とすることを意味します。

TensorRT-LLM ソフトウェアスイートは現在、Nvidia の開発者プログラムの開発者向けに早期アクセスが可能で、来月には、実稼働 AI 向けのエンドツーエンドのソフトウェアプラットフォームである Nvidia AI Enterprise の NeMo フレームワークに統合される予定です。

<<:

>>: Langchain、ChromaDB、GPT 3.5 に基づく検索強化型生成