Nvidia は、ハイエンド GPU チップ上の AI モデルのパフォーマンスを向上させる TensorRT-LLM オープンソース ソフトウェアをリリースしました。

Nvidia は、ハイエンド GPU チップ上の AI モデルのパフォーマンスを向上させる TensorRT-LLM オープンソース ソフトウェアをリリースしました。

Nvidia は最近、TensorRT-LLM と呼ばれる新しいオープンソース ソフトウェア スイートのリリースを発表しました。これは、Nvidia GPU 上の大規模言語モデル最適化の機能を拡張し、展開後の人工知能推論パフォーマンスの限界を押し上げます。

生成 AI ビッグ言語モデルは、その優れた機能により人気が高まり、人工知能の可能性を広げています。多くの業界で広く使用されており、ユーザーはチャットボットを通じて「データと対話」したり、大きな文書を要約したり、ソフトウェア コードを記述したり、情報を理解する新しい方法を発見したりできます。

「大規模言語モデルの推論はますます困難になっています」と、Nvidia のハイパースケールおよび高性能コンピューティング担当副社長の Ian Buck 氏は語ります。「モデルが複雑になり、よりスマートになり、より大きくなるのは当然ですが、モデルが単一の GPU を超えて拡張され、複数の GPU で実行する必要がある場合は課題になります。」

人工知能において、推論とは、要約、コードの生成、推奨事項の提供、質問への回答など、モデルがこれまでに見たことのない新しいデータを処理するプロセスです。これは、大規模な言語モデルの主力です。

モデル エコシステムが急速に拡大するにつれて、モデルはより大きく強力になり、モデルが大きくなりすぎて単一の GPU で同時に実行できなくなり、分割する必要が生じます。開発者とエンジニアは、リアルタイムで応答を得るために、ワークロードを手動で分離またはセグメント化し、実行を調整する必要があります。 TensorRT-LLM は、「テンソル並列処理」を通じてこの問題を解決し、複数の GPU にわたる大規模で効率的な推論を可能にします。

さらに、現在市場にはさまざまな大規模言語モデルが存在するため、Nvidia はコアを現在主流の大規模言語モデルに合わせて最適化しました。ソフトウェア スイートには、Meta Platform の Llama 2、OpenAI の GPT-2 および GPT-3、Falcon、MosaicMPT、BLOOM など、大規模言語モデルの完全に最適化された、すぐに実行できるバージョンが含まれています。

動的ワークロードのための「バッチオンザフライ」メカニズム

大規模言語モデルの性質上、モデルのワークロードは非常に動的になる可能性があります。ワークロードの要件とタスクの使用法は、時間の経過とともに変化する可能性があります。単一のモデルをチャットボットとして使用して質問したり回答したりできるほか、大きなドキュメントや短いドキュメントを要約するためにも使用できます。したがって、出力サイズはまったく異なる桁数になる可能性があります。

これらのさまざまなワークロードを処理するために、TensorRT-LLM は「オンザフライ バッチング」と呼ばれるメカニズムを導入します。これは、テキスト生成プロセスを複数のフラグメントに分割して GPU に出入りできるようにする最適化されたスケジューリング プロセスであり、新しいバッチを開始する前にワークロードのバッチ全体を完了する必要がありません。

以前は、非常に大きなドキュメントの要約抽出などの大きなリクエストがあった場合、キューを先に進める前に、後ろにあるすべての処理はそのプロセスが完了するまで待機する必要がありました。

Nvidia は、Meta、Cohere、Grammarly、Databricks、Tabnine など、多数のベンダーと協力して TensorRT-LLM を最適化してきました。彼らの協力により、Nvidia は、大規模言語モデルをカスタマイズするための新しいアーキテクチャを定義および最適化するためのオープンソースの Python アプリケーション ユーザー インターフェイスを含む、ソフトウェア スイートの機能とツールセットの合理化を継続してきました。

たとえば、MosaicML は、TensorRT-LLM を既存のソフトウェア スタックに統合するときに、TensorRT-LLM の上に追加機能を追加します。これは簡単なプロセスだとデータブリックスのエンジニアリング担当副社長、ナビーン・ラオ氏は言う。

「TensorRT-LLM は使いやすく、機能が豊富で (トークン ストリーミング、動的バッチ処理、ページ アテンション、量子化など)、効率的で、NVIDIA GPU を使用した大規模言語モデルの提供に最高のパフォーマンスを提供し、コスト削減をお客様に還元できます。」

Nvidia は、TensorRT-LLM とそれがもたらすオンザフライ バッチ処理などのメリットにより、Nvidia H100 を使用して記事の要約を抽出する推論パフォーマンスが 2 倍以上に向上すると主張しています。 GPT-J-6B モデルを使用した CNN/Daily Mail の記事要約の A100 テストでは、H100 単体では A100 より 4 倍高速で、TensorRT-LLM 最適化を有効にすると 8 倍高速になりました。

TensorRT-LLM は、開発者やエンジニアにディープラーニング コンパイラ、最適化された大規模言語モデル カーネル、前処理と後処理、マルチ GPU/マルチノード通信機能、シンプルなオープン ソース API を提供し、大規模言語モデルの作成のための推論を迅速に最適化して実行できるようにします。大規模な言語モデルがデータ センターを継続的に再形成するにつれて、企業のより高いパフォーマンスに対する需要は、開発者がこれまで以上に、より高いパフォーマンスの結果を実現するための機能とアクセスを提供するツールを必要とすることを意味します。

TensorRT-LLM ソフトウェア スイートは現在、Nvidia の開発者プログラムの開発者向けに早期アクセスが可能で、来月には、実稼働 AI 向けのエンドツーエンドのソフトウェア プラットフォームである Nvidia AI Enterprise の NeMo フレームワークに統合される予定です。

<<: 

>>:  Langchain、ChromaDB、GPT 3.5 に基づく検索強化型生成

ブログ    
ブログ    

推薦する

機械学習の成功事例 5 つ

人工知能と機械学習は企業の世界で注目を集めており、組織はますますこれらのテクノロジーを活用して顧客の...

人工知能によって破壊される可能性のある7つの業界

[[417720]]人工知能は最先端の技術から人々の日常生活に組み込まれる技術へと急速に進化していま...

...

...

コンピュータマスターのジレンマ!試験に合格するのは難しく、仕事を見つけるのも難しい

3年前、ディープラーニングを専攻し、2019年度に入学したばかりのコンピューターマスターが知乎に質問...

ディープラーニングを実践するための7つのステップ

私たちの仕事では、「ディープラーニングの学習はどこから始めればよいですか?」という質問をよく受けます...

...

モビリティの未来:スマート、持続可能、効率的

[[348989]] COVID-19のロックダウンの緩和により多くの社会的要因が浮き彫りになりまし...

スポーツイベントではロボットが人間に取って代わるのでしょうか?

スポーツにロボットを導入することは、器用な移動、リアルタイムのモーション制御、経路計画などの最新ロボ...

ソフトバンクの孫正義社長:AIの知能は10年以内に人間を超えると予想

ロイター通信は10月4日、ソフトバンクグループの創業者兼CEOの孫正義氏が本日、汎用人工知能(AGI...

...

Stable Diffusion で 1 秒で写真を作成しましょう。清華大学マスターアクセラレーターはホットなトレンドで、いくつかの企業が参加している

AI画像生成は秒単位のスピードに達しました。描画を完了するには4ステップの推論しかかからず、最速では...

人工知能が人間の能力を高める4つの方法

調査会社ガートナーの調査によると、2021年までに世界中の組織が人工知能を通じて約3兆ドルのビジネス...