Llama2推論: RTX3090はレイテンシとスループットで4090を上回るが、A800には遠く及ばない

Llama2推論: RTX3090はレイテンシとスループットで4090を上回るが、A800には遠く及ばない

大規模言語モデル (LLM) は、学界と産業界の両方で大きな進歩を遂げてきました。しかし、LLM のトレーニングと展開には非常にコストがかかり、多くのコンピューティング リソースとメモリが必要になるため、研究者は LLM の事前トレーニング、微調整、推論を加速するための多くのオープン ソース フレームワークとメソッドを開発してきました。ただし、ハードウェア スタックとソフトウェア スタックの実行時パフォーマンスは大きく異なる場合があり、最適な構成を選択することが困難になります。

最近、「大規模言語モデルのトレーニング、微調整、推論の実行時パフォーマンスの分析」というタイトルの新しい論文が発表され、マクロとミクロの両方の観点から LLM のトレーニング、微調整、推論の実行時パフォーマンスが詳細に分析されました。

論文アドレス: https://arxiv.org/pdf/2311.03687.pdf

具体的には、この研究ではまず、ZeRO、量子化、再計算、FlashAttention などの個別の最適化手法の有無にかかわらず、3 つの 8 GPU プラットフォーム上で事前トレーニング、微調整、および提供を行うために、さまざまなサイズ (7B、13B、70B パラメータ) の LLM のエンドツーエンドのパフォーマンス ベンチマークを実施しました。次に、この研究では、LLM の計算演算子と通信演算子を含むサブモジュールの詳細な実行時分析をさらに提供します。

方法の紹介

この研究のベンチマークではトップダウン アプローチを採用しており、図 3 に示すように、3 つの 8 GPU ハードウェア プラットフォーム上の Llama2 のエンドツーエンドのステップ時間パフォーマンス、モジュール レベルの時間パフォーマンス、およびオペレーター時間パフォーマンスをカバーしています。

3 つのハードウェア プラットフォームは RTX4090、RTX3090、A800 であり、それぞれの具体的な仕様は以下の表 1 に示されています。

ソフトウェア面では、この研究では、事前トレーニングと微調整におけるDeepSpeedとMegatron-LMのエンドツーエンドのステップ時間を比較しました。最適化手法を評価するために、本研究ではDeepSpeedを使用して、ZeRO-2、ZeRO-3、オフロード、アクティベーション再計算、量子化、FlashAttentionの最適化を1つずつ有効にして、パフォーマンスの向上と時間とメモリ消費の削減を測定しました。

LLM サービスに関しては、vLLM、LightLLM、TGI という 3 つの高度に最適化されたシステムがあり、この調査では 3 つのテスト プラットフォームでそれらのパフォーマンス (レイテンシとスループット) を比較します。

結果の正確性と再現性を確保するために、本研究では、一般的に使用されている LLM データセット alpaca の命令、入力、出力の平均長 (サンプルあたり 350 トークン) を計算し、ランダムに生成された文字列を使用して 350 のシーケンス長を達成しました。

推論サービスでは、コンピューティング リソースを総合的に活用し、フレームワークの堅牢性と効率性を評価するために、すべてのリクエストがバースト モードでスケジュールされます。実験データセットは 1000 個の合成文で構成され、各文には 512 個の入力トークンが含まれています。この研究では、結果の一貫性と比較可能性を確保するために、同じ GPU プラットフォーム上のすべての実験で「最大生成トークン長」パラメータを常に維持しました。

エンドツーエンドのパフォーマンス

この調査では、さまざまなサイズの Llama2 モデル (7B、13B、70B) の事前トレーニング、微調整、推論について、ステップ時間、スループット、メモリ消費などの指標を使用して、3 つのテスト プラットフォームでエンドツーエンドのパフォーマンスを測定します。広く使用されている 3 つの推論サービス システム (TGI、vLLM、LightLLM) が評価され、レイテンシ、スループット、メモリ消費などのメトリックに重点が置かれます。

モジュールレベルのパフォーマンス

LLM は通常、独自の計算特性と通信特性を持つ一連のモジュール (またはレイヤー) で構成されます。たとえば、Llama2 モデルを構成する主要なモジュールは、Embedding、LlamaDecoderLayer、Linear、SiLUActivation、および LlamaRMSNorm です。

事前トレーニングの結果

事前トレーニング実験では、研究者らはまず3つのテストプラットフォーム上で異なるサイズ(7B、13B、70B)のモデルの事前トレーニングパフォーマンス(反復時間またはスループット、メモリ消費量)を分析し、次にモジュールレベルと操作レベルでマイクロベンチマークテストを実施しました。

エンドツーエンドのパフォーマンス

研究者らはまず、Megatron-LM と DeepSpeed のパフォーマンスを比較する実験を実施しました。どちらも、A800-80GB サーバーで Llama2-7B を事前トレーニングする際に、メモリ最適化技術 (ZeRO など) を使用しませんでした。

彼らは 350 のシーケンス長を使用し、Megatron-LM と DeepSpeed に 1 から最大バッチ サイズまでの範囲の 2 セットのバッチ サイズを提供しました。結果は、以下の表 II に示されており、トレーニング スループット (トークン/秒) とコンシューマー グレードの GPU メモリ (GB 単位) をベンチマークしたものです。

結果は、バッチ サイズが 1 の場合、Megatron-LM が DeepSpeed よりもわずかに高速であることを示しています。しかし、バッチサイズが最大になると、DeepSpeed のトレーニング速度が最も速くなります。バッチサイズが同じ場合、DeepSpeed はテンソル並列ベースの Megatron-LM よりも多くの GPU メモリを消費します。バッチ サイズが小さい場合でも、両方のシステムは大量の GPU メモリを消費し、RTX4090 または RTX3090 GPU サーバーでメモリ オーバーフローが発生します。

Llama2-7B(シーケンス長350、バッチサイズ2)をトレーニングする際、研究者は量子化を備えたDeepSpeedを使用して、さまざまなハードウェアプラットフォームでのスケーリング効率を調査しました。結果は下の図4に示されています。A800はほぼ線形拡張ですが、RTX4090とRTX3090の拡張効率はそれぞれ90.8%と85.9%とわずかに低くなっています。 RTX3090 プラットフォームでは、NVLink 接続により、NVLink なしの場合と比較して拡張効率が 10% 向上します。

研究者らはDeepSpeedを使用して、さまざまなメモリ効率と計算効率の高い方法のトレーニング パフォーマンスを評価しました。公平を期すために、すべての評価はシーケンス長 350、バッチ サイズ 1 に設定され、デフォルトで読み込まれるモデルの重みは bf16 になります。

オフロード機能を備えた ZeRO-2 および ZeRO-3 では、それぞれオプティマイザーの状態とオプティマイザーの状態 + モデルが CPU RAM にオフロードされます。量子化には、二重量子化による 4 ビット構成を使用しました。また、NVLink が無効になっている場合 (つまり、すべてのデータが PCIe バス経由で転送される場合) の RTX3090 のパフォーマンスも報告されています。結果は下の表IIIに示されています。

研究者らは、各方法のバッチ サイズを最大化してスループットを最大化することで、さまざまな GPU サーバーの計算能力をさらに活用しました。結果は以下の表 IV に示されており、バッチ サイズを増やすとトレーニング プロセスが簡単に改善されることがわかります。したがって、高帯域幅と大容量メモリを備えた GPU サーバーは、コンシューマーグレードの GPU サーバーよりも、フルパラメータ混合精度トレーニングに適しています。

モジュールレベルの分析

以下の表 V は、単一ステップの事前トレーニング済み Llama2-7B モデルのフォワード、バックワード、およびオプティマイザーの全体および計算コア時間のコストを示しています。後方フェーズでは、合計時間に重複しない時間が含まれるため、計算コア時間は前方フェーズやオプティマイザーの時間よりもはるかに短くなります。後方位相から非重複時間を除くと、値は 94.8 になります。

再計算とFlashAttentionの影響

事前トレーニングを高速化する手法は、メモリを節約してバッチ サイズを増やすことと、コンピューティング コアを高速化することの 2 つのカテゴリに大別できます。下の図 5 に示すように、GPU は、フォワード、バックワード、およびオプティマイザー フェーズ中に 5 ~ 10% の時間アイドル状態になります。

研究者たちは、このアイドル時間の原因はバッチサイズが小さいことにあると考え、すべての技術で使用できる最大のバッチサイズをテストしました。最後に、再計算を使用してバッチ サイズを増やし、FlashAttention を使用してコア分析の計算を高速化します。

下の表 VII に示すように、バッチ サイズが大きくなるにつれて、順方向フェーズと逆方向フェーズの時間が大幅に増加し、GPU のアイドル時間はほぼゼロになります。

下の表 VIII は、FlashAttention によって前方アテンション モジュールと後方アテンション モジュールの速度がそれぞれ 34.9% と 24.7% 向上することを示しています。

微調整の結果

微調整セッションでは、研究者らは主にパラメータ効率の良い微調整法(PEFT)について議論し、さまざまなモデルサイズとハードウェア設定でのLoRAとQLoRAの微調整パフォーマンスを実証しました。シーケンス長 350、バッチ サイズ 1 を使用し、モデルの重みをデフォルトで bf16 にロードします。

結果は下の表 IX に示されています。LoRA と QLoRA で微調整された Llama2-13B のパフォーマンス傾向は、Llama2-7B の傾向と一致しています。 Llama2-13B を微調整した場合のスループットは、lama2-7B に比べて約 30% 低下します。

ただし、すべての最適化手法を組み合わせると、RTX4090 と RTX3090 でも Llama2-70B を微調整し、合計 200 トークン/秒のスループットを達成できます。

推論結果

エンドツーエンドのパフォーマンス

下の図 6 は、Llama2-70B の関連推論データを省略し、さまざまなハードウェア プラットフォームと推論フレームワークにおけるスループットの包括的な分析を示しています。 TGI フレームワークは、特に RTX3090 や RTX4090 などの 24GB のメモリを搭載した GPU で優れたスループットを示します。さらに、A800 GPU プラットフォームでの LightLLM のパフォーマンスは TGI や vLLM よりも大幅に優れており、スループットはほぼ 2 倍になります。

これらの実験結果は、TGI 推論フレームワークが 24GB メモリ GPU プラットフォームで優れたパフォーマンスを発揮し、LightLLM 推論フレームワークが A800 80GB GPU プラットフォームで最高のスループットを発揮することを示しています。この結果は、LightLLM が A800/A100 シリーズの高性能 GPU 向けに特別に最適化されていることを示しています。

さまざまなハードウェア プラットフォームと推論フレームワークでのレイテンシ パフォーマンスを図 7、8、9、10 に示します。

要約すると、A800 プラットフォームは、スループットとレイテンシの点で、2 つのコンシューマー グレード プラットフォームである RTX4090 と RTX3090 よりも大幅に優れています。そして、2 つのコンシューマー レベル プラットフォームのうち、RTX3090 は RTX4090 よりもわずかに優れています。コンシューマーグレードのプラットフォームで実行する場合、3 つの推論フレームワーク (TGI、vLLM、LightLLM) ではスループットに大きな違いは見られません。対照的に、TGI はレイテンシの点では他の 2 つよりも一貫して優れています。 A800 GPU プラットフォームでは、LightLLM はスループットの点で最高のパフォーマンスを発揮し、そのレイテンシは TGI フレームワークのレイテンシに非常に近くなります。

詳しい実験結果については原著論文を参照してください。

<<:  チューリング賞受賞者のヤン・ルカン氏への最新インタビュー: AI は世界を支配するだろうが、人類を征服することはない!

>>:  トイレ掃除から純資産435億ドルへ!黄仁訓の成功の秘訣:時計を着けないこと

ブログ    
ブログ    

推薦する

同意しますか?コンピューティングの未来は分散化です!

[51CTO.com クイック翻訳] 分散アプリケーションは何も新しいものではありません。最初の分...

AI はその「創造物」に対して創造的権利を有するのでしょうか?人民日報:いいえ

AI技術の発展に伴い、AIの創作への参加も魅力的なハイライトとなっています。そこで疑問なのが、AI ...

MITが家中に設置できる紙のように薄いスピーカーを開発

MITのエンジニアたちは、あらゆる表面を音源に変えることができる紙のように薄いスピーカーを開発した...

ニューラルネットワークに基づくマルウェア検出分析

今日、あらゆる業界にとって、「マルウェアを効果的に検出する方法」は、ネットワーク セキュリティに関す...

時系列を大規模モデルと組み合わせることはできますか?アマゾンの最新研究:大規模モデルで時系列予測を説明できる

最近、Amazon は時系列予測にビッグモデルを使用する方法に関する論文を発表しました。これは時系列...

2020 年に注目すべき 4 つのエンタープライズ AR トレンド

AR テクノロジーは消費者向け分野ではそれほど優れた成果を上げていませんが、ビジネス界では好まれてい...

顔認識はどのように実現されるのでしょうか? コンピューターはカメラを通じてどのように私たちの身元を識別するのでしょうか?

携帯電話を使って顔をスキャンして支払いをするとき、会社の入退室管理を通過するとき、あるいは道路を運転...

人工知能が医療画像をどのように変えるか AI は医療画像の世界における第二の目となる

人工知能は多くの分野に影響を及ぼしています。しかし、いくつかの大きな変化が起こっており、その 1 つ...

AIが仕事や生活を奪ったら、人類の未来はどうなるのでしょうか?

AIの発展は、人間の仕事の効率を向上させ、人間の働き方を変え、さらには人類の発展の方向を導く上で大...

人工知能はチェスをプレイする以外に何をすべきでしょうか?

[[183486]]医療、金融、交通、教育、公安、小売、商業サービスなどの業界は、電子データの度合...

新しい顔認識ツール: 少ないデータでも「国際的な顔」を認識

最近、アマゾンの顔認識ツールが米国議会議員28名を犯罪者と誤って照合し、注目を集めた。顔認識ツールは...

AIがシュレーディンガー方程式を正確かつ計算効率よく解く、Nature Chemistry誌に発表

量子力学の基本方程式の一つとして、シュレーディンガー方程式は常に幅広い注目を集めてきました。昨年、D...

第4回パラダイム NeurIPS 2020: ナレッジグラフ埋め込みの自動化

少し前に、Fourth Paradigm の上級研究員である Quanming Yao 博士が、Ne...

Googleが謝罪:Vision AIが人種差別的な結果を生成

新型コロナウイルスと闘っている多くの国々は、駅や空港で国民に体温検査を受けるよう命じている。この状況...