A100よりもコストパフォーマンスに優れています! FlightLLM により、大規模モデル推論でパフォーマンスとコストを同時に心配する必要がなくなりました。

A100よりもコストパフォーマンスに優れています! FlightLLM により、大規模モデル推論でパフォーマンスとコストを同時に心配する必要がなくなりました。

端末側での大規模言語モデルの適用により、コンピューティング性能とエネルギー効率の需要が「引き出され」、アルゴリズムとチップ間の十分な推論競争の場が生まれました。

想像される終末シナリオに直面すると、GPU および FPGA ベースの推論ソリューションの応用可能性を再検討する必要があります。

最近、武文新瓊、清華大学、上海交通大学は共同でFPGA向け大規模モデル軽量展開プロセスを提案し、初めて単一のXilinx U280 FPGA上でLLaMA2-7Bの効率的な推論を実現しました。

第一著者は、清華大学電子工学科博士で、武文新瓊のハードウェア責任者である曾樹林氏です。責任著者は、上海交通大学准教授で武文新瓊の共同設立者兼主任科学者である戴国昊氏と、清華大学電子工学科教授兼学部長で武文新瓊の発起者である王宇氏です。

関連研究は、再構成可能コンピューティング分野のトップカンファレンスである FPGA'24 に採択されました。

論文リンク: https://arxiv.org/pdf/2401.03868.pdf

FPGA 国際会議に含まれていた清華大学電子工学部の関連研究の最後のラウンドを振り返ると、2016 年の「Going Deeper with Embedded FPGA Platform for Convolutional Neural Network」と 2017 年の「ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA」にまで遡ることができます。

前者は SenseTime の設立のきっかけとなり、後者は International FPGA Conference でその年の唯一の最優秀論文として評価され、機械学習の分野における FPGA の役割の変化について具体的に議論するための特別なチュートリアル セッション「機械学習における FPGA の役割」が設定されました。

FPGA の高性能コンピューティングへの応用可能性が継続的に探求されるにつれて、その影響は学界から産業界に広がり、半導体分野における FPGA 企業の買収が相次ぎました。

高性能コンピューティングは、将来の世界に大きな影響を与える可能性のあるほぼすべての生産および研究のトレンドにおいて重要な役割を果たします。デバイスのコアコンピューティングコンポーネントは依然として CPU と GPU ですが、人工知能アルゴリズムが絶えず改善され、新しい標準が次々と登場する時代においては、急速に変化するこれらのアルゴリズムの推論を加速することが重要です。

ソフトウェアとハ​​ードウェアの共同最適化のトレンドの下、FPGA は効率的な大規模モデル推論システムを柔軟に構築する上でますます重要な役割を果たすようになります。これは、5G通信、データセンター、自動運転車など、多くの兆ドル規模の市場への鍵となると考えられています。

FPGA'24 で受け入れられた新しい結果は FlightLLM と名付けられました。単一のバッチ シナリオでは、同じプロセスで V100S GPU 上の vLLM 推論フレームワークと SmoothQuant 量子化ライブラリを使用する場合と比較して、FlightLLM はエネルギー効率が 6.0 倍、コスト パフォーマンスが 1.8 倍向上します。

今後 1 ~ 2 年を見据えると、コード補完、リアルタイム チャットボット、アフター サポートなど、遅延に敏感なアプリケーション シナリオに大規模なモデルが実装される可能性があります。このようなシナリオでは、低遅延と低消費電力がユーザーのインタラクティブなエクスペリエンスにとって重要です。

しかし、現在の大規模モデルの計算要件とストレージ要件は、従来のニューラル ネットワークよりも桁違いに高く、その推論速度とエネルギー効率では、高速フィードバックを必要とし、エネルギーに敏感なシナリオのニーズを満たすことが困難になっています。

上記の問題を解決するために、業界では通常、スパース化や量子化などの方法を使用して大規模なモデルを圧縮します。ただし、GPU ハードウェア プラットフォームでは、一部の粗粒度のモデル圧縮方法しかサポートされず、カスタマイズされたモデル圧縮方法の計算効率は非常に低くなります。

著者らは、低コスト、構成可能性、低消費電力を備えた FPGA が、大規模モデル推論を加速するための潜在的なソリューションになり得ると考えています。ただし、これをうまく活用するには、次の課題に対処する必要があります。


  • 計算の非効率性: 大規模モデルにおける柔軟なスパース パターン (ブロック スパース、N:M スパースなど) は、計算の非効率性につながります。
  • メモリ帯域幅の使用率が低い: 大規模モデルのデコード フェーズでは、オフチップ メモリから細かいデータを繰り返し読み書きするため、帯域幅の使用率が低くなります (29% ~ 43%)。
  • 高いコンパイル オーバーヘッド: 大規模モデルの動的なスパース パターンと可変入力長により、大きな命令空間が構成されます。たとえば、2048 の入力トークン長の命令を生成すると、FPGA 上で約 TB のストレージ オーバーヘッドが発生します。

FlightLLM の中心的なアイデアは、FPGA 上の特定のリソース (DSP48 や異種メモリ階層など) を活用して、大規模モデルの計算およびストレージのオーバーヘッドの問題を解決することです。

FlightLLM の全体的なアーキテクチャ。

スパース性は理論的には大規模モデルの推論のパフォーマンス向上をもたらしますが、既存のハードウェア アーキテクチャに直接実装することはできません。大規模な Transformer ベースのモデルでは、スパース アテンションやプルーニングなどのスパース メソッドが主に推論を高速化するために使用されます。

しかし、スパース化によって生成されるスパース行列の密度とスパースパターンは不確実です。これは、特に固定 DSP48 乗算ユニットに基づく FPGA アーキテクチャの場合、ハードウェア設計に大きな課題をもたらします。これまでの研究では、スパースコンピューティングをサポートするために多くの追加のハードウェア アーキテクチャが導入されましたが、その結果、ハードウェア リソースが大幅に増加しました。推定によると、消費されるハードウェア リソースは 5 倍近くになります。

(a) 統合マトリックス処理エンジン (MPE)。(b) 行列-行列乗算 (MMMult) および (c) 行列-ベクトル乗算 (MVMult) 計算モードを柔軟にサポートできます。 (d) 各MPEは、スパースDSP48チェーンに基づく複数のベクトル処理エンジン(VPE)で構成されています。

このため、FlightLLM はソフトウェアとハ​​ードウェアの共同設計を採用し、コンピューティング効率の低さという課題を克服しています。研究者らは、行列計算に関連するすべての操作を処理するための統合行列処理エンジン (MPE) を設計しました (上図を参照)。

これまでの研究では、DSP をカスケード接続してハードウェアのオーバーヘッドを削減することで、DSP48 のハードウェア リソースを最大限に活用してきました。ただし、カスケード チェーンのパスは固定されているため、完全にカスケードされた DSP アーキテクチャはスパース コンピューティングに適していません。

FlightLLM はこの問題に対する的を絞った解決策を提案しました。 FlightLLM は、FPGA 上の DSP48 計算ユニットを使用して、構成可能なスパース DSP チェーンを設計します。スパース DSP チェーンはさまざまなスパース モードをサポートし、計算効率 (つまり、実行時の DSP 使用率) が 1.6 倍向上します。

さらに、デコード段階では、大規模モデル推論の主な効率制限は、オフチップメモリ​​に頻繁にアクセスする小さなデータサイズのアクティベーションベクトルから生じることがわかります。

(a) 大規模モデル推論ステージにおけるアテンション層/線形層と非線形活性化演算 (MISC) の演算子融合実装。(b) プリフィルステージと (c) デコードステージにおける完全なオンチップデコードの概略図。演算子融合と FPGA の高オンチップストレージを利用することで、大規模モデル推論デコードステージの活性化値をオフチップで書き込む必要がなくなります。

アクティベーション ベクトルのオフチップ メモリ アクセスを削減し、メモリ アクセス帯域幅の使用率が低いという課題を解決するために、FlightLLM は演算子融合テクノロジを使用して、デコード ステージで各推論の計算を融合し、常時オンチップのデコード データ フローを提案します。混合精度量子化と演算子融合の設計により、デコード段階のアクティベーション値がオンチップ キャッシュ内で最大限に再利用されます。

最後に、大規模モデルでは推論プロセスごとにトークンの長さが増加するため、異なる命令が必要になります。大規模なモデルでは大量の計算とストレージが必要となり、粗粒度の命令を使用した場合でも命令の数は依然として非常に多くなります。

異なる入力トークン長での推論パフォーマンスを測定することにより、著者らは、プレフィルおよびデコード遅延と入力トークン長との関係に「ステップ」成長特性があり、プレフィル段階の遅延は入力トークン長とともにより速く増加することを観察しました。

これは、プリフィル ステージが計算のボトルネックであり、計算量はトークンの長さに応じて大幅に増加するのに対し、デコード ステージはメモリ アクセスのボトルネックであるため、遅延の増加は明らかではないためです。段階的な成長の理由は、主に粗粒度の命令セットによるものです。行列-行列乗算命令の出力並列度は 128 であり、行列-ベクトル乗算命令の出力並列度は 16 であるため、プリフィルとデコードの「ラダー」の幅はそれぞれ 128 と 16 になります。

これらの調査結果に基づいて、FlightLLM は、プリフィルおよびデコード段階で命令を再利用することでコンパイル命令のストレージ オーバーヘッドを削減し、各「ラダー」入力トークン長の命令をグループ化して、「ラダー」幅の命令シーケンスを再利用する、トークン長適応型コンパイル方法を提案しました。この設計により、命令の総ストレージ オーバーヘッドが大幅に削減されます。

現在、著者らは FlightLLM を Xilinx Alveo U280 FPGA (16nm) に実装しています。 OPT-6.7B および LLaMA2-7B での実験結果では、FlightLLM のエンドツーエンドのレイテンシが NVIDIA V100S GPU よりも優れていることが示されています。

さらに、FlightLLM (U280 FPGA と VHK158 FPGA ベース) は、エネルギー効率で NVIDIA V100S および A100 GPU をそれぞれ 6.0 倍と 4.2 倍上回り、価格性能比では 1.8 倍と 1.5 倍上回ります。

詳細については原論文を参照してください。

<<: 

>>:  磁気リンクがネットワーク全体を爆発させ、Mixtral 8x7B ペーパーが登場しました。クラッシュラマ2 70B、各トークンをアクティブにするには13Bのパラメータのみが必要です

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Google の「Model Soup」が微調整により ImageNet リストのトップに躍り出ました。方法は半ページだけ

最近、Google は強力なコンピューティング リソースで再び大きな話題を呼び、Meta AI の友...

AISpeechは多角的な視点からAIエコロジカルバリアを構築し、AIチップはラストマイルを切り開く

最近、シビチェンがチップスを製造しているというニュースが大きな騒ぎを引き起こしました。 [[2547...

データ構造の8つの一般的なソートアルゴリズム

[[172688]]序文8 つのソート アルゴリズムと 3 つの検索アルゴリズムは、データ構造におけ...

検索エンジン技術のランキングアルゴリズムを解読する

[[117973]] 1. ページランクPageRank は、世界で最も人気のある検索エンジンである...

量子超越性のマイルストーン! Googleの量子コンピュータは47年分の計算を6秒で完了し、世界初のスーパーコンピュータを上回る

Googleは再び「量子超越性」を達成したのか?最近、Google は、同社の量子コンピュータが、世...

ヒット曲予測の成功率は97%?このリストは「偽造品と戦う」ためにあります

トレンドや動向を予測することは、あらゆる業界が熱心に取り組んでいることです。これにより、実務者は業界...

...

クラウドサービスが舞台を整え、AIが役割を果たす、これはI/Oに劣らないGoogleテクノロジーカンファレンスです

Google をよく知っていると思っている人でも、Cloud Next カンファレンスについては聞い...

FacebookはCNN Transformerの利点を組み合わせ、誘導バイアスを柔軟に利用するConViTを提案している

[[411034]] AI 研究者は、新しい機械学習モデルを構築し、パラダイムをトレーニングする際に...

自動運転車はどれくらい遠いのでしょうか?

現在、5Gや人工知能産業が活況を呈しており、さまざまな大手企業が利益を最大化するために「応用シナリオ...

Baidu World 2018 の開会式で最初の切り札が切られました。Baidu AI City が新しい世界への機関車としてスタートしました!

スマートカーからスマート道路、スマートシティまで、「複雑な世界をよりシンプルに」という百度の使命によ...

画像認識は思ったほど難しくありません!この記事を読めばあなたも専門家になれる

[51CTO.com からのオリジナル記事] ローカルライフのシナリオには、メニュー認識、標識認識、...

K2 K2、上海交通大学チームが70億パラメータの地球科学言語モデルを発表

地球科学は、岩石、鉱物、土地の特性を研究するだけでなく、地球の気候、海洋、大気、生態系などの現象と原...