4090はA100の代替品になるのでしょうか?トークン生成速度はA100よりわずか18%低い。上海交通大学の推論エンジンが人気。

4090はA100の代替品になるのでしょうか?トークン生成速度はA100よりわずか18%低い。上海交通大学の推論エンジンが人気。

それだけでなく、PowerInfer は、モデルの精度を維持しながら、単一の RTX 4090 (24G) で Falcon (ReLU)-40B-FP16 を実行する場合、最先端のローカル LLM 推論フレームワーク llama.cpp と比較して 11 倍以上の高速化を実現します。

具体的には、PowerInfer はローカルに展開された LLM 用の高速推論エンジンです。複数のエキスパート システム (MoE) を採用するものとは異なり、PowerInfer は LLM 推論における高い局所性を活用して GPU-CPU ハイブリッド推論エンジンを巧みに設計します。

これは、頻繁にアクティブになるニューロン (ホット アクティブ) を GPU にプリロードして高速アクセスできるようにし、あまりアクティブにならないニューロン (コールド アクティブ) (大部分) は CPU で計算することによって機能します。

このアプローチにより、GPU メモリ要件と CPU-GPU データ転送が大幅に削減されます。

  • プロジェクトアドレス: https://github.com/SJTU-IPADS/PowerInfer
  • 論文アドレス: https://ipads.se.sjtu.edu.cn/_media/publications/powerinfer-20231219.pdf

PowerInfer は、単一のコンシューマー GPU を搭載した PC 上で LLM を高速に実行できます。ユーザーは PowerInfer を Llama 2 および Faclon 40B で使用できるようになりました。Mistral-7B のサポートも近日中に開始される予定です。

PowerInfer は 1 日で 2,000 個の星を獲得しました。

この研究を見たネットユーザーは興奮してこう述べた。「1枚の4090グラフィックカードで175Bの大型モデルを動かすのはもはや夢ではない。」


PowerInfer アーキテクチャ

PowerInfer の設計の鍵となるのは、ニューロン活性化のべき乗分布を特徴とする LLM 推論に固有の高度な局所性を活用することです。この分布は、ホット ニューロンと呼ばれるニューロンのごく一部が入力全体にわたって一貫して発火するのに対し、コールド ニューロンの大部分は特定の入力に応じて異なる発火をすることを示唆しています。 PowerInfer はこのメカニズムを使用して、GPU-CPU ハイブリッド推論エンジンを設計します。

下の図 7 は、オフライン コンポーネントとオンライン コンポーネントを含む PowerInfer のアーキテクチャの概要を示しています。オフライン コンポーネントは、LLM の活性化スパース性を処理し、ホット ニューロンとコールド ニューロンを区別します。オンライン フェーズでは、推論エンジンは両方のタイプのニューロンを GPU と CPU にロードし、実行時に低レイテンシで LLM 要求を処理します。

図 8 は、PowerInfer が GPU と CPU を調整してレイヤー間のニューロンを処理する方法を示しています。 PowerInfer は、オフライン データに基づいてニューロンを分類し、ホットにアクティブ化されたニューロン (インデックス 3、5、7 など) を GPU メモリに割り当て、その他のニューロンを CPU メモリに割り当てます。

入力を受け取ると、予測子は現在の層内のどのニューロンがアクティブになる可能性が高いかを識別します。オフライン統計分析によって識別されたホットアクティブニューロンは、実行時のアクティブ化動作と一致しない可能性があることに注意する必要があります。たとえば、ニューロン 7 は、ホット活性化とラベル付けされているものの、実際にはそうではありませんでした。次に、CPU と GPU の両方がアクティブになったニューロンを処理し、アクティブにならなかったニューロンを無視します。 GPU はニューロン 3 と 5 を計算し、CPU はニューロン 4 を処理します。ニューロン 4 の計算が完了すると、その出力は結果の統合のために GPU に送信されます。

実験

この研究では、67Bから175Bまでのさまざまなパラメータを持つOPTモデル、Falcon (ReLU)-40Bモデル、LLaMA (ReGLU)-70Bモデルを使用して実験を実施しました。 175B パラメータ モデルのサイズは GPT-3 モデルと同程度であることは注目に値します。

この論文では、PowerInfer と最先端のネイティブ LLM 推論フレームワークである llama.cpp も比較しています。比較を容易にするために、この研究では llama.cpp を拡張して OPT モデルをサポートしました。

このホワイト ペーパーでは低レイテンシ設定に焦点を当てているため、評価メトリックはエンドツーエンドの生成速度であり、1 秒あたりに生成されるトークンの数 (トークン/秒) として定量化されます。

この研究では、まずバッチ サイズ 1 で PowerInfer と llama.cpp のエンドツーエンドの推論パフォーマンスを比較します。

図10は、NVIDIA RTX 4090を搭載したPC-Highにおける各種モデルと入出力構成の生成速度を示しています。平均すると、PowerInfer は 8.32 トークン/秒、最大 16.06 トークン/秒の生成速度を達成します。これは llama.cpp よりも大幅に優れており、llama.cpp よりも 7.23 倍、Falcon-40B よりも 11.69 倍高速です。

出力トークンの数が増えるにつれて、生成フェーズが全体的な推論時間においてより重要な役割を果たすため、PowerInfer のパフォーマンス上の利点がより顕著になります。この段階では、CPU と GPU の両方で少数のニューロンがアクティブ化され、llama.cpp と比較して不要な計算が削減されます。たとえば、OPT-30B の場合、トークンが生成されるたびに約 20% のニューロンのみがアクティブになり、そのほとんどは GPU で処理されます。これは、PowerInfer のニューロン認識推論の利点です。

図 11 は、PC-Low では PowerInfer が llama.cpp に比べて大幅にパフォーマンスが向上し、平均で 5.01 倍、ピークで 7.06 倍の高速化を達成していることを示しています。ただし、これらの改善は PC-High と比較すると小さく、これは主に PC-Low の 11 GB GPU メモリ制限によるものです。この制限は、特に約 30B 以上のパラメータを持つモデルの場合、GPU に割り当てることができるニューロンの数に影響し、多数のアクティブ化されたニューロンを処理するために CPU への依存度が高まります。

図 12 は、PowerInfer と llama.cpp の CPU と GPU 間のニューロン負荷分散を示しています。 PC-High では、PowerInfer によって GPU のニューロン負荷の割合が平均 20% から 70% に大幅に増加していることは注目に値します。これは、GPU が活性化されたニューロンの 70% を処理することを示しています。ただし、11GB 2080Ti GPU で 60GB モデルを実行するなど、モデルのメモリ要件が GPU の容量を大幅に超える場合は、GPU のニューロン負荷は 42% に低下します。この低下は、GPU のメモリが限られており、すべてのホットアクティブニューロンを保持するには不十分であるため、CPU でこれらのニューロンの一部を計算する必要があるためです。

図 13 は、PowerInfer が INT4 量子化を使用して圧縮された LLM を効果的にサポートしていることを示しています。 PC-High では、PowerInfer の平均応答速度は 13.20 トークン/秒で、ピークは 29.08 トークン/秒です。 llama.cpp と比較すると、平均速度向上は 2.89 倍、最大速度向上は 4.28 倍です。 PC-Lowでは平均速度向上は5.01倍、ピーク速度向上は8.00倍です。量子化によりメモリ要件が削減されるため、PowerInfer はより大きなモデルをより効率的に管理できます。たとえば、PC-High で OPT-175B モデルを使用した実験では、PowerInfer は 1 秒あたりほぼ 2 トークンを達成し、llama.cpp を 2.66 倍上回りました。

最後に、この研究では、図 14 に示すように、さまざまなバッチ サイズでの PowerInfer のエンドツーエンドの推論パフォーマンスも評価しました。バッチ サイズが 32 未満の場合、PowerInfer は llama と比較して平均 6.08 倍のパフォーマンス向上を示し、大きな利点を示します。バッチ サイズが大きくなるにつれて、PowerInfer によって提供される高速化は減少します。ただし、バッチ サイズを 32 に設定した場合でも、PowerInfer は大幅な高速化を維持します。

参考リンク: https://weibo.com/1727858283/NxZ0Ttdnz

詳細については、原文論文をご覧ください。

<<:  Ctrip カスタマー サービス ロボット ASR エンジンの負荷分散の実践

>>: 

ブログ    
ブログ    
ブログ    

推薦する

ロボット導入の「秘密」:継続的な学習、知識の伝達、自律的な参加

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

51CTO副社長ヤン・ウェンフェイ氏:ChatGPTは非常に人気があり、将来的にはさらに強力なアプリケーションが登場するでしょう。

51CTO は 2005 年に設立され、テクノロジー学習とメディアを統合したプラットフォームです。...

人工知能はマーケティング業界に破壊的な影響を及ぼすだろう

ビッグデータと人工知能の市場は現在、活況を呈しています。調査会社の最近の予測によると、これら2つの技...

ロボット工学が建設業界の新時代を告げる

建設業界は現在、デジタル革新が業界の方向性をますます推進する中で、大きな変革期を迎えています。ロボッ...

...

EU、生成AIツールの規制について暫定合意に達する:これまでで最も包括的な規則

12月9日、ワシントンポスト紙やエンガジェットなどの海外メディアの報道によると、世界各国がAIの急速...

通信業界は最大のAI市場となり、2021年に重要な転換点を迎える

Informa傘下の世界的に有名な市場調査会社Tractica/Ovumは、30の分野で約300件の...

...

毎日のアルゴリズム: 有効な三角形の数

[[429712]]この記事はWeChatの公開アカウント「3分でフロントエンドを学ぶ」から転載した...

時速55キロ!寧波杭州湾新区のスマート道路に無人車が走行

「無人運転車が次々とゆっくりと停止し、住民が乗車すると、自動的にショッピングモール、オフィス、学校な...

OpenAI研究者:データが不十分な場合に教師あり学習を実現する方法

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

人工知能は投資家に好まれているが、投資家は市場に参入する際には注意する必要がある

人工知能の分野で大きな影響力を持つ企業は、金融市場においても並外れた成長と強さを見せています。 AI...

2018 年に人工知能を変える 5 つのビッグデータ トレンド

ビッグデータや人工知能の広範な導入を通じて、これらの新興技術の大きな影響が世界経済に浸透するにつれ、...

...