400 万のトークン コンテキスト、推論がさらに 46% 加速されました。最新のオープンソースソリューションはMITの結果をアップグレードし、推論コストをさらに削減します

400 万のトークン コンテキスト、推論がさらに 46% 加速されました。最新のオープンソースソリューションはMITの結果をアップグレードし、推論コストをさらに削減します

22 倍の加速だけでは不十分です。ここでは 46% の改善が実現され、その方法はオープンソースです。

これは、MIT の人気プロジェクトStreamingLLM の改善におけるオープンソース コミュニティの最新の成果です。

StreamingLLMは、生成効果と推論速度を犠牲にすることなく、合計400万トークンで複数ラウンドの対話を実現し、推論速度を22.2倍向上させることができます。

プロジェクト開始から3か月も経たないうちに、GitHubプロジェクトの星評価は5.7千星に達しました。

ただし、StreamingLLM はネイティブ PyTorch を使用して実装されており、マルチラウンドの対話推論シナリオのアプリケーションに対する低コスト、低レイテンシ、高スループットの要件を最適化する余地がまだあります。

Colossal-AI チームは、TensorRT をベースにした StreamingLLM である SwiftInfer をオープンソース化しました。これにより、大規模モデルの推論パフォーマンスがさらに 46% 向上し、上記の問題が効果的に解決されます。

具体的にどうやって達成するのでしょうか?一緒に見ましょう。

オープンソースアドレス: https://github.com/hpcaitech/SwiftInfer

StreamingLLM はどのようにして非常に長い複数ラウンドの会話を実現するのでしょうか?

大規模言語モデルが記憶できるコンテキストの長さは、ChatGPT などの大規模モデル アプリケーションとユーザー間のインタラクションの品質に直接影響します。

LLM は事前トレーニング中に限られた注意ウィンドウの制限下でのみトレーニングできるため、複数ラウンドの対話シナリオで LLM の生成品質を維持する方法は、推論システムに高い要件を課します。

一般的な KV キャッシュ メカニズムはモデルの計算時間を節約できますが、複数ラウンドのダイアログのシナリオでは、キーと値のキャッシュが大量のメモリを消費し、限られたビデオ メモリでコンテキストを無限に拡張することはできません。

同時に、トレーニングされたモデルは、二次的な微調整を行わないと、トレーニング シーケンスの長さよりも長いテキストにうまく一般化できず、生成結果が悪くなります。

△画像出典:https://arxiv.org/pdf/2309.17453.pdf

この問題を解決するために、StreamingLLM は、アテンション モジュールの Softmax の出力を観察することで、アテンション シンクの現象を発見しました。

注意メカニズムは各トークンに注意値を割り当て、テキストの最初のいくつかのトークンには常に多くの無駄な注意が割り当てられることを知っておく必要があります。

スライディング ウィンドウ ベースのアテンション メカニズムを使用する場合、これらのトークンがウィンドウから追い出されると、モデルの生成効果はすぐに崩壊します。

これらのトークンがウィンドウ内に保持されている限り、モデルは安定して高品質のテキストを生成できます。

Dense Attention、Window Attention、Sliding Window w/ Re-computing と比較すると、StreamingLLM の Attention シンクに基づく Attention メカニズムは、計算の複雑さと生成効果の両方において優れたパフォーマンスを発揮します。

モデルを再トレーニングする必要がなく、StreamingLLM は現在主流の大規模言語モデルと直接互換性があり、推論パフォーマンスを向上させることができます。

SwiftInfer は StreamingLLM をどのようにアップグレードしますか?

Colossal-AI チームのアプローチは、StreamingLLM メソッドと TensorRT 推論最適化を組み合わせることです。

これの利点は、元の StreamingLLM の利点をすべて継承するだけでなく、操作効率も向上することです。

TensorRT-LLM API を使用すると、PyTorch API に近いモデル作成エクスペリエンスも得られます。

具体的には、 TensorRT-LLMをベースに、KVキャッシュ機構と位置オフセット付きアテンションモジュールを再実装することができます

下の図に示すように、ウィンドウ サイズが 10 トークンであると仮定すると、生成されたトークンが増加すると (黄色の四角で表されます)、中間のトークンが KV キャッシュから追い出されます。同時に、テキストの最初のいくつかのトークンは常に保持されます (青い四角で表されます)。

黄色の四角の位置は変化するため、注目度を計算する際に位置情報を再注入する必要があります。

StreamingLLM は、モデルがアクセスできるコンテキスト ウィンドウを直接増やすわけではありませんが、ストリーミングのマルチラウンド会話をサポートしながら、モデルの生成効果を確保できることに留意する必要があります。

アップグレード後、Colossal-AI チームによってリリースされた SwiftInfer は、StreamingLLM のオリジナルバージョンに基づいて、推論スループット速度をさらに最大 46% 向上させることができます。

大規模モデルの複数ラウンドの対話推論に対して、低コスト、低レイテンシ、高スループットのベストプラクティスを提供できます。 TensorRT-LLM チームも同じ時期に StreamingLLM に対して同様のサポートを提供しました。

チームは13Bの大型モデルをオープンソース化した。

Colossal-AI は現在、GitHub スターを 35,000 個以上獲得しており、グローバル TOP400 にランクインし、ニッチ分野では世界第 1 位を獲得しています。効率的な多次元並列処理と異種メモリにより、大規模な AI モデルのトレーニング/微調整/推論の開発およびアプリケーション コストを削減し、モデル タスクのパフォーマンスを向上させ、GPU 要件を削減できます。主流のオープンソース AI 大規模モデル システム コミュニティとして、Colossal-AI エコシステムは多くの面でアクティブであり、更新され続けています。

Colossal-AI が最近、別の新しいモデルである Colossal-LLaMA-2-13B をオープンソース化したことも注目に値します。

わずか250億トークンのデータと1万元の計算能力しか使用せず、そのパフォーマンスはLLaMA-2に基づく他の中国のローカリゼーションモデルをはるかに上回っています。

中国語のコーパスを使用し、ゼロから事前トレーニングするのに数千万元のコストがかかる可能性のある他の有名なモデルと比較しても、Colossal-LLaMA-2 は同じ規模で依然として優れたパフォーマンスを発揮します。

バージョン 13B では、より完全なデータ システムを構築することにより、知識コンテンツの習得、自然言語処理タスクの理解、セキュリティ、価値などの問題において質的な向上が達成されました。

クラウドプラットフォームに関しては、Colossal-AIクラウドプラットフォームは最近、Colossal-AIシステムの最適化と安価なコンピューティングパワーの統合に基づくAIクラウドホスト機能をリリースしました。

これにより、ユーザーはベアメタルと同様の方法で大規模な AI モデルを開発およびデバッグできるようになり、Jupyter Notebook、ssh、サービス ローカル ポート マッピング、Grafana モニタリングなど、さまざまな使用方法が提供され、ユーザーに包括的で便利な開発エクスペリエンスが提供されます。

同時に、ColossalAI コード リポジトリと動作環境を含む Docker イメージがユーザー向けに事前に作成されています。ユーザーは、環境やリソースの設定をすることなく、ワンクリックで ColossalAI コード リポジトリ内のコード サンプルを実行できます。

Colossal-AI オープンソース アドレス: https://github.com/hpcaitech/ColossalAI

<<:  ロボットが家事の仕事を代行:人間のデモンストレーション動画を見るだけで、10時間でコーヒーの淹れ方を学ぶ

>>:  2024 年のビッグデータ業界予測 (パート 2)

ブログ    

推薦する

OpenAI は機械学習をサポートするために k8s を 7,500 ノードに拡張

GPT-3、CLIP、DALL+などの大規模モデルのニーズや、ニューラル言語モデルに似たスケーリング...

MIT、指の爪ほどの大きさのドローンを作れるマイクロチップを設計

MITの研究者らが、指の爪ほどの小さなドローン用コンピューターチップを設計6月21日、Venture...

...

...

...

通信ネットワーク運用イベントのナレッジグラフの構築

1. 通信ネットワーク運用シナリオまず、通信ネットワーク運用の背景についてご紹介します。通信ネットワ...

盗難防止は自分自身に対する保護にもなりますか?セキュリティの高いスマートドアロックを購入するのは正しいことでしょうか?

指紋認証ドアロックは新しいものではなく、誰もがよく知っているものだと思います。近年、スマートホームが...

...

機械学習を独学で学んだら、どうやって仕事を見つければいいのでしょうか?少なくともトップ10の地雷原は避ける

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

時間変換に基づく初のビデオ移行攻撃アルゴリズム、復旦大学の研究がAAAI 2022に選出

[[441526]]近年、ディープラーニングは一連のタスク(画像認識、物体認識、セマンティックセグメ...

中国人民大学高陵人工知能学院のネイチャーサブジャーナル:マルチモーダル基本モデルを使用して汎用人工知能への移行を試みている

最近、中国人民大学高陵人工知能学院の陸志武教授、孫昊准教授、温継栄学院長教授が共同責任著者として国際...

工業情報化部など8つの部門:地域人工知能データ処理センターの建設を検討

12月29日、工業情報化部、国家発展改革委員会、教育部、財政部、中国人民銀行、国家税務総局、金融監督...

ソートアルゴリズムのより詳細な概要

ソートアルゴリズム平均時間計算量バブルソート (n2) 選択ソート (n2) 挿入ソート (n2) ...

AIはどのようにして責任を持つようになるのでしょうか?英国規格協会が答えを持っている

人工知能(AI)は、現在世界で最も革新的で影響力のある技術の1つであり、さまざまな分野や産業に浸透し...