あなたの GPU は Llama 2 のような大規模なモデルを実行できますか?このオープンソースプロジェクトを試してみてください

あなたの GPU は Llama 2 のような大規模なモデルを実行できますか?このオープンソースプロジェクトを試してみてください

コンピューティング能力が重要視される時代に、GPU は大規模モデル (LLM) をスムーズに実行できるでしょうか?

多くの人は、この質問に明確な答えを出すのが難しく、GPU メモリの計算方法を知りません。 GPU がどの LLM を処理できるかを確認するのはモデルのサイズを確認するほど簡単ではないため、モデルは推論中に大量のメモリを消費する可能性があります (KV キャッシュ)。たとえば、シーケンス長が 1000 の llama-2-7b では、1 GB の追加メモリが必要です。それだけでなく、モデルのトレーニング中は、KV キャッシュ、アクティベーション、量子化のすべてが大量のメモリを消費します。

上記のメモリ使用量を事前に知ることはできないかと疑問に思わざるを得ません。最近、LLM のトレーニングや推論中に必要な GPU メモリの量を計算するのに役立つ新しいプロジェクトが GitHub に登場しました。それだけでなく、このプロジェクトの助けを借りて、詳細なメモリ配分、評価に使用する量子化方法、処理する最大コンテキスト長などの問題も知ることができ、ユーザーが自分に適した GPU 構成を選択するのに役立ちます。

プロジェクトアドレス: https://github.com/RahulSChand/gpu_poor

それだけでなく、このプロジェクトはインタラクティブです。以下に示すように、LLM を実行するために必要な GPU メモリを計算できます。空欄を埋めるだけの簡単な作業です。ユーザーは必要なパラメータをいくつか入力し、最後に青いボタンをクリックするだけで答えが得られます。

交流アドレス: https://rahulschand.github.io/gpu_poor/

最終的な出力は次のようになります。

 { "Total": 4000, "KV Cache": 1000, "Model Size": 2000, "Activation Memory": 500, "Grad & Optimizer memory": 0, "cuda + other overhead": 500 }

このプロジェクトが行われた理由について、著者の Rahul Shiv Chand 氏は、次のような理由があると述べています。

  • GPU 上で LLM を実行する場合、モデルを適応させるためにどのような量子化方法を使用する必要がありますか。
  • GPU が処理できるコンテキストの最大長はどれくらいですか?
  • どのような微調整方法があなたに適していますか?フル?LoRA?それともQLoRA?
  • 微調整中に使用できる最大バッチ サイズはどれくらいですか?
  • どのタスクが GPU メモリを消費しているか、また LLM が GPU に適応できるようにそれを調整する方法。

それで、どうやって使うのでしょうか?

最初のステップは、モデル名、ID、モデル サイズを処理することです。 Huggingface のモデル ID を入力できます (例: meta-llama/Llama-2-7b)。現在、このプロジェクトでは、Huggingface で最もダウンロード数が多い上位 3000 個の LLM のモデル構成をハードコードして保存しています。

カスタム モデルを使用する場合、または Hugginface ID が利用できない場合は、json 構成をアップロードするか (プロジェクトの例を参照)、モデル サイズ (例: llama-2-7b の場合は 70 億) を入力する必要があります。

次は量子化です。現在、プロジェクトは bitsandbytes (bnb) int8/int4 と GGML (QK_8、QK_6、QK_5、QK_4、QK_2) をサポートしています。後者は推論にのみ使用されますが、bnb int8/int4 はトレーニングと推論の両方に使用できます。

最後のステップは推論とトレーニングです。推論中は、HuggingFace を使用するか、vLLM または GGML を使用して推論用の vRAM を見つけます。トレーニング中は、vRAM を見つけてモデル全体を微調整するか、LoRA (現在のプロジェクトでは、LoRA 構成用に r=8 がハードコードされています) または QLoRA を使用して微調整します。

ただし、プロジェクトの作成者は、最終結果はユーザー モデル、入力データ、CUDA バージョン、量子化ツールなどによって異なる可能性があると述べています。実験では、著者はこれらすべての要素を考慮し、最終結果が 500 MB 以内になるように努めました。次の表は、Web サイトで提供されている 3b、7b、13b モデルのメモリ使用量と、著者が RTX 4090 および 2060 GPU で取得したメモリ比較をクロスチェックしたものです。すべての値は500MB以内です。

興味のある読者は自分で体験することができます。提示された結果が不正確な場合、プロジェクト作成者は、プロジェクトは適時に最適化され、改善されると述べています。

<<:  視覚的な手がかりに「マーカー」を追加することで、Microsoft と他の企業は GPT-4V をより正確かつ詳細にしました。

>>:  テイラー・スウィフトが本物の中国語を話す動画が話題になっている。ほぼ完璧な唇の動きと時間通りのパフォーマンスが特徴だ。その背後にはAIツールがあることが判明した。

ブログ    
ブログ    

推薦する

アルゴリズムなしでもTikTokを購入する価値はあるでしょうか?技術専門家:購入者がその魔法を再現するのは難しい

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

高品質なマルチビュー画像生成、シーン素材を完璧に再現! SFUらはMVDiffusionを提案した

フォトリアリスティックな画像生成は、仮想現実、拡張現実、ビデオゲーム、映画制作などの分野で幅広く応用...

将来、自動運転車が世界をどのように変えるか

北京時間12月6日、海外メディアの報道によると、克服すべき障害はまだ多くあるものの、自動運転車の技術...

AI分野に新たな学者が加わりました!清華大学の胡世民が選出され、「Jitu」フレームワークは彼の研究室から生まれた

清華大学の胡世民教授が中国科学院の院士に選出されました! 2023年に両アカデミーから新たに選出され...

AIが産業のデジタル変革をどのように促進するか

多くの産業企業は実際に必要な量よりも多くのデータを保有していますが、人工知能への取り組みは期待を下回...

最新の3D GANは3次元の幾何学データを生成できます!モデル速度が7倍に向上

[[441513]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

765,000台の車両が関与!テスラの自動運転は米国で正式に調査中、NIOはすでに渦中に巻き込まれている

[[418112]]テスラは月曜日に駐車中の緊急車両との一連の衝突事故が発生した後、オートパイロット...

Github が絶賛: モザイクテキスト = 無意味、AI があなたの思考をすべて見抜く、オープンソースに

「この写真をフォトショップで加工しましょう!」 「いいですよ、でもこの段落は検閲しないと面倒なことに...

Huawei NoahのPangu Agentは、インテリジェントエージェントが構造化推論を学習するのを支援します

AI の誕生以来、複雑なタスクを解決し、適応できるマルチタスク エージェントの開発は重要な目標でした...

メタ啓示: AIはメタバースの重要な変数である

最近、メタバースに新たな水が流れ込んできました。 Metaが開催した研究室でのディスカッションにおい...

このロボットは食べられますか?科学者は副作用なく食べても安全だと言っている

ロボットを食べるというのはあまり魅力的に聞こえないかもしれないが、近い将来、食べられる機械があなたの...

人工知能とソフトウェアアーキテクチャ

[[192443]] AlphaGoの登場により、2016年は人工知能元年とも言えるでしょう。蘇州で...

FPGA+CPUアーキテクチャに基づく自動運転プラットフォームの性能分析

1 はじめに自動運転の分野では、センサーデータに対するディープニューラルネットワークに基づく大量の複...

初心者必読: 5 つの反復レベルから機械学習を理解する

このなぞなぞの答えを推測できますか?機械学習を学べば、どこにでも登場します...プログラマーであれば...

この3つのロボットを知っていますか?

ロボットには、人間との感情的なつながりを築くように設計されたフレンドリーなロボットから、複雑なタスク...