8x7B MoEとFlash Attention 2を組み合わせることで、10行未満のコードで高速推論が可能になります。

8x7B MoEとFlash Attention 2を組み合わせることで、10行未満のコードで高速推論が可能になります。

少し前に、Mistral AI がリリースした Mixtral 8x7B モデルがオープンソース コミュニティ全体で人気を博しました。そのアーキテクチャは GPT-4 と非常によく似ており、多くの人がこれを GPT-4 の「小型バージョン」と表現しています。

OpenAI チームが GPT-4 のパラメータ数とトレーニングの詳細については口を閉ざしていることは周知の事実です。 Mistral 8x7B のリリースにより、開発者は間違いなく「GPT-4 に非常に近い」オープンソース オプションを利用できるようになります。

ベンチマークでは、Mistral 8x7B は Llama 2 70B よりも優れており、ほとんどの標準ベンチマークで GPT-3.5 と同等かわずかに優れています。

画像出典: https://mistral.ai/news/mixtral-of-experts/

この研究が発表されると、多くの人が「クローズドソースのビッグモデルは終焉を迎えた」と言った。

わずか数週間で、機械学習愛好家の Vaibhav (VB) Srivastav 氏は次のように述べました。「AutoAWQ の最新バージョン (Mixtral、LLaVa などのモデルの量子化をサポート) のリリースにより、ユーザーは Mixtral 8x7B Instruct と Flash Attention 2 を組み合わせて高速推論を実現できるようになりました。この機能には、約 24GB の GPU VRAM と 10 行未満のコードしか必要ありません。」

画像出典: https://twitter.com/reach_vb/status/1741175347821883502

AutoAWQ アドレス: https://github.com/casper-hansen/AutoAWQ

操作手順は以下のとおりです。

まず、AutoAWQ とトランスフォーマーをインストールします。

 pip install autoawq git+https://github. com/huggingface/transformers.git

2 番目のステップは、トークナイザーとモデルを初期化することです。

3 番目のステップは TextStreamer を初期化することです。

4 番目のステップは、入力をトークン化することです。

5 番目のステップでは、以下を生成します。

プロジェクトの設定が完了したら、Mixtral との会話を開始できます。たとえば、ユーザーが「最高のアメリカーノを作るにはどうすればいいですか? 簡単な手順でできますか?」と質問すると、Mixtral は手順 1、2、3 などで回答します。

プロジェクトで使用されるコード:

Srivastav 氏は、上記の実装により、ユーザーは Mixtral のすべての微調整を AWQ で実行し、Flash Attention 2 を使用して改善できるとも述べています。

この研究を見たネットユーザーは思わずこう言った。「本当にすごい」

その他の関連リンクについては、以下を参照してください。

モデルアドレス: https://huggingface.co/models?search=mixtral%20awq

Transformer の量子化テクノロジー: https://huggingface.co/docs/transformers/main/en/quantization

<<:  AI研究も印象派から学べるのでしょうか?これらの生きているような人物は3Dモデルであることが判明した

>>: 

ブログ    
ブログ    
ブログ    

推薦する

専門家の視点:汎用人工知能の可能性

人工知能分野の発展に関するニュースを追う際の課題の 1 つは、「AI」という用語が、無関係な 2 つ...

...

効率的な運用分析システムを構築するために3つのステップを使用します

これは、実際の仕事でデータを扱う学生にとって最大の問題点です。今日は、オペレーションを例に、行き詰ま...

人工知能に適したプログラミング言語はどれですか? ——人工知能におけるPythonの役割

Google の AI が囲碁の名人に勝利したことは、人工知能の突然かつ急速な進歩を測る手段であり、...

...

...

詳細 | ビッグデータアルゴリズムアプリケーションのテストの開発

[[389157]]この記事では、アリババ AI ミドルプラットフォームの技術品質システム、つまり検...

自然言語処理のためのディープラーニングの概要: 基本概念から最先端の研究まで

自然言語処理入門導入自然言語処理 (NLP) は、言語を処理および理解することで特定のタスクを実行で...

99行のコードでアナと雪の女王の特殊効果の太極拳の進化を実現

コンピュータシミュレーション技術の継続的な発展のおかげで、ますますリアルな現実世界をコンピュータで再...

最初のライブ放送ではメリットが伝えられ、スマートハードウェアについての話を聞くことができます

市場でのスマートハードウェアの人気が徐々に高まり、また、伝染病の予防と制御によってスマートハードウェ...

AIが体内時計を検出、精密医療が最大の「受益者」になる可能性

[[243873]]画像ソース @Visual Chinaインターネット上には、人体のさまざまな臓器...

この AI ツールは最近、大騒ぎになっています!試してみますか?

Stable Diffusionをプレイしたことがある人は多いと思います。この製品はmjdjour...

目から鱗!ヘルスケアと自動車業界における AI の興味深い応用例 11 選

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

画像内のテキストを心配する必要はありません。TextDiffuserは高品質のテキストレンダリングを提供します。

近年、テキストから画像への変換の分野は、特に AIGC (人工知能生成コンテンツ) の時代において大...