「小さいけれど優秀」な大規模言語モデル Zephyr 7B の詳細な説明

「小さいけれど優秀」な大規模言語モデル Zephyr 7B の詳細な説明

Zephyr は、Hugging Face がリリースした一連の大規模言語モデルであり、蒸留教師あり微調整 (dSFT) を使用して大規模なモデルをトレーニングし、タスクの精度を大幅に向上させます。

2023 年は Big Language Model (LLM) とオープンソースの年です。多くのスタートアップ企業や企業は、ChatGPT や Claude などの独自の LLM に対抗して、モデルと重みをオープンソース化しています。 2023 年の主な企業とモデル (オープンソース) には、次のようなものがあります。

  • メタ (Llama および LLMav2)
  • TII (ファルコン 7B、40B、180B)
  • ミストラル (ミストラル 7B およびミストラル 8x7B)

しかし、導入が比較的容易で安価な 7B モデルは、70B などのより大規模なモデルとは比較になりません。最も強力なオープンソース モデルは Mistral 7B であり、これは多くの大型モデルよりも優れた性能を発揮します。

図1. ミストラル7Bと他のモデルの比較

これらの小さなモデルでは、依然として自然な手がかりにうまく反応できず、適切な手がかりエンジニアリングが必要であることがわかります。

導入

Zephyr 7B は、ユーザーの意図に一致しながらも、大規模なモデルよりも優れたパフォーマンスを発揮する、より小型の言語モデルを作成することを主な目的として、Hugging Face H4 チームによって作成されたモデルです。

Zephyr は、主に蒸留の利点を考慮して作成された Mistral-7B の調整バージョンであり、学術的および会話的なベンチマークの点では 70B モデルと同等です。

図2. Zephyr-7Bの性能比較

主な特徴

Zephyr が優れたパフォーマンスを発揮できたのは、H4 チームがこれらの主要テクノロジーを使用したからです。

  • 自己ガイド型データ作成と DSFT (蒸留監視付き微調整)
  • フィードバック収集
  • DSFT モデルのための DDPO (蒸留直接選好最適化)

自己ガイド型データ作成と DSFT

従来、教師あり微調整 (SFT) は、大規模な言語モデルのデータを作成するための高品質の指示を通じて行われてきました。このデータの構築にはコストがかかり、人間による監督が必要です。

注目に値するアプローチの 1 つは、教師モデル (トレーニング済みの LLM) を使用して指示と応答を生成することです。この蒸留手法は Alpaca で初めて使用され、蒸留された教師あり微調整の助けを借りて、小規模モデルのパフォーマンスが大規模モデルを上回ることができることが実証されました。

図3. 自己指向パイプライン

H4 チームは Zephyr を使用して、DSFT を実行するための高品質の教師あり (指示と完了) データセットを構築しました。生成された指示/完了に基づいてモデルをトレーニングすることは、DSFT (Distilled Supervised Fine-Tuning) と呼ばれる蒸留形式です。

フィードバック収集

大規模な言語モデルは、多くの場合、人間によるフィードバックによる強化学習 (RLHF) を使用して調整されます。 Zephyr は、Ultra Feedback アプローチに従って、より優れた教師モデル (GPT-4 など) からのフィードバックを使用して、モデルの好みを調整します。

図4. スーパーフィードバック構築プロセス

仕組みとしては、SFT からの各教師ありプロンプトが 4 つのモデル (Claude、Llama、Falcon など) に渡され、1 つのプロンプトに対する 4 つの応答のそれぞれが GPT-4 を使用して採点されます。これで、入力 (x)、最も評価の高い補完 (yw)、および評価の低い補完として表されるランダムなプロンプト (yl) で構成されるデータセットが作成されました。つまり、トリプレット (x、yw、yl) が作成されました。

好みの最適化

この最後のステップの目標は、yl (最低スコアの完了) よりも yw (最高スコアの完了) に対するモデルの優先順位を最大化することです。これは、DPO (Direct Preference Optimization) を使用して行われます。 DPO の使用は通常の RLHF を使用するよりも簡単で、直感的に RLHF よりもパフォーマンスが優れています。この例の方法は、教師モデルの助けを借りて生成された蒸留データセットを使用するため、dDPO と呼ばれます。

図5. DPOとRLHF

アルゴリズム全体は次のようになります。

これは次の手順に変換できます。

  • dSFT モデルから (x, yw) と (x, yl) の確率を計算します (順方向のみ)。
  • dDPOモデルから(x, yw)と(x, yl)の確率を計算します。
  • 式 1 を計算し、バックプロパゲートして更新します。手順を繰り返します。

トレーニングの詳細

Zephyr が使用するベース モデルは、リリース当時最も先進的なオープン ソース モデルであった Mistral-7B です。微調整と調整には TRL ライブラリを使用しました。 Deep-Speed Zero 3とFlash-Attention 2を使用してトレーニングを最適化および高速化し、GPUを最大限に活用します。モデルは、重み減衰なしの AdamW オプティマイザーを使用してトレーニングされます。すべての実験は、bfloat16 精度を使用して 16 台の A100 で実行され、完了するまでに通常 2 ~ 4 時間かかりました。 Zephyr トレーニング手順の詳細については、元の論文 (https://arxiv.org/pdf/2310.16944.pdf) を参照してください。

結果

Zephyr チームは、最良の技術を組み合わせて、わずか 70 億のパラメータで 400 億のパラメータのモデルのパフォーマンスに匹敵し、700 億のパラメータのチャット モデルに匹敵する大規模な言語モデルをトレーニングしました。

表2: Zephyrと他のLLMとの比較

図6. Zephyrと他のLLMとの比較

使用

Zephyr モデルは Hugging Face から無料で入手でき、他の言語モデルと同様に使用できます。

 import torch from transformers import pipeline pipe = pipeline("text-generation", model="HuggingFaceH4/zephyr-7b-alpha", # can also use the beta model torch_dtype=torch.bfloat16, device_map="auto") # We use the tokenizer's chat template to format each message - see https://huggingface.co/docs/transformers/main/en/chat_templating messages = [ { "role": "system", "content": "You are a friendly chatbot who always responds in the style of a pirate", }, {"role": "user", "content": "How many helicopters can a human eat in one sitting?"}, ] prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True) outputs = pipe(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95) print(outputs[0]["generated_text"])

出力:

 <|system|> You are a friendly chatbot who always responds in the style of a pirate. <|user|> How many helicopters can a human eat in one sitting? <|assistant|> Ah, me hearty matey! But yer question be a puzzler! A human cannot eat a helicopter in one sitting, as helicopters are not edible. They be made of metal, plastic, and other materials, not food!

結論は

Zephyr-7B は、小型モデルに改良された LLM の機能を実証する小型モデルです。結果として得られたモデル Zephyr-7B は Mistral-7B をベースとしており、70 億パラメータのチャット モデルとして新たな最先端記録を樹立し、MT-Bench 上の Llama2-Chat-70B をも上回りました。

参考文献:

  • Zephyr: 言語モデルのアライメントのための直接蒸留 (https://arxiv.org/abs/2310.16944)
  • HuggingFace Zephyr ブログ投稿 (https://huggingface.co/blog/Isamu136/understanding-zephyr)
  • セルフガイド: https://arxiv.org/abs/2212.10560
  • スーパーフィードバック: https://arxiv.org/abs/2310.01377

原題: Zephyr 7B の探索: 最新の大規模言語モデルの包括的なガイド、著者: Ahmad Anis

リンク: https://www.kdnuggets.com/exploring-the-zephyr-7b-a-comprehensive-guide-to-the-latest-large-language-model.

<<: 

>>:  OpenAIに勝る完璧な埋め込みモデルであるNomic Embedが、重み、データ、コードがすべてオープンソースで利用可能になりました。

ブログ    

推薦する

...

AIは自己反復と最適化が可能で、わずか26秒で歩行ロボットを設計できる

10月10日のニュース、AIに陸上を歩けるロボットを設計するように頼んだら何秒かかるでしょうか?答え...

Microsoft が機械学習モデルを簡単に作成できる Lobe デスクトップ アプリケーションをリリース

なお、Lobe はインターネット接続やログインを必要とせず、現在は機械学習モデルの出力のみ可能である...

マーク・アンドリーセン氏、AIが世界を救うと語る

ベンチャーキャピタルの億万長者マーク・アンドリーセン氏は、世界は現在人工知能に関して「ヒステリー」状...

LEACHプロトコルのアルゴリズムと特徴

LEACH プロトコルについてはあまり知られていないかもしれません。このプロトコルの説明は、低電力適...

AI業界の冷え込みの中、インテリジェント物流ロボット業界は「トレンド」を先導している

「人工知能の将来性は明るいが、財務見通しは良くない」「2018年は人工知能に進歩がなかった」「201...

クラウド コンピューティングの 10 年間のベテランが、ディープラーニング手法をゼロから始める

[[206505]]人工知能は現在、熱く議論されている業界であり、ディープラーニングは最もホットな、...

10回!マイクロソフトは、1000億のパラメータをトレーニングできる史上最大のNLGモデルをオープンソース化しました。

AI の最新の傾向は、自然言語モデルが大きくなるほど精度が向上するということですが、コスト、時間、...

水に溶けるロボットを見たことがありますか?ゼラチンと砂糖の3Dプリント

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

CPUのみを使用して自律航行船を開発、実際に実現

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能は人類に潜在的に壊滅的なリスクをもたらす

11月1日、米国、英国、中国を含む28か国がブレッチリーで開催された第1回世界人工知能(AI)セキュ...

ホテルは機械学習を使ってどのゲストが立ち上がるかを予測する

現在、主要なOTA(オンライン旅行代理店)プラットフォームは人々の旅行を大幅に容易にしています。ホテ...

...

...

機械学習モデルのパフォーマンスを測定する 10 の指標

大規模モデルは非常に強力ですが、実際の問題を解決するには必ずしも大規模モデルに完全に依存する必要はあ...