「小さいけれど優秀」な大規模言語モデル Zephyr 7B の詳細な説明

Zephyr は、Hugging Face がリリースした一連の大規模言語モデルであり、蒸留教師あり微調整 (dSFT) を使用して大規模なモデルをトレーニングし、タスクの精度を大幅に向上させます。

2023 年は Big Language Model (LLM) とオープンソースの年です。多くのスタートアップ企業や企業は、ChatGPT や Claude などの独自の LLM に対抗して、モデルと重みをオープンソース化しています。 2023 年の主な企業とモデル (オープンソース) には、次のようなものがあります。

メタ (Llama および LLMav2)
TII (ファルコン 7B、40B、180B)
ミストラル (ミストラル 7B およびミストラル 8x7B)

しかし、導入が比較的容易で安価な 7B モデルは、70B などのより大規模なモデルとは比較になりません。最も強力なオープンソースモデルは Mistral 7B であり、これは多くの大型モデルよりも優れた性能を発揮します。

図1. ミストラル7Bと他のモデルの比較

これらの小さなモデルでは、依然として自然な手がかりにうまく反応できず、適切な手がかりエンジニアリングが必要であることがわかります。

導入

Zephyr 7B は、ユーザーの意図に一致しながらも、大規模なモデルよりも優れたパフォーマンスを発揮する、より小型の言語モデルを作成することを主な目的として、Hugging Face H4 チームによって作成されたモデルです。

Zephyr は、主に蒸留の利点を考慮して作成された Mistral-7B の調整バージョンであり、学術的および会話的なベンチマークの点では 70B モデルと同等です。

図2. Zephyr-7Bの性能比較

主な特徴

Zephyr が優れたパフォーマンスを発揮できたのは、H4 チームがこれらの主要テクノロジーを使用したからです。

自己ガイド型データ作成と DSFT (蒸留監視付き微調整)
フィードバック収集
DSFT モデルのための DDPO (蒸留直接選好最適化)

自己ガイド型データ作成と DSFT

従来、教師あり微調整 (SFT) は、大規模な言語モデルのデータを作成するための高品質の指示を通じて行われてきました。このデータの構築にはコストがかかり、人間による監督が必要です。

注目に値するアプローチの 1 つは、教師モデル (トレーニング済みの LLM) を使用して指示と応答を生成することです。この蒸留手法は Alpaca で初めて使用され、蒸留された教師あり微調整の助けを借りて、小規模モデルのパフォーマンスが大規模モデルを上回ることができることが実証されました。

図3. 自己指向パイプライン

H4 チームは Zephyr を使用して、DSFT を実行するための高品質の教師あり (指示と完了) データセットを構築しました。生成された指示/完了に基づいてモデルをトレーニングすることは、DSFT (Distilled Supervised Fine-Tuning) と呼ばれる蒸留形式です。

フィードバック収集

大規模な言語モデルは、多くの場合、人間によるフィードバックによる強化学習 (RLHF) を使用して調整されます。 Zephyr は、Ultra Feedback アプローチに従って、より優れた教師モデル (GPT-4 など) からのフィードバックを使用して、モデルの好みを調整します。

図4. スーパーフィードバック構築プロセス

仕組みとしては、SFT からの各教師ありプロンプトが 4 つのモデル (Claude、Llama、Falcon など) に渡され、1 つのプロンプトに対する 4 つの応答のそれぞれが GPT-4 を使用して採点されます。これで、入力 (x)、最も評価の高い補完 (yw)、および評価の低い補完として表されるランダムなプロンプト (yl) で構成されるデータセットが作成されました。つまり、トリプレット (x、yw、yl) が作成されました。

好みの最適化

この最後のステップの目標は、yl (最低スコアの完了) よりも yw (最高スコアの完了) に対するモデルの優先順位を最大化することです。これは、DPO (Direct Preference Optimization) を使用して行われます。 DPO の使用は通常の RLHF を使用するよりも簡単で、直感的に RLHF よりもパフォーマンスが優れています。この例の方法は、教師モデルの助けを借りて生成された蒸留データセットを使用するため、dDPO と呼ばれます。

図5. DPOとRLHF

アルゴリズム全体は次のようになります。

これは次の手順に変換できます。

dSFT モデルから (x, yw) と (x, yl) の確率を計算します (順方向のみ)。
dDPOモデルから(x, yw)と(x, yl)の確率を計算します。
式 1 を計算し、バックプロパゲートして更新します。手順を繰り返します。

トレーニングの詳細

Zephyr が使用するベースモデルは、リリース当時最も先進的なオープンソースモデルであった Mistral-7B です。微調整と調整には TRL ライブラリを使用しました。 Deep-Speed Zero 3とFlash-Attention 2を使用してトレーニングを最適化および高速化し、GPUを最大限に活用します。モデルは、重み減衰なしの AdamW オプティマイザーを使用してトレーニングされます。すべての実験は、bfloat16 精度を使用して 16 台の A100 で実行され、完了するまでに通常 2 ～ 4 時間かかりました。 Zephyr トレーニング手順の詳細については、元の論文 (https://arxiv.org/pdf/2310.16944.pdf) を参照してください。

結果

Zephyr チームは、最良の技術を組み合わせて、わずか 70 億のパラメータで 400 億のパラメータのモデルのパフォーマンスに匹敵し、700 億のパラメータのチャットモデルに匹敵する大規模な言語モデルをトレーニングしました。

表2: Zephyrと他のLLMとの比較

図6. Zephyrと他のLLMとの比較

使用

Zephyr モデルは Hugging Face から無料で入手でき、他の言語モデルと同様に使用できます。

 import torch from transformers import pipeline pipe = pipeline("text-generation", model="HuggingFaceH4/zephyr-7b-alpha", # can also use the beta model torch_dtype=torch.bfloat16, device_map="auto") # We use the tokenizer's chat template to format each message - see https://huggingface.co/docs/transformers/main/en/chat_templating messages = [ { "role": "system", "content": "You are a friendly chatbot who always responds in the style of a pirate", }, {"role": "user", "content": "How many helicopters can a human eat in one sitting?"}, ] prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True) outputs = pipe(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95) print(outputs[0]["generated_text"])

出力：

 <|system|> You are a friendly chatbot who always responds in the style of a pirate. <|user|> How many helicopters can a human eat in one sitting? <|assistant|> Ah, me hearty matey! But yer question be a puzzler! A human cannot eat a helicopter in one sitting, as helicopters are not edible. They be made of metal, plastic, and other materials, not food!

結論は

Zephyr-7B は、小型モデルに改良された LLM の機能を実証する小型モデルです。結果として得られたモデル Zephyr-7B は Mistral-7B をベースとしており、70 億パラメータのチャットモデルとして新たな最先端記録を樹立し、MT-Bench 上の Llama2-Chat-70B をも上回りました。

参考文献:

Zephyr: 言語モデルのアライメントのための直接蒸留 (https://arxiv.org/abs/2310.16944)
HuggingFace Zephyr ブログ投稿 (https://huggingface.co/blog/Isamu136/understanding-zephyr)
セルフガイド: https://arxiv.org/abs/2212.10560
スーパーフィードバック: https://arxiv.org/abs/2310.01377

原題: Zephyr 7B の探索: 最新の大規模言語モデルの包括的なガイド、著者: Ahmad Anis

リンク: https://www.kdnuggets.com/exploring-the-zephyr-7b-a-comprehensive-guide-to-the-latest-large-language-model.

<<:

>>: OpenAIに勝る完璧な埋め込みモデルであるNomic Embedが、重み、データ、コードがすべてオープンソースで利用可能になりました。