7Bモデルがまた手に入ると最高ですね! 700億のLLaMA2を突破、Appleのコンピュータは

7Bモデルがまた手に入ると最高ですね! 700億のLLaMA2を突破、Appleのコンピュータは

「調整」に 500 ドルかかる 70 億パラメータのモデルは、700 億パラメータの Llama 2 に勝ります。

さらに、ラップトップでも簡単に実行でき、パフォーマンスは ChatGPT に匹敵します。

重要なポイント:無料、お金は必要ありません

HuggingFace H4 チームが作成したオープンソース モデルZephyr-7Bはサメを熱狂させました。

その基礎となるモデルは、しばらく前に人気が出たオープンソースの大規模モデルMistral-7Bであり、「欧州 OpenAI」として知られる Mistral AI によって作成されました。

ご存知のとおり、Mistral-7B のリリースから 2 週間も経たないうちに、Llama が最初にリリースされたときにさまざまな「アルパカ」が急速に登場したのと同じように、さまざまな微調整バージョンが次々と登場しました。

すべてのバリエーションの中で Zephyr が成功した鍵は、チームが Mistral に基づく直接選好最適化 (DPO) を使用して、公開データセット上でモデルを微調整したことです。

チームはまた、データセットの組み込みアライメントを削除すると、 MT Bench のパフォーマンスがさらに向上する可能性があることも発見しました。第 1 世代のZephyr-7B-alphaの平均 MT-Bench スコアは 7.09 で、Llama2-70B-Chat を上回りました。

△MT-Benchは、複数ラウンドの対話を処理するモデルの能力を評価するためのベンチマークテストです。質問セットは、ライティング、ロールプレイング、抽出などを含む8つのカテゴリをカバーしています。

重要なのは、その後再びアップグレードされたことです。

H4チームは第2世代のZephyr-7B-betaを打ち上げました。さらに、GPT-4とClaude 2からアライメントを抽出して小規模モデルに注入するというアイデアを検討し、小規模モデル向けに蒸留直接選好最適化(dDPO)を使用する手法を開発したと付け加えた。

第2世代Zephyrでは、平均MT-Benchスコアが7.34に向上しました。

AlpacaEval では、Zephyr の勝率は 90.6% で、ChatGPT (3.5) よりも優れています。

集まったネットユーザーは全員、Zephyr を絶賛しました。lmsys チームは、Zephyr-7b-beta の Elo スコアも明らかにしました。スコアは非常に高くなっています。

内部のArenaチャートは13Bモデルを超えました。

中にはこう言う人もいました。

DPO メソッドが実際のアプリケーションで優れたパフォーマンスを発揮するのを見るのは、おそらく今年の大規模言語モデルの開発で最もエキサイティングなことです。

より多くのネットユーザーが Zephyr のテストを開始しており、その結果は驚くほど良好です。

フランス語で「ミストラル」は乾燥した冷たい強い風を意味し、「ゼファー」は穏やかで心地よい西風を意味します。

ラマの向こうにあるのは動物園で、こちらは間違いなく気象局です。

最高の7Bモデルが再び手を変える

まず、Zephyr を実行するためのコンピューターの構成要件について説明します。実際に試してみたところ、ネットユーザーからは「タイパンツはホット」という声が上がっています! 、ノートパソコン(Apple M1 Pro)で十分であり、「結果は非常に良好です。」

有効性に関しては、Llama Index (旧称 GPT Index) チームもテストを実施しました。

現在、Zephyr は、高レベルの RAG/エージェント タスクで優れたパフォーマンスを発揮する唯一のオープン ソース 7B モデルであることがわかりました。

データは、Zephyr の高度な RAG タスク パフォーマンスが GPT-3.5 や Claude 2 と競合できることも示しています。

さらに、Zephyr は RAG で優れたパフォーマンスを発揮するだけでなく、ルーティング、クエリ プランニング、複雑な SQL ステートメントの取得、構造化データの抽出でも優れたパフォーマンスを発揮すると付け加えました。

担当者はテスト結果も発表した。MT-Benchでは、Zephyr-7B-betaはLlama2-Chat-70Bなどの大型モデルと比較して優れたパフォーマンスを示した。

しかし、コーディングや数学などのより複雑なタスクでは、Zephyr-7B-beta は独自のモデルに遅れをとっており、その差を埋めるにはさらなる研究が必要です。

強化学習の放棄

誰もが Zephyr の有効性をテストしていますが、開発者は、最も興味深いのはさまざまな指標ではなく、モデルのトレーニング方法であると述べています。

ハイライトは次のようにまとめられます。

  • 最高の小規模オープンソース事前トレーニング済みモデルの微調整: Mistral 7B
  • 大規模嗜好データセットの利用: UltraFeedback
  • 強化学習の代わりに直接選好最適化(DPO)を使用する
  • 予想外に、優先データセットに過剰適合すると、より良い結果が得られます

詳しく言うと、冒頭で述べたように、Zephyr の効果が 70B の Llama 2 を上回ることができる理由は、主に特殊な微調整方法を使用しているためです。

従来のPPO強化学習法とは異なり、研究チームはスタンフォード大学とCZバイオハブが最近提案したDPO法を使用しました。

研究者らは次のように述べた。

DPO は PPO よりもはるかに安定しています。

DPO は次のように簡単に説明できます。

モデルの出力を人間の好みにより近づけるために、従来の方法では常に報酬モデルを使用してターゲット モデルを微調整してきました。良い成果に対しては報酬があり、悪い成果に対しては報酬はありません。

DPO メソッドはモデリング報酬関数をバイパスします。これは、好みデータに基づいてモデルを直接最適化することと同じです。

一般的に、DPO は強化学習の困難さとトレーニング コストの高さという問題を、人間によるフィードバックによって解決します。

特に Zephyr のトレーニングでは、研究チームは最初に、ChatGPT によって生成された 160 万件の会話 (合理化後は約 20 万件が残っています) を含む UltraChat データセットの合理化されたバリアントで Zephyr-7B-alpha を微調整しました。

(フィルタリングを簡素化した理由は、チームが Zephyr が「こんにちは。お元気ですか?」のように大文字表記を間違えたり、「私には個人的な X がありません」で応答を始めたりすることがあることを発見したためです。)

その後、TRL の DPO トレーナー メソッドを使用して、公開されている openbmb/UltraFeedback データセットを使用してモデルをさらに調整しました。

データセットには、さまざまなモデルからの 64,000 個のプロンプトと応答のペアが含まれています。各応答は、有用性などの基準に基づいて GPT-4 によってランク付けされ、スコアが割り当てられ、そこからAI の好みが推測されます。

興味深い発見は、DPO メソッドを使用する場合、トレーニング時間が長くなるにつれて、オーバーフィッティング後の効果が実際に向上することです。研究者たちは、これが SFT における過剰適合に似ていると考えています。

研究チームが、この方法を使用してモデルを微調整するコストはわずか 500 ドルであり、これは 16 台の A100 で 8 時間実行することを意味すると紹介したことも特筆に値します。

Zephyr をベータ版にアップグレードする際、チームは自分たちのアプローチについて説明を続けました。

彼らは、大規模なモデルに対して蒸留教師あり微調整 (dSFT) を検討しましたが、このアプローチではモデルが調整されず、ユーザーの意図によく一致する出力を生成できませんでした。

そこでチームは、AI フィードバック (AIF) からの嗜好データを使用して「教師モデル」で出力をランク付けし、データセットを形成し、その後、蒸留直接嗜好最適化 (dDPO) を適用して、微調整中に追加のサンプリングを必要とせずにユーザーの意図に沿ったモデルをトレーニングしようとしました。

研究者らは SFT なしでも効果をテストし、パフォーマンスが大幅に低下したことを発見しました。これは、dSFT ステップが重要であることを示しています。

このモデルはオープンソースで市販されているだけでなく、試用できるデモも用意されています。それでは見てみましょう。

デモ体験

まず、それをテストするために「遅れている」という質問を持ち出す必要があります。

「両親が結婚するときに私を連れて行ってくれない」という質問に対して、ゼファーの答えは全体的に非常に正確でした。

ChatGPT はこの質問には本当に勝てません。

テスト中に、Zephyr が OpenAI の GPT-4 のリリースなどの最近のイベントも認識していることもわかりました。

これは実際には基礎となるモデルに関係しています。ミストラルの関係者はトレーニングデータの期限を指定しませんでした。

しかし、一部のネットユーザーは以前にもこれをテストしており、今年3月に何が起こったかも知っている。

対照的に、Llama 2 の事前トレーニング データは 2022 年 9 月まで有効であり、微調整データは最大で 2023 年 6 月まで有効です。

さらに、Zephyr は非常に高速に応答するため、コードを書いたりストーリーを作ったりするのが簡単になります。 :

Zephyr は英語での質問への回答が優れていること、また「幻覚」という一般的なモデルの問題も抱えていることは特筆に値します。

研究者らは幻覚の問題にも言及しており、入力ボックスの下にはモデルによって生成されたコンテンツが不正確または間違っている可能性があることを示す小さなテキストの行があります。

重要なのは、Zephyr が人間の好みに合わせるために人間のフィードバック強化学習などの方法を使用せず、ChatGPT の応答フィルタリング方法も採用していないことです。

えーっと、魚と熊の手のどちらかを選ばなければなりません。

Zephyr はわずか 700 億のパラメータでこのような結果を達成できます。これは「100 ページの機械学習ブック」の著者である Andriy Burkov 氏を驚かせ、次のようにも述べています。

Zephyr-7B は、8k トークンのコンテキスト ウィンドウを持つ Mistral-7B モデルを使用して、Llama 2-70B に勝利しました。理論上、その注目範囲は 128K トークンまで高くなる可能性があります。

もしゼファーが70Bモデルだったらどうなるでしょうか? GPT-4 を上回るパフォーマンスを発揮しますか?ありそうです。

Zephyr-7Bに興味がある方は、huggingfaceで試してみることができます。

https://huggingface.co/spaces/HuggingFaceH4/zephyr-chat

論文リンク: https://arxiv.org/abs/2310.16944

<<:  エージェントは迅速なエンジニアリングに使用されます

>>:  北京大学チーム:大規模なモデルで「幻覚」を誘発するために必要なのは、文字化けしたコードの文字列だけです!大きなアルパカも小さなアルパカもすべて影響を受けた

ブログ    
ブログ    
ブログ    

推薦する

ロボット工学が環境に優しい建物にどのように役立つか

建設業界は、他の多くの業界と同様に、より環境に優しくなる瀬戸際にあります。環境に優しいプロジェクトに...

...

人工知能は飛躍の準備ができており、セキュリティは機会と課題に直面している

近年、人工知能はその地位の向上に伴い、国からますます注目を集めています。 2015年7月には「国務院...

...

商用顔認識は一時停止できるのか?

顔認証を防ぐために、市民は営業所を訪れる際にヘルメットをかぶっている。「初の顔認証事件」で、裁判所は...

プログラマーはアルゴリズム思考をどのように向上させることができるでしょうか?

[[255991]]継続的な学習と継続的な開発は、主流の IT 業界のプログラマーにとって日常的な...

AIが「自由意志」を持つとき

人工知能が盛んに使われる一方で、この技術に伴う問題や潜在的な脅威も現れつつあります。 AI技術の「価...

...

UiPath、業界初のエンドツーエンドのハイパーオートメーションプラットフォームを発表

[[326225]] 「すべての人にロボットを」というビジョンを掲げ、エンタープライズ向けロボティッ...

スマート、インテリジェントなインタラクティブ推奨システムと販売前ショッピングガイドロボットをリリース

昨日、北京のマイクロソフトビルでSmarterが開催されました。カンファレンスのテーマは「インテリジ...

...

人工知能がメンタルヘルスの改善に役立つ4つの方法

[51CTO.com クイック翻訳] 私たちはメンタルヘルスの危機を経験しています。世界人口の約 1...

...

危険信号:Google AIはマスクを着用した女性を口をテープで塞いでいる女性と認識

FuninUSA によれば、Microsoft、Google、IBM のビジョン システムが現実世界...