UCLA Chineseが新しい自動演奏メカニズムを提案しました! LLMは自己学習し、その効果はGPT-4の専門家の指導よりも優れている

UCLA Chineseが新しい自動演奏メカニズムを提案しました! LLMは自己学習し、その効果はGPT-4の専門家の指導よりも優れている

合成データは、大規模言語モデルの進化において最も重要な基礎となっています。

昨年末、一部のネットユーザーは、OpenAIの元主任科学者であるイリヤ氏が、LLMの開発にはデータのボトルネックはなく、合成データはほとんどの問題を解決できると何度も述べていたことを掘り起こした。

写真

最近の一連の論文を読んだ後、Nvidia の上級科学者 Jim Fan 氏も、合成データの使用と、ゲームや画像の生成に使用される従来の技術的アイデアを組み合わせることで、LLM は大幅な自己進化を達成できると考えています。

写真

この方法を正式に提案した論文は、UCLAの中国チームによって執筆されました。

写真

論文アドレス: https://arxiv.org/abs/2401.01335v1

彼らは、自己再生メカニズム (SPIN) を通じて合成データを生成し、その後、新しいデータセットを使用せずに自己微調整方式を採用することで、パフォーマンスの低い LLM の平均スコアを Open LLM Leaderboard Benchmark で 58.14 から 63.16 に向上させました。

研究者らは、SPIN と呼ばれる自己微調整法を提案しました。これは、LLM が以前の反復と競合することで、自己再生を通じて言語モデルのパフォーマンスを徐々に向上させます。

写真

このようにして、人間が注釈を付けた追加のデータや、より高度な言語モデルからのフィードバックを必要とせずに、モデルは独自に進化することができます。

メインモデルと対戦モデルのパラメータは全く同じです。 2 つの異なるバージョンを使用して自分自身と対戦します。

ゲームのプロセスは次のように要約できます。

写真

自己対戦チェスのトレーニング方法は次のようにまとめられます。

メイン モデルは、敵対モデルによって生成された応答と人間のターゲット応答を区別するようにトレーニングされます。敵対モデルは、できるだけ区別がつかない応答を生成することを目的とした反復的な言語モデルです。

t回目の反復で得られた言語モデルパラメータをθtとすると、t+1回目の反復ではθtが対戦相手として使用され、θtを使用して教師あり微調整データセット内の各プロンプトxに対する応答y'が生成されます。

次に、新しい言語モデルパラメータθt+1が最適化され、教師あり微調整データセット内の人間の応答yとy'を区別できるようになります。これにより、段階的なプロセスが形成され、徐々に目標の応答分布に近づきます。

ここで、メインモデルの損失関数は、yとy'の関数値の差を考慮して、対数損失を採用しています。

対戦モデルは、モデルパラメータが大きく逸脱するのを防ぐために、KL ダイバージェンス正規化を追加します。

具体的な敵対的ゲームのトレーニング目標は、式 4.7 に示されています。理論的な分析から、言語モデルの応答分布がターゲット応答分布と等しい場合、最適化プロセスが収束することがわかります。

ゲーム後に生成された合成データをトレーニングに使用し、その後 SPIN を使用して自己微調整を行うと、LLM のパフォーマンスを効果的に向上できます。

写真

ただし、最初の微調整データで再度微調整するだけでは、パフォーマンスが低下します。

SPIN には初期モデル自体と既存の微調整データセットのみが必要なため、LLM は SPIN を通じて自己改善を実現できます。

特に、SPIN は、DPO を介して追加の GPT-4 設定データを使用してトレーニングされたモデルよりも優れたパフォーマンスを発揮します。

写真

さらに、実験により、反復トレーニングは、より多くのエポックでのトレーニングよりもモデルのパフォーマンスをより効果的に向上できることが示されています。

写真

1 回の反復のトレーニング期間を長くしても SPIN のパフォーマンスは低下しませんが、限界に達します。

反復回数が増えるほど、SPIN の効果は明ら​​かになります。

この論文を読んだネットユーザーはため息をついた。

合成データは大規模言語モデルの開発を支配するでしょう。これは大規模言語モデルの研究者にとって非常に良いニュースとなるでしょう。

写真

自己再生によりLLMは継続的に改善できる

具体的には、研究者らが開発した SPIN システムは、相互作用し合う 2 つのモデルから構成されるシステムです。

前回の反復 t の LLMで示され、手動で注釈が付けられた SFT データセット内のプロンプト x に対する応答 y を生成するために使用します。

次の目標は、生成された応答 y と人間が生成した応答 y' を区別できる新しい LLM を見つけることです。

このプロセスは、2 人のプレイヤーによるゲームとして考えることができます。

メインプレイヤーまたは新しい LLM は、対戦相手のプレイヤーの応答と人間が生成した応答を識別しようとしますが、対戦相手または古い LLM は、人間が注釈を付けた SFT データセットの応答にできるだけ類似した応答を生成します。

古い LLM を微調整して得られた新しい LLM は応答を優先しより一致する分布をもたらします

次の反復では、新しく獲得した LLM が応答生成の相手となり、自己対戦プロセスの目標は、最強の LLM が以前に生成した応答バージョンと人間が生成したバージョンを区別できなくなるような状態に LLM が最終的に収束することです。

SPINを使用してモデルのパフォーマンスを向上させる方法

研究者らは、LLM によって生成された応答と人間によって生成された応答を区別することを主なモデルの目標とする 2 人用ゲームを設計しました。同時に、敵対者は人間の反応と区別がつかない反応を生み出すように機能します。研究者のアプローチの中心となるのは、メインモデルをトレーニングすることです。

まず、LLM 応答と人間の応答を区別するためにメイン モデルをトレーニングする方法を説明します。

研究者のアプローチの中心にあるのは、主なプレイヤーと対戦相手の両方が同じ LLM であるが異なる反復からのものであるという自己プレイ メカニズムです。

より具体的には、対戦相手は前回の反復からの古い LLM であり、マスター プレーヤーは現在の反復で学習される新しい LLM です。反復t+1では、次の2つのステップが実行されます:(1)メインモデルのトレーニングと(2)対戦モデルの更新。

メインモデルのトレーニング

まず研究者らは、マスタープレイヤーに LLM の反応と人間の反応を区別するようトレーニングする方法を示します。積分確率測定基準 (IPM) に着想を得て、研究者らは目的関数を次のように定式化しました。

写真

対戦相手モデルの更新

敵対モデルの目標は、プライマリモデルの p データと区別がつかない応答を生成する、より優れた LLM を見つけることです。

実験

SPINはベンチマークパフォーマンスを効果的に向上させます

研究者らは、SPIN の有効性を実証するための広範な評価として、HuggingFace Open LLM Leaderboard を使用しました。

下の図では、研究者は、0 ~ 3 回の反復後に SPIN で微調整されたモデルのパフォーマンスを、ベース モデル zephyr-7b-sft-full と比較しました。

研究者は、ベースモデルが十分に微調整された SFT データセットをさらに活用することで、SPIN がモデルのパフォーマンスを大幅に向上させる結果を示していることを観察できます。

反復 0 では、zephyr-7b-sft-full からモデル応答が生成され、研究者は平均スコアが全体で 2.66% 向上したことを確認しました。

この改善は特に TruthfulQA および GSM8k ベンチマークで顕著で、それぞれ 5% と 10% を超える向上が見られました。

反復 1 では、アルゴリズム 1 で概説されているプロセスに従って、反復 0 の LLM モデルを使用して SPIN の新しい応答を生成します。

この反復により、平均でさらに 1.32% の向上が実現され、これは Arc Challenge および TruthfulQA ベンチマークで特に顕著です。

その後の反復では、さまざまなタスクで段階的な改善の傾向が継続されました。同時に、反復t+1での改善は当然小さくなる。

写真

zephyr-7b-beta は、zephyr-7b-sft-full から派生したモデルで、DPO を使用して約 62,000 の好みデータでトレーニングされています。

研究者らは、DPO では好みを判断するために人間の入力や高レベル言語モデルのフィードバックが必要なので、データ生成はかなりコストのかかるプロセスであると指摘しています。

対照的に、研究者の SPIN では初期モデル自体のみが必要です。

さらに、新しいデータ ソースを必要とする DPO とは異なり、研究者のアプローチでは既存の SFT データセットを最大限に活用します。

下の図は、反復 0 および 1 (50k SFT データを使用) での SPIN および DPO トレーニングのパフォーマンス比較を示しています。

写真

研究者は、DPO が新しいソースからより多くのデータを活用するのに対し、既存の SFT データに基づく SPIN は反復 1 から開始し、リーダーボード ベンチマークでは SPIN が DPO を上回っていることを観察できます。

参考文献:

https://arxiv.org/abs/2401.01335v1

<<:  2歳、1年半の教育経験:赤ちゃんAIトレーナーがサイエンスに登場

>>:  匿名の論文が驚くべきアイデアを提案!大規模なモデルと長いテキストの能力を強化する

ブログ    
ブログ    

推薦する

1 つのバグが原因で 200 億ドルの損失が発生しました。ビジネス異常検出システムを構築するにはどうすればよいでしょうか?

【51CTO.comオリジナル記事】 1. AI ビジネス異常検出システムが必要な理由企業は、業務...

研究者:AIモデルの「推論」はより多くの電力を消費し、業界の電力消費は2027年に「オランダに匹敵する」ようになる

今週10月13日、Cellの姉妹誌Jouleは「人工知能の増大するエネルギーフットプリント」と題する...

GPSを使用しない自動運転システムソリューション

自動運転技術の発展に伴い、未知の環境におけるスマートカーの測位技術がこの分野の研究の中核となっていま...

WidthFormer: リアルタイム自動運転!変圧器ベースのBEVソリューションの量産を支援

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

Google X、手作業でラベル付けすることなく一目で対象部品を見つけられるグリッパーアームをオープンソース化

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

CVPR2019で、Baidu Apolloはレベル4自動運転向けの純粋なビジョンソリューションであるApollo Liteを発表しました。

米国現地時間6月16日から20日まで、コンピュータビジョンとパターン認識の分野における世界有数の学術...

Python、Java、C++がすべて含まれています。このGitHubプロジェクトは、複数の言語で古典的なアルゴリズムを実装しています。

古典的なデータ構造とアルゴリズムをいくつ知っていますか?大企業で面接を受けてみませんか?アルゴリズム...

なぜ機械学習展開プラットフォームを Python ではなく Go で作成したのでしょうか?

Python は機械学習の分野で広く使われるようになりました。しかし、Python は、全能の神が...

ロボット工学の未来:人間とロボットのコラボレーション

IoT テクノロジー、ロボット、人間が相互運用されると、高度なロボット機能が実現され、新しいアプリケ...

人工知能シナリオにおける HBase の使用

近年、人工知能は、特にビッグデータと組み合わせて使用​​されることで、ますます人気が高まっています。...

オブジェクトストレージがAIと機械学習に適している3つの理由

[[328561]]今日、あらゆるタイプの企業が人工知能や機械学習のプロジェクトに取り組んでいますが...

清華大学チームは、蛍光画像から自己教師あり方式でノイズを除去する空間冗長性ノイズ除去トランスフォーマー法を開発

高い信号対雑音比を備えた蛍光イメージングは​​、生物学的現象の正確な可視化と分析の基礎となっています...

人工知能はスマートシティの夢の実現にどのように役立つか

2008 年の金融危機後、都市計画とサービス提供に対する新しいアプローチが世界中で定着し始めました。...