皆さんもご存知のとおり、大規模言語モデル (LLM) はディープラーニングの状況を変えつつあり、人間品質のテキストを生成し、さまざまな言語タスクを解決する優れた能力を発揮しています。業界では、人間が収集したデータに対する監督下での微調整を通じて特定のタスクのパフォーマンスをさらに向上させてきましたが、高品質の人間データの取得には大きなボトルネックがあります。これは、複雑な問題解決を必要とし、多大なリソースと専門知識を必要とするタスクに特に当てはまります。 どうすれば解決できるでしょうか?モデルによって生成された合成データは、データの品質が保証されている限り、スケーラブルでコスト効率の高い有望な代替手段です。 LLM は生成されたデータを自己評価できますが、この論文では、生成された各サンプルの品質指標として外部スカラーフィードバック信号を使用する、より単純な設定について説明します。 論文アドレス: https://arxiv.org/pdf/2312.06585.pdf モデル生成データのトレーニングを研究するために、研究者らは、モデルに基づいてサンプルを生成する機能と、スコアリング メカニズムを使用してこれらのサンプルを評価する機能の 2 つの機能のみを必要とする、シンプルだが強力な言語モデルの自己トレーニング方法を検討しました。 明確さと一貫性を確保するために、研究者らは強化自己トレーニング法ReST^𝐸𝑀を採用し、この方法が強化学習に期待最大化(EM)を使用できることを証明しました。具体的には、ReST^𝐸𝑀 は期待ステップと最大化ステップを交互に実行します。
研究者らは、ReST^𝐸𝑀とその変種が、機械翻訳、意味解析、嗜好アライメント、グラウンデッド推論など、さまざまな分野で言語モデルの強化に成功したことを実証しました。 さらに、これまでの研究では、比較的小規模なモデル(最大 70 億のパラメータ)に主に ReST^𝐸𝑀 を使用していたため、大規模なモデルへのスケーラビリティが制限されていました。したがって、本論文の目的は、競技レベルの数学的問題解決 (MATH) とコード生成 (APPS) という、困難でありながら十分に研究されていない 2 つの分野において、モデルによって生成された合成データと人間が生成したデータの有効性とスケーラビリティを調査することです。 実験結果によると、ReST^𝐸𝑀をさまざまなサイズの PaLM 2 モデルに適用すると、数学的推論とコード生成タスクで大幅なパフォーマンスの向上が達成されます。モデルによって生成された合成データで微調整されたモデルは、人間が作成したデータでトレーニングされたモデルと比較して、より大きなパフォーマンスの向上を達成しました。興味深いことに、ReST^𝐸𝑀 の反復回数が一定回数を超えるとパフォーマンスが低下し、少数のトレーニング問題で過剰適合が発生する可能性があることが示唆されます。 さらに、ReST^𝐸𝑀で微調整されたモデルは、pass@kメトリックと多数決のパフォーマンスを向上させます。これらの微調整されたモデルは、数学の問題 (GSM8K およびハンガリーの高校最終試験)、コーディング (HumanEval)、Big-Bench Hard タスクなど、関連しているものの保留中のベンチマークでもパフォーマンスの向上を示しています。 要約すると、私たちの結果は、フィードバックによる自己トレーニングが人間のデータへの依存を減らす有望なアプローチであることを示唆しています。 強化自己トレーニングの期待最大値(EM)まず、本研究では Dayan と Hinton の以前の研究を基に、言語モデルを使用した EM ベースの強化学習フレームワークについて説明します。具体的には、まずバイナリ最適変数 O を定義し、𝑝(𝑂= 1|𝒙,𝒚)∝𝑓(𝑟(𝒙,𝒚)) とし、次に非減少関数 𝑓 : ℝ → ℝ+ に対して観測値 𝑂= 1 (高い報酬を得る) を最大化し、次の式を得ました。 しかし、上記の式における数列 𝒚 の和を解くのは難しいです。したがって、本論文では、log𝑝(𝑂 = 1;𝒙)を最大化するのではなく、パラメータ𝜃と変分分布𝑞(𝑦|𝑥)に関してELBO𝐿(𝑝𝜃,𝑞)を最大化することを検討する。具体的には: 式(2)のEMアルゴリズムはEステップ(期待値)とMステップ(最大化)を交互に繰り返す。 ReST^𝐸𝑀: EM フレームワークに触発されて、この論文では Gulcehre らが提案した ReST メソッドの簡略化されたバージョンについて説明します。わかりやすくするために、この論文ではこのアプローチを ReST^𝐸𝑀 と呼んでいます。これは、RL パイプラインでデータ収集 (E ステップ) とポリシー最適化 (M ステップ) を分離します。アルゴリズム 1 に示すように: 生成(Eステップ) :このステップでは、現在のポリシー 𝑝𝜃 から出力シーケンスをサンプリングしてデータセットを生成します。ここで、入力は元のデータセットから再サンプリングされます。出力シーケンスは、バイナリ報酬関数 𝑟(𝒙,𝒚) を使用してスコア付けされます。 改善(Mステップ) :𝑖回目の反復では、Eステップの新しいデータセットを使用してポリシー𝑝𝜃を微調整します。 Gulcehre の研究とは異なり、彼らはタスク固有の過剰適合を最小限に抑え、ベースモデルからの逸脱を最小限に抑えるために、ベースの事前トレーニング済み言語モデルを微調整します。微調整のために、報酬加重負対数尤度損失を最小化します。戦略が改善されると、より高品質のサンプルを含む新しいデータセットを再度作成できるようになります。 実験と分析この論文の実験の主な目的は、以下の質問に答えることです。
この研究では、PaLM 2-S (Bison)、PaLM 2-S* (Codey)、PaLM 2-L (Unicorn) などの PaLM 2 モデルと Google Cloud 上の公開 API を使用して実験を実施しました。トレーニング データセットでは、MATH データセットと APPS データセットを使用します。 図2と図3は、それぞれMATHデータセットとAPPSデータセットでトレーニングされたReST^𝐸𝑀のパフォーマンスを示しています。 MATH テスト セットのパフォーマンスと GSM8K への移行の両方の点で、MATH は ReST^𝐸𝑀 の複数回の反復から恩恵を受けると結論付けることができます。一方、APPS の利点のほとんどは最初の反復から得られ、反復回数が増えると APPS と HumanEval のパフォーマンスが低下することがわかります。 トレーニングとテストのパフォーマンスのギャップ。図 4 は、トレーニング セットのパフォーマンスは ReST^𝐸𝑀 の反復回数に応じて直線的に増加するのに対し、テスト セットのパフォーマンスは増加しないことを示しています。 MATH の場合、最初の反復後のテスト パフォーマンスの改善はわずかですが、APPS の場合、2 回目の反復でパフォーマンスの低下が見られます。この研究では、パフォーマンスの低下は過剰適合によるものである可能性があると推測した。 APPS データセットのサイズは MATH データセットの約 3 分の 1 であるため、この問題の影響を受けやすくなります。 図 5 は、pass@K メトリックにおける Palm-2-L モデルのパフォーマンスを示しています。結果は、微調整後に得られた ReST^𝐸𝑀 モデルがすべての K 値に対してより強力であり、パフォーマンス ギャップが通常 K=1 のときに最大になることを示しています。 |
<<: Huawei NoahのPangu Agentは、インテリジェントエージェントが構造化推論を学習するのを支援します
>>: Transformerのランクを下げ、LLMのパフォーマンスを低下させることなく、特定のレイヤーのコンポーネントの90%以上を削除する
「私の大胆な決断の1つは、2025年までに従来のヘルプデスクを廃止したいということだった」とトヨタ自...
GPT-4 を「推奨」した後、Copilot は Terence Tao 氏からも熱烈に推奨されま...
人工知能や機械学習 (AI/ML) をトレーニングするために現実世界のデータを収集することは、時間が...
01 バイアスと分散のトレードオフこれは、機械学習における最も重要な理論の中で常に上位にランクされ...
[[434358]]現在、強化学習(深層強化学習DRL、マルチエージェント強化学習MARLを含む)は...
現在、人工知能技術は急速に発展しており、非常に注目を集めています。しかし、数多くの方法があるにもかか...
[[408300]]重慶ビジネスデイリー・商油新聞記者が本について語る大学入試願書を記入中です。専攻...
画像出典: インターネット来年発売されるヒュンダイG90とGV80は、ヒュンダイのL3自動運転モデル...
ディープマインドは昨年2月、プログラミング支援ツール「AlphaCode」をリリースした。人工知能技...
新華網、北京、3月4日、タイトル:「スカイアイ」が駐車の難しさを解決し、人工知能が都市統治を強化新華...
[51CTO.com クイック翻訳] 現在、世界中のデジタル広告代理店は、ニュースサイト、検索エンジ...