7億7千万パラメータ、5400億PaLMを超えます! UW Google はトレーニング データの 80% のみを必要とする「ステップ蒸留」を提案 | ACL 2023

7億7千万パラメータ、5400億PaLMを超えます! UW Google はトレーニング データの 80% のみを必要とする「ステップ蒸留」を提案 | ACL 2023

大規模言語モデルは優れたパフォーマンスを持ち、ゼロショットまたは少数ショットのプロンプトで新しいタスクを解決できますが、LLM は実際のアプリケーションへの展開には実用的ではなく、メモリ利用効率が低く、多くのコンピューティング リソースを必要とします。

たとえば、1,750 億のパラメータを持つ言語モデル サービスを実行するには、少なくとも 350 GB のビデオ メモリが必要です。また、現在最も高度な言語モデルのほとんどは、5,000 億を超えるパラメータを持っています。多くの研究チームには、それらを実行するための十分なリソースがなく、実際のアプリケーションでは低レイテンシのパフォーマンスを実現できません。

手動で注釈を付けたデータや、LLM によって生成されたラベルを使用した蒸留を使用して、より小さなタスク固有のモデルをトレーニングする研究もありますが、微調整と蒸留では、LLM に匹敵するパフォーマンスを達成するには大量のトレーニング データが必要になります。

大規模モデルのリソース需要問題を解決するために、ワシントン大学とGoogleは共同で新しい蒸留メカニズム「Distilling Step-by-Step」を提案しました。蒸留後のモデルのサイズは元のモデルよりもはるかに小さくなりますが、パフォーマンスは向上し、微調整と蒸留中に必要なトレーニングデータが少なくなります。

論文リンク: https://arxiv.org/abs/2305.02301

分布蒸留メカニズムは、LLM から抽出された予測根拠を、マルチタスク フレームワークで小規模モデルをトレーニングするための追加の監視情報として使用します。

4 つの NLP ベンチマークで実験を行った結果、次のことがわかりました。

1. 微調整や蒸留と比較して、このメカニズムはより少ないトレーニング サンプルでより優れたパフォーマンスを実現します。

2. 少数ショットヒントLLMと比較して、このメカニズムはより小さなモデルサイズを使用してより優れたパフォーマンスを実現します。

3. モデルのサイズとデータ量の両方を削減することで、LLM よりも優れたパフォーマンスを実現することもできます。

実験では、770M の微調整された T5 モデルは、利用可能なデータの 80% のみを使用したベンチマークで、数回のショットでプロンプトされた 540B PaLM モデルよりも優れたパフォーマンスを発揮しましたが、標準の微調整された T5 モデルは、データセットの 100% を使用しても、匹敵するのに苦労しました。

蒸留法

分散蒸留(段階的に蒸留する)の重要な考え方は、情報が豊富で自然言語で記述された予測の理由、つまり入力問題とモデル出力の関係を説明できる中間推論ステップを抽出し、次にこのデータを順番に使用して、より効率的な方法で小さなモデルをトレーニングすることです。

分散蒸留は主に 2 つの段階で構成されます。

1. LLMから根拠を抽出する

研究者らは、数回の思考連鎖(CoT)プロンプトを使用して、LLM から予測中間ステップを抽出しました。

ターゲットタスクが与えられた後、LLM 入力プロンプトにいくつかの例が用意されます。各例は、(入力、原則、出力) を含む 3 つの要素で構成されます。

プロンプトを入力すると、LLM はトリプルデモンストレーションの予測原理を模倣して、他の新しい質問を生成することができます。たとえば、常識的な質問への回答タスクでは、入力質問が与えられます。

「サミーは人がいるところに行きたいと思っています。どこに行くでしょうか? 答えの選択肢:(a) 人口密集地域、(b) 競馬場、(c) 砂漠、(d) アパート、(e) 検問所。」

(サミーは人がいるところへ行きたかった。どこへ行くでしょうか?答えの選択肢:(a)人口密集地域、(b)レーストラック、(c)砂漠、(d)アパート、(e)検問所)

段階的な改良を経て、LLM は質問「(a) 人口密集地域」に正しい答えを出し、質問に答える理由「答えは、人がたくさんいる場所でなければなりません。上記の選択肢の中で、人口密集地域だけに人がたくさんいます。」を提供することができます。

コンテキスト学習機能により、プロンプトで CoT の例と根拠をペアにして提供することで、LLM は未知の質問タイプに対応する回答の根拠を生成できるようになります。

2. 小さなモデルのトレーニング

トレーニング プロセスをマルチタスクの問題として捉えることで、予測の根拠が抽出され、トレーニング ミニモデルに組み込まれます。

研究者らは、標準的なラベル予測タスクに加えて、新しい理由生成タスクも使用して小規模モデルをトレーニングしました。これにより、モデルは予測のための中間推論ステップを生成することを学習し、結果ラベルをより適切に予測できるようにモデルを誘導できます。

入力プロンプトにタスクプレフィックス「ラベル」と「根拠」を追加することで、ラベル予測タスクと根拠生成タスクを区別します。

実験結果

実験では、研究者らは5400億のパラメータを持つPaLMモデルをLLMベースラインとして選択し、T5モデルをタスク関連の下流の小さなモデルとして使用しました。

次に、自然言語推論用の e-SNLI と ANLI、一般知識の質問応答用の CQA、算数の文章題用の SVAMP という 3 つの異なる NLP タスクで 4 つのベンチマーク データセットに対して実験を行います。

トレーニングデータが少ない

標準的な微調整と比較して、段階的な蒸留方法では、より少ないトレーニング データを使用してより優れたパフォーマンスを実現します。

e-SNLI データセットでは、データセット全体の 12.5% を使用すると標準の微調整よりも優れたパフォーマンスが実現され、ANLI、CQA、SVAMP ではそれぞれトレーニング データの 75%、25%、20% のみが必要になります。

分布蒸留は、220M T5 モデルを使用してさまざまなサイズの人間がラベル付けしたデータセットで標準的な微調整を行うのと比較して、すべてのデータセットでより少ないトレーニング例を使用して完全なデータセットでトレーニングされた標準的な微調整よりも優れています。

より小さな展開モデルサイズ

少数ショットの CoT プロンプト LLM と比較すると、分布蒸留ではモデル サイズがはるかに小さくなりますが、パフォーマンスは向上します。

e-SNLI データセットでは、220M の T5 モデルが 540B の PaLM よりも優れたパフォーマンスを実現します。ANLI では、770M の T5 モデルが 540B の PaLM よりも優れたパフォーマンスを実現しますが、モデル サイズはわずか 1/700 です。

モデルが小さくなり、データも少なくなる

モデルサイズとトレーニングデータの両方を削減しながら、few-shot PaLM を超えるパフォーマンスも実現します。

ANLIでは、770M T5モデルは、データセット全体の80%のみを使用して、540B PaLMのパフォーマンスを上回りました。

完全なデータセットの 100% を使用しても、標準的な微調整では PaLM のパフォーマンスに追いつけないことがわかります。これは、段階的な蒸留によってモデル サイズとトレーニング データの量を同時に削減し、LLM を上回るパフォーマンスを実現できることを示しています。

<<:  AIの「不確実な時代」にどう向き合うか

>>: 

ブログ    
ブログ    

推薦する

...

アルトマンのYCスピーチ: ChatGPTを攻撃する者は死ぬ、私ができるからといって、あなたにもできるとは限らない

ウルトラマンのシンプルな言葉はAIスタートアップ企業を震え上がらせた。 「Shelling」Open...

なぜ人工知能は宇宙の謎を解く鍵となるのでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

インターフェース開発にアルゴリズムは必要ないなんて誰が言ったのでしょうか?

[[146153]]アルゴリズムとは何ですか?簡単に言えば、問題を解決するための手順がアルゴリズム...

2023年以降を一変させる5G IoTテクノロジートップ10

IoT 分野の拡大と発展により、多くの変革的テクノロジーがもたらされるでしょう。家庭から自動車、ウ...

...

百度文心ビッグモデル4.0速報:万華訓練史上最大のパラメータ、早くても来週にお会いしましょう

昨日10月9日、財連社は、百度の文心ビッグモデル4.0が集中的なトレーニングを受けており、リリースの...

...

AIが有名人に似た人を紹介

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

デジタル経済における人工知能の今後の発展動向

近年、デジタル経済の継続的な発展を背景に、人工知能は急速に発展し、さまざまな応用シナリオと深く統合さ...

自動運転制御プロセスにおいて解決すべき規制上の問題は何ですか?

自動運転車は自動車の知能化の究極の目標であると広く考えられていますが、自動車技術のさまざまな段階の発...

人工知能がいかに「知的」であっても、それは人類の奇跡である

テレビ番組「ザ・ブレイン」が巻き起こした「人間対機械」、そして自動運転車、顔認識、アルファ囲碁など一...

サプライチェーン管理における AI イノベーションを活用するために従業員を再教育する方法

サプライチェーン管理は最適化ゲームです。 AI の導入により、企業は最適な成果の達成にさらに注力でき...

転移学習の限界を突破せよ! Googleが新しいNLPモデル「T5」を提案、複数のベンチマークでSOTAに到達

[[316154]]過去数年間、転移学習は NLP 分野に実りある成果をもたらし、新たな発展の波を...

人工知能の発展方向と機会

[[358422]] 01 現段階における人工知能のボトルネック現在、人工知能、特にその応用分野では...