7億7千万パラメータ、5400億PaLMを超えます！ UW Google はトレーニングデータの 80% のみを必要とする「ステップ蒸留」を提案 | ACL 2023

大規模言語モデルは優れたパフォーマンスを持ち、ゼロショットまたは少数ショットのプロンプトで新しいタスクを解決できますが、LLM は実際のアプリケーションへの展開には実用的ではなく、メモリ利用効率が低く、多くのコンピューティングリソースを必要とします。

たとえば、1,750 億のパラメータを持つ言語モデルサービスを実行するには、少なくとも 350 GB のビデオメモリが必要です。また、現在最も高度な言語モデルのほとんどは、5,000 億を超えるパラメータを持っています。多くの研究チームには、それらを実行するための十分なリソースがなく、実際のアプリケーションでは低レイテンシのパフォーマンスを実現できません。

手動で注釈を付けたデータや、LLM によって生成されたラベルを使用した蒸留を使用して、より小さなタスク固有のモデルをトレーニングする研究もありますが、微調整と蒸留では、LLM に匹敵するパフォーマンスを達成するには大量のトレーニングデータが必要になります。

大規模モデルのリソース需要問題を解決するために、ワシントン大学とGoogleは共同で新しい蒸留メカニズム「Distilling Step-by-Step」を提案しました。蒸留後のモデルのサイズは元のモデルよりもはるかに小さくなりますが、パフォーマンスは向上し、微調整と蒸留中に必要なトレーニングデータが少なくなります。

論文リンク: https://arxiv.org/abs/2305.02301

分布蒸留メカニズムは、LLM から抽出された予測根拠を、マルチタスクフレームワークで小規模モデルをトレーニングするための追加の監視情報として使用します。

4 つの NLP ベンチマークで実験を行った結果、次のことがわかりました。

1. 微調整や蒸留と比較して、このメカニズムはより少ないトレーニングサンプルでより優れたパフォーマンスを実現します。

2. 少数ショットヒントLLMと比較して、このメカニズムはより小さなモデルサイズを使用してより優れたパフォーマンスを実現します。

3. モデルのサイズとデータ量の両方を削減することで、LLM よりも優れたパフォーマンスを実現することもできます。

実験では、770M の微調整された T5 モデルは、利用可能なデータの 80% のみを使用したベンチマークで、数回のショットでプロンプトされた 540B PaLM モデルよりも優れたパフォーマンスを発揮しましたが、標準の微調整された T5 モデルは、データセットの 100% を使用しても、匹敵するのに苦労しました。

蒸留法

分散蒸留（段階的に蒸留する）の重要な考え方は、情報が豊富で自然言語で記述された予測の理由、つまり入力問題とモデル出力の関係を説明できる中間推論ステップを抽出し、次にこのデータを順番に使用して、より効率的な方法で小さなモデルをトレーニングすることです。

分散蒸留は主に 2 つの段階で構成されます。

1. LLMから根拠を抽出する

研究者らは、数回の思考連鎖（CoT）プロンプトを使用して、LLM から予測中間ステップを抽出しました。

ターゲットタスクが与えられた後、LLM 入力プロンプトにいくつかの例が用意されます。各例は、(入力、原則、出力) を含む 3 つの要素で構成されます。

プロンプトを入力すると、LLM はトリプルデモンストレーションの予測原理を模倣して、他の新しい質問を生成することができます。たとえば、常識的な質問への回答タスクでは、入力質問が与えられます。

「サミーは人がいるところに行きたいと思っています。どこに行くでしょうか？答えの選択肢：(a) 人口密集地域、(b) 競馬場、(c) 砂漠、(d) アパート、(e) 検問所。」

（サミーは人がいるところへ行きたかった。どこへ行くでしょうか？答えの選択肢：（a）人口密集地域、（b）レーストラック、（c）砂漠、（d）アパート、（e）検問所）

段階的な改良を経て、LLM は質問「(a) 人口密集地域」に正しい答えを出し、質問に答える理由「答えは、人がたくさんいる場所でなければなりません。上記の選択肢の中で、人口密集地域だけに人がたくさんいます。」を提供することができます。

コンテキスト学習機能により、プロンプトで CoT の例と根拠をペアにして提供することで、LLM は未知の質問タイプに対応する回答の根拠を生成できるようになります。

2. 小さなモデルのトレーニング

トレーニングプロセスをマルチタスクの問題として捉えることで、予測の根拠が抽出され、トレーニングミニモデルに組み込まれます。

研究者らは、標準的なラベル予測タスクに加えて、新しい理由生成タスクも使用して小規模モデルをトレーニングしました。これにより、モデルは予測のための中間推論ステップを生成することを学習し、結果ラベルをより適切に予測できるようにモデルを誘導できます。

入力プロンプトにタスクプレフィックス「ラベル」と「根拠」を追加することで、ラベル予測タスクと根拠生成タスクを区別します。

実験結果

実験では、研究者らは5400億のパラメータを持つPaLMモデルをLLMベースラインとして選択し、T5モデルをタスク関連の下流の小さなモデルとして使用しました。

次に、自然言語推論用の e-SNLI と ANLI、一般知識の質問応答用の CQA、算数の文章題用の SVAMP という 3 つの異なる NLP タスクで 4 つのベンチマークデータセットに対して実験を行います。

トレーニングデータが少ない

標準的な微調整と比較して、段階的な蒸留方法では、より少ないトレーニングデータを使用してより優れたパフォーマンスを実現します。

e-SNLI データセットでは、データセット全体の 12.5% を使用すると標準の微調整よりも優れたパフォーマンスが実現され、ANLI、CQA、SVAMP ではそれぞれトレーニングデータの 75%、25%、20% のみが必要になります。

分布蒸留は、220M T5 モデルを使用してさまざまなサイズの人間がラベル付けしたデータセットで標準的な微調整を行うのと比較して、すべてのデータセットでより少ないトレーニング例を使用して完全なデータセットでトレーニングされた標準的な微調整よりも優れています。

より小さな展開モデルサイズ

少数ショットの CoT プロンプト LLM と比較すると、分布蒸留ではモデルサイズがはるかに小さくなりますが、パフォーマンスは向上します。

e-SNLI データセットでは、220M の T5 モデルが 540B の PaLM よりも優れたパフォーマンスを実現します。ANLI では、770M の T5 モデルが 540B の PaLM よりも優れたパフォーマンスを実現しますが、モデルサイズはわずか 1/700 です。

モデルが小さくなり、データも少なくなる

モデルサイズとトレーニングデータの両方を削減しながら、few-shot PaLM を超えるパフォーマンスも実現します。

ANLIでは、770M T5モデルは、データセット全体の80%のみを使用して、540B PaLMのパフォーマンスを上回りました。

完全なデータセットの 100% を使用しても、標準的な微調整では PaLM のパフォーマンスに追いつけないことがわかります。これは、段階的な蒸留によってモデルサイズとトレーニングデータの量を同時に削減し、LLM を上回るパフォーマンスを実現できることを示しています。

<<: AIの「不確実な時代」にどう向き合うか

>>:

Google Research の最新の発見: トレーニング結果が不正確になるのは、データ規模が巨大すぎることが原因です。

7億7千万パラメータ、5400億PaLMを超えます！ UW Google はトレーニングデータの 80% のみを必要とする「ステップ蒸留」を提案 | ACL 2023

蒸留法

実験結果

Google Research の最新の発見: トレーニング結果が不正確になるのは、データ規模が巨大すぎることが原因です。

中国人民大学のウェン・ジロン、ガオ・リンらによる32ページにわたるAI自律エージェントの包括的なレビュー。構築、応用、評価を網羅している。

HellobikeがAIベースのシェアモビリティ技術を発表

教師あり学習に匹敵する、より優れた一般化性能を備えた自己教師あり学習深度推定アルゴリズム

ロボット「シェフ」がニューヨークに登場、1時間で300個の巻き寿司を作れる！

ビル・ゲイツ氏：GPT-5はGPT-4よりそれほど良くはならない、生成AIは限界に達した

人工知能技術はどのようにビジネスに統合されるのでしょうか?

AIを活用して都市の建物の特性を識別し、地震などの災害に対するリスクを予測する

推薦する

MITの新しい研究により、物体間の潜在的な関係性を理解し、AIが人間のように世界を「見る」ことが可能になった。

この式がブロックされると、AI IQはゼロになります

マーケターがAIと機械学習を活用して顧客にリーチする方法

2万本の論文が過去5年間の機械学習の変遷を物語る

AI時代に従業員がIT業務の価値を証明する方法

時間ステップを100倍短縮すると、従来のニューラルネットワークと同等の精度を実現：上海交通大学などがANN-SNN変換フレームワークSpikeConverterを提案

2018 年 4 月の最も人気のある AI 機械学習プロジェクトトップ 5

エッジインテリジェンス: AIの次の波

エンタープライズネットワークセキュリティにおける AI アプリケーションについてご存知ですか?

速度が2倍に向上、超強力なCPUレベルのバックボーンネットワークPP-LCNetが誕生

人工知能の最初のグループが解雇された

HumanGaussian オープンソース: ガウススプラッティングに基づく高品質な 3D 人体生成のための新しいフレームワーク

教師あり学習と教師なし学習：専門家がギャップを定義