7億7千万パラメータ、5400億PaLMを超えます! UW Google はトレーニング データの 80% のみを必要とする「ステップ蒸留」を提案 | ACL 2023

7億7千万パラメータ、5400億PaLMを超えます! UW Google はトレーニング データの 80% のみを必要とする「ステップ蒸留」を提案 | ACL 2023

大規模言語モデルは優れたパフォーマンスを持ち、ゼロショットまたは少数ショットのプロンプトで新しいタスクを解決できますが、LLM は実際のアプリケーションへの展開には実用的ではなく、メモリ利用効率が低く、多くのコンピューティング リソースを必要とします。

たとえば、1,750 億のパラメータを持つ言語モデル サービスを実行するには、少なくとも 350 GB のビデオ メモリが必要です。また、現在最も高度な言語モデルのほとんどは、5,000 億を超えるパラメータを持っています。多くの研究チームには、それらを実行するための十分なリソースがなく、実際のアプリケーションでは低レイテンシのパフォーマンスを実現できません。

手動で注釈を付けたデータや、LLM によって生成されたラベルを使用した蒸留を使用して、より小さなタスク固有のモデルをトレーニングする研究もありますが、微調整と蒸留では、LLM に匹敵するパフォーマンスを達成するには大量のトレーニング データが必要になります。

大規模モデルのリソース需要問題を解決するために、ワシントン大学とGoogleは共同で新しい蒸留メカニズム「Distilling Step-by-Step」を提案しました。蒸留後のモデルのサイズは元のモデルよりもはるかに小さくなりますが、パフォーマンスは向上し、微調整と蒸留中に必要なトレーニングデータが少なくなります。

論文リンク: https://arxiv.org/abs/2305.02301

分布蒸留メカニズムは、LLM から抽出された予測根拠を、マルチタスク フレームワークで小規模モデルをトレーニングするための追加の監視情報として使用します。

4 つの NLP ベンチマークで実験を行った結果、次のことがわかりました。

1. 微調整や蒸留と比較して、このメカニズムはより少ないトレーニング サンプルでより優れたパフォーマンスを実現します。

2. 少数ショットヒントLLMと比較して、このメカニズムはより小さなモデルサイズを使用してより優れたパフォーマンスを実現します。

3. モデルのサイズとデータ量の両方を削減することで、LLM よりも優れたパフォーマンスを実現することもできます。

実験では、770M の微調整された T5 モデルは、利用可能なデータの 80% のみを使用したベンチマークで、数回のショットでプロンプトされた 540B PaLM モデルよりも優れたパフォーマンスを発揮しましたが、標準の微調整された T5 モデルは、データセットの 100% を使用しても、匹敵するのに苦労しました。

蒸留法

分散蒸留(段階的に蒸留する)の重要な考え方は、情報が豊富で自然言語で記述された予測の理由、つまり入力問題とモデル出力の関係を説明できる中間推論ステップを抽出し、次にこのデータを順番に使用して、より効率的な方法で小さなモデルをトレーニングすることです。

分散蒸留は主に 2 つの段階で構成されます。

1. LLMから根拠を抽出する

研究者らは、数回の思考連鎖(CoT)プロンプトを使用して、LLM から予測中間ステップを抽出しました。

ターゲットタスクが与えられた後、LLM 入力プロンプトにいくつかの例が用意されます。各例は、(入力、原則、出力) を含む 3 つの要素で構成されます。

プロンプトを入力すると、LLM はトリプルデモンストレーションの予測原理を模倣して、他の新しい質問を生成することができます。たとえば、常識的な質問への回答タスクでは、入力質問が与えられます。

「サミーは人がいるところに行きたいと思っています。どこに行くでしょうか? 答えの選択肢:(a) 人口密集地域、(b) 競馬場、(c) 砂漠、(d) アパート、(e) 検問所。」

(サミーは人がいるところへ行きたかった。どこへ行くでしょうか?答えの選択肢:(a)人口密集地域、(b)レーストラック、(c)砂漠、(d)アパート、(e)検問所)

段階的な改良を経て、LLM は質問「(a) 人口密集地域」に正しい答えを出し、質問に答える理由「答えは、人がたくさんいる場所でなければなりません。上記の選択肢の中で、人口密集地域だけに人がたくさんいます。」を提供することができます。

コンテキスト学習機能により、プロンプトで CoT の例と根拠をペアにして提供することで、LLM は未知の質問タイプに対応する回答の根拠を生成できるようになります。

2. 小さなモデルのトレーニング

トレーニング プロセスをマルチタスクの問題として捉えることで、予測の根拠が抽出され、トレーニング ミニモデルに組み込まれます。

研究者らは、標準的なラベル予測タスクに加えて、新しい理由生成タスクも使用して小規模モデルをトレーニングしました。これにより、モデルは予測のための中間推論ステップを生成することを学習し、結果ラベルをより適切に予測できるようにモデルを誘導できます。

入力プロンプトにタスクプレフィックス「ラベル」と「根拠」を追加することで、ラベル予測タスクと根拠生成タスクを区別します。

実験結果

実験では、研究者らは5400億のパラメータを持つPaLMモデルをLLMベースラインとして選択し、T5モデルをタスク関連の下流の小さなモデルとして使用しました。

次に、自然言語推論用の e-SNLI と ANLI、一般知識の質問応答用の CQA、算数の文章題用の SVAMP という 3 つの異なる NLP タスクで 4 つのベンチマーク データセットに対して実験を行います。

トレーニングデータが少ない

標準的な微調整と比較して、段階的な蒸留方法では、より少ないトレーニング データを使用してより優れたパフォーマンスを実現します。

e-SNLI データセットでは、データセット全体の 12.5% を使用すると標準の微調整よりも優れたパフォーマンスが実現され、ANLI、CQA、SVAMP ではそれぞれトレーニング データの 75%、25%、20% のみが必要になります。

分布蒸留は、220M T5 モデルを使用してさまざまなサイズの人間がラベル付けしたデータセットで標準的な微調整を行うのと比較して、すべてのデータセットでより少ないトレーニング例を使用して完全なデータセットでトレーニングされた標準的な微調整よりも優れています。

より小さな展開モデルサイズ

少数ショットの CoT プロンプト LLM と比較すると、分布蒸留ではモデル サイズがはるかに小さくなりますが、パフォーマンスは向上します。

e-SNLI データセットでは、220M の T5 モデルが 540B の PaLM よりも優れたパフォーマンスを実現します。ANLI では、770M の T5 モデルが 540B の PaLM よりも優れたパフォーマンスを実現しますが、モデル サイズはわずか 1/700 です。

モデルが小さくなり、データも少なくなる

モデルサイズとトレーニングデータの両方を削減しながら、few-shot PaLM を超えるパフォーマンスも実現します。

ANLIでは、770M T5モデルは、データセット全体の80%のみを使用して、540B PaLMのパフォーマンスを上回りました。

完全なデータセットの 100% を使用しても、標準的な微調整では PaLM のパフォーマンスに追いつけないことがわかります。これは、段階的な蒸留によってモデル サイズとトレーニング データの量を同時に削減し、LLM を上回るパフォーマンスを実現できることを示しています。

<<:  AIの「不確実な時代」にどう向き合うか

>>: 

ブログ    

推薦する

警告!長距離LiDAR認識

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

このトリックにより、トランスフォーマーの推論速度が4.5倍になり、数十万ドルを節約できます。

[[443226]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...

敏捷性の秘密: iPCA ネットワーク パケット保存アルゴリズム

次世代ネットワークにおける「見える化」への欲求ネットワークが複雑になるにつれて、ネットワーク管理に対...

人工知能とビッグデータの隠れた危険性とは何でしょうか?

データの不足から現在では大量のデータが存在するまで、近年では利用可能なデータの量が飛躍的に増加し、ビ...

テルアビブ大学は、SOTAメソッドとアーキテクチャの新たな進歩を完全に理解するためにStyleGANを要約しました。

GAN の高解像度画像を生成する能力は、画像合成および処理の分野に革命をもたらしています。 201...

エッジAI + コンピュータービデオが木製ラック業界に新たな風を吹き込む

北京、12月30日:インテリジェントな要素がエッジに向かって動いています。データ収集速度が向上するに...

Pythonとdlibを使用した顔検出

「Dlib は、高度なソフトウェアを作成するための機械学習アルゴリズムとツールの最新の C++ ツー...

ハイブリッドAIは企業がデータの価値を掘り出すための好ましい方法である

人工知能については、誰もがよくご存知だと思います。実際、人工知能には幅広い知識が含まれており、さまざ...

自動運転のスケールアップ問題

[[280016]]最近のニュースによると、Google傘下の自動運転企業Waymoがユーザーにメー...

Google Brain エンジニアの講演: TensorFlow とディープラーニング

この記事は、Google Brain エンジニアの Zhou Yuefeng 氏が QCon Sha...

機械学習が将来の雇用市場にどのような影響を与えるか

機械学習は、あらゆる業界、特に雇用と求人市場に変革をもたらし、エントリーレベルの職からトップレベルの...

Python コーディング面接の前に解くべき 10 個のアルゴリズム

アルゴリズムの練習がなぜ重要なのか?私が最初に問題を解き始めたときのように世間知らずにならないでくだ...