ジェフ・ディーンらの新しい研究:言語モデルを別の視点から見る:規模が十分でなければ発見されない

ジェフ・ディーンらの新しい研究:言語モデルを別の視点から見る:規模が十分でなければ発見されない

近年、言語モデルは自然言語処理 (NLP) に革命的な影響を与えています。パラメータなどの言語モデルを拡張すると、さまざまな下流の NLP タスクでパフォーマンスとサンプル効率が向上する可能性があることはよく知られています。多くの場合、スケーリングがパフォーマンスに与える影響はスケーリングの法則によって予測できることが多く、大多数の研究者は予測可能な現象を研究してきました。

それに対して、「大規模言語モデルの創発能力」という論文では、ジェフ・ディーン氏やパーシー・リャン氏を含む16人の研究者が、大規模モデルの予測不可能な現象について議論し、それを大規模言語モデルの創発能力と呼んだ。いわゆる創発とは、いくつかの現象が小さなモデルには存在しないが、大きなモデルには存在することを意味します。彼らは、このモデルの能力は創発的であると考えています。

アイデアとしての創発は、物理学、生物学、コンピューター サイエンスなどの分野で長い間議論されてきました。この論文は、スタインハートの研究を引用し、ノーベル賞を受賞した物理学者フィリップ アンダーソンの 1972 年の論文「More Is Different」に根ざした創発の一般的な定義から始まります。

この論文では、トレーニングの計算とモデル パラメータの観点から測定されたモデル サイズの出現について説明します。具体的には、大規模言語モデルの出現能力を、小規模モデルには存在しないが大規模モデルには存在する能力として定義します。したがって、小規模モデルのパフォーマンス向上を単純に推測するだけでは、大規模モデルを予測することはできません。この研究では、さまざまな先行研究で観察されたモデルの創発能力を調査し、それらを少数ショットの手がかりや拡張された手がかりなどの設定に分類します。

このモデルの新たな能力は、これらの能力がなぜ獲得されるのか、そしてより大きなサイズがより多くの新たな能力を獲得するかどうかについての将来の研究を促し、この研究の重要性を強調します。

論文アドレス: https://arxiv.org/pdf/2206.07682.pdf

小規模サンプルプロンプトタスク

この論文ではまず、キューイングパラダイムにおける創発的な力について議論します。たとえば、GPT-3 プロンプトでは、事前トレーニング済みの言語モデル タスク プロンプトが与えられると、モデルは追加のトレーニングやパラメーターの勾配更新を行わずに応答を完了できます。さらに、Brown らは、モデルのコンテキスト (入力) でいくつかの入出力例をプロンプト (前置き) として提示し、モデルに未知の推論タスクを実行するように求める、少数ショットのプロンプトを提案しました。図 1 にプロンプ​​トの例を示します。

モデルがランダムなパフォーマンスを持ち、一定のスケールに達すると、小さなサンプルプロンプトでタスクを実行できるようになり、新たな機能が現れ、モデルのパフォーマンスはランダムなパフォーマンスよりもはるかに高くなります。下の図は、5 つの言語モデル ファミリ (LaMDA、GPT-3、Gopher、Chinchilla、PaLM) の 8 つの出現機能を示しています。

BIG-Bench: 図 2A ~ D は、200 を超える言語モデル評価ベンチマークのスイートである BIG-Bench からの 4 つの出現する少数ショットプロンプトタスクを示しています。図 2A は、3 桁の数字の加算と減算、および 2 桁の数字の乗算をテストする算術ベンチマークを示しています。表 1 は、BIG-Bench のさらに新しい機能を示しています。

強化されたプロンプト戦略

少数ショットのヒントは現在、大規模な言語モデルと対話する最も一般的な方法ですが、最近の研究では、言語モデルの機能をさらに強化するための他のヒントや微調整戦略がいくつか提案されています。十分に大きなモデルに適用する前に改善が見られなかったり、有害であったりする技術は、新たな機能であるとみなされます。

多段階推論: 推論タスク、特に多段階推論を伴うタスクは、言語モデルと NLP モデルにとって常に大きな課題でした。思考連鎖プロンプトと呼ばれる最近の戦略により、言語モデルは、最終的な答えを出す前に一連の中間ステップを生成するように誘導することで、このような問題を解決できるようになります。図 3A に示すように、1023 トレーニング FLOP (約 100B パラメータ) にスケールすると、思考連鎖プロンプトは中間ステップのない標準プロンプトよりも優れたパフォーマンスを発揮します。

命令の追跡: 図 3B に示すように、Wei らは、トレーニング FLOP が 7 · 10^21 (80 億のパラメータ) 以下の場合、命令の微調整手法によってモデルのパフォーマンスが低下し、トレーニング FLOP が 10^23 (約 1000 億のパラメータ) に拡張された場合にのみパフォーマンスが向上することを発見しました。

プログラム実行: 図 3C に示すように、8 ビット加算のドメイン内評価では、スクラッチパッドの使用は、約 9·10^19 FLOP (40M パラメータ) 以上のモデルのトレーニングにのみ役立ちます。図 3D は、これらのモデルがドメイン外 9 ビット加算にも一般化できることを示しています。これは、約 1.3·10^20 のトレーニング FLOP (100M パラメータ) で発生します。

この論文では、これまで特定の計算規模でのみ意味のあるパフォーマンスが観察されてきた言語モデルの出現力について説明します。このモデルの新たな機能は、さまざまな言語モデル、タスク タイプ、実験シナリオにまたがることができます。この出現の存在は、追加のスケーリングによって言語モデルの機能がさらに拡張できることを意味します。この能力は最近発見された言語モデルの拡張の結果であり、それがどのように出現するか、そしてさらなる拡張がより多くの能力の出現につながるかどうかは、NLP 分野における将来の重要な研究方向となる可能性があります。

詳細については、原文論文を参照してください。​

<<:  Meta Digital Human 2nd Generation が登場! VRヘッドセットはもういらない、iPhoneでスキャンするだけ

>>:  スタンフォード大学のコンピュータサイエンス博士による新しい研究: 新しいアテンションは 2 ~ 4 倍高速化、BERT シングルノードトレーニングは最速

推薦する

...

AIはあなたより年上かもしれない

[[349378]]現在、ほとんどの調査会社は、人工知能が近い将来ますます重要な役割を果たすと予測し...

...

第12回中国国際交通博覧会は、都市がインテリジェント交通の新時代を切り開くことを支援するBaiduのスマート交通管理ソリューションを正式に発表した。

5月12日、第12回中国道路交通安全製品博覧会及び公安交通警察装備展示会(以下:交通博覧会)が重慶...

詳細 | 自然言語処理におけるディープラーニング研究の概要: 基本概念から最先端の成果まで

[[181446]] 1. 自然言語処理入門自然言語処理 (NLP) とは、言語を処理または「理解」...

...

GPT-4Vを試した後、マイクロソフトは166ページに及ぶ評価レポートを作成した。業界関係者:上級ユーザー必読

1週間前、ChatGPTはメジャーアップデートを受けました。GPT-4とGPT-3.5の両モデルは、...

...

テンセントと清華大学が新インフラ分野の最新成果を発表:データセンターのバッテリー設備向けAI診断サービス

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

...

AI産業化が深海域に入る中、コンピューティングパワーのボトルネックをどうやって打破するのか?

AI技術の応用は、一部の業界からあらゆる分野へ、一部のシーンからあらゆるシーンへ、ローカルな探索か...

データサイエンティストが最もよく使用するアルゴリズム10選

最新の KDnuggets 調査では、データ サイエンティストの実際の業務で最もよく使用されるアルゴ...

前例のない変化:パンデミックはテクノロジーと未来を急速に形作っている

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...