ジェフ・ディーンらの新しい研究：言語モデルを別の視点から見る：規模が十分でなければ発見されない

近年、言語モデルは自然言語処理 (NLP) に革命的な影響を与えています。パラメータなどの言語モデルを拡張すると、さまざまな下流の NLP タスクでパフォーマンスとサンプル効率が向上する可能性があることはよく知られています。多くの場合、スケーリングがパフォーマンスに与える影響はスケーリングの法則によって予測できることが多く、大多数の研究者は予測可能な現象を研究してきました。

それに対して、「大規模言語モデルの創発能力」という論文では、ジェフ・ディーン氏やパーシー・リャン氏を含む16人の研究者が、大規模モデルの予測不可能な現象について議論し、それを大規模言語モデルの創発能力と呼んだ。いわゆる創発とは、いくつかの現象が小さなモデルには存在しないが、大きなモデルには存在することを意味します。彼らは、このモデルの能力は創発的であると考えています。

アイデアとしての創発は、物理学、生物学、コンピューターサイエンスなどの分野で長い間議論されてきました。この論文は、スタインハートの研究を引用し、ノーベル賞を受賞した物理学者フィリップアンダーソンの 1972 年の論文「More Is Different」に根ざした創発の一般的な定義から始まります。

この論文では、トレーニングの計算とモデルパラメータの観点から測定されたモデルサイズの出現について説明します。具体的には、大規模言語モデルの出現能力を、小規模モデルには存在しないが大規模モデルには存在する能力として定義します。したがって、小規模モデルのパフォーマンス向上を単純に推測するだけでは、大規模モデルを予測することはできません。この研究では、さまざまな先行研究で観察されたモデルの創発能力を調査し、それらを少数ショットの手がかりや拡張された手がかりなどの設定に分類します。

このモデルの新たな能力は、これらの能力がなぜ獲得されるのか、そしてより大きなサイズがより多くの新たな能力を獲得するかどうかについての将来の研究を促し、この研究の重要性を強調します。

論文アドレス: https://arxiv.org/pdf/2206.07682.pdf

小規模サンプルプロンプトタスク

この論文ではまず、キューイングパラダイムにおける創発的な力について議論します。たとえば、GPT-3 プロンプトでは、事前トレーニング済みの言語モデルタスクプロンプトが与えられると、モデルは追加のトレーニングやパラメーターの勾配更新を行わずに応答を完了できます。さらに、Brown らは、モデルのコンテキスト (入力) でいくつかの入出力例をプロンプト (前置き) として提示し、モデルに未知の推論タスクを実行するように求める、少数ショットのプロンプトを提案しました。図 1 にプロンプトの例を示します。

モデルがランダムなパフォーマンスを持ち、一定のスケールに達すると、小さなサンプルプロンプトでタスクを実行できるようになり、新たな機能が現れ、モデルのパフォーマンスはランダムなパフォーマンスよりもはるかに高くなります。下の図は、5 つの言語モデルファミリ (LaMDA、GPT-3、Gopher、Chinchilla、PaLM) の 8 つの出現機能を示しています。

BIG-Bench: 図 2A ～ D は、200 を超える言語モデル評価ベンチマークのスイートである BIG-Bench からの 4 つの出現する少数ショットプロンプトタスクを示しています。図 2A は、3 桁の数字の加算と減算、および 2 桁の数字の乗算をテストする算術ベンチマークを示しています。表 1 は、BIG-Bench のさらに新しい機能を示しています。

強化されたプロンプト戦略

少数ショットのヒントは現在、大規模な言語モデルと対話する最も一般的な方法ですが、最近の研究では、言語モデルの機能をさらに強化するための他のヒントや微調整戦略がいくつか提案されています。十分に大きなモデルに適用する前に改善が見られなかったり、有害であったりする技術は、新たな機能であるとみなされます。

多段階推論: 推論タスク、特に多段階推論を伴うタスクは、言語モデルと NLP モデルにとって常に大きな課題でした。思考連鎖プロンプトと呼ばれる最近の戦略により、言語モデルは、最終的な答えを出す前に一連の中間ステップを生成するように誘導することで、このような問題を解決できるようになります。図 3A に示すように、1023 トレーニング FLOP (約 100B パラメータ) にスケールすると、思考連鎖プロンプトは中間ステップのない標準プロンプトよりも優れたパフォーマンスを発揮します。

命令の追跡: 図 3B に示すように、Wei らは、トレーニング FLOP が 7 · 10^21 (80 億のパラメータ) 以下の場合、命令の微調整手法によってモデルのパフォーマンスが低下し、トレーニング FLOP が 10^23 (約 1000 億のパラメータ) に拡張された場合にのみパフォーマンスが向上することを発見しました。

プログラム実行: 図 3C に示すように、8 ビット加算のドメイン内評価では、スクラッチパッドの使用は、約 9·10^19 FLOP (40M パラメータ) 以上のモデルのトレーニングにのみ役立ちます。図 3D は、これらのモデルがドメイン外 9 ビット加算にも一般化できることを示しています。これは、約 1.3·10^20 のトレーニング FLOP (100M パラメータ) で発生します。

この論文では、これまで特定の計算規模でのみ意味のあるパフォーマンスが観察されてきた言語モデルの出現力について説明します。このモデルの新たな機能は、さまざまな言語モデル、タスクタイプ、実験シナリオにまたがることができます。この出現の存在は、追加のスケーリングによって言語モデルの機能がさらに拡張できることを意味します。この能力は最近発見された言語モデルの拡張の結果であり、それがどのように出現するか、そしてさらなる拡張がより多くの能力の出現につながるかどうかは、NLP 分野における将来の重要な研究方向となる可能性があります。

詳細については、原文論文を参照してください。

<<: Meta Digital Human 2nd Generation が登場! VRヘッドセットはもういらない、iPhoneでスキャンするだけ

>>: スタンフォード大学のコンピュータサイエンス博士による新しい研究: 新しいアテンションは 2 ～ 4 倍高速化、BERT シングルノードトレーニングは最速