ジェフ・ディーンらの新しい研究:言語モデルを別の視点から見る:規模が十分でなければ発見されない

ジェフ・ディーンらの新しい研究:言語モデルを別の視点から見る:規模が十分でなければ発見されない

近年、言語モデルは自然言語処理 (NLP) に革命的な影響を与えています。パラメータなどの言語モデルを拡張すると、さまざまな下流の NLP タスクでパフォーマンスとサンプル効率が向上する可能性があることはよく知られています。多くの場合、スケーリングがパフォーマンスに与える影響はスケーリングの法則によって予測できることが多く、大多数の研究者は予測可能な現象を研究してきました。

それに対して、「大規模言語モデルの創発能力」という論文では、ジェフ・ディーン氏やパーシー・リャン氏を含む16人の研究者が、大規模モデルの予測不可能な現象について議論し、それを大規模言語モデルの創発能力と呼んだ。いわゆる創発とは、いくつかの現象が小さなモデルには存在しないが、大きなモデルには存在することを意味します。彼らは、このモデルの能力は創発的であると考えています。

アイデアとしての創発は、物理学、生物学、コンピューター サイエンスなどの分野で長い間議論されてきました。この論文は、スタインハートの研究を引用し、ノーベル賞を受賞した物理学者フィリップ アンダーソンの 1972 年の論文「More Is Different」に根ざした創発の一般的な定義から始まります。

この論文では、トレーニングの計算とモデル パラメータの観点から測定されたモデル サイズの出現について説明します。具体的には、大規模言語モデルの出現能力を、小規模モデルには存在しないが大規模モデルには存在する能力として定義します。したがって、小規模モデルのパフォーマンス向上を単純に推測するだけでは、大規模モデルを予測することはできません。この研究では、さまざまな先行研究で観察されたモデルの創発能力を調査し、それらを少数ショットの手がかりや拡張された手がかりなどの設定に分類します。

このモデルの新たな能力は、これらの能力がなぜ獲得されるのか、そしてより大きなサイズがより多くの新たな能力を獲得するかどうかについての将来の研究を促し、この研究の重要性を強調します。

論文アドレス: https://arxiv.org/pdf/2206.07682.pdf

小規模サンプルプロンプトタスク

この論文ではまず、キューイングパラダイムにおける創発的な力について議論します。たとえば、GPT-3 プロンプトでは、事前トレーニング済みの言語モデル タスク プロンプトが与えられると、モデルは追加のトレーニングやパラメーターの勾配更新を行わずに応答を完了できます。さらに、Brown らは、モデルのコンテキスト (入力) でいくつかの入出力例をプロンプト (前置き) として提示し、モデルに未知の推論タスクを実行するように求める、少数ショットのプロンプトを提案しました。図 1 にプロンプ​​トの例を示します。

モデルがランダムなパフォーマンスを持ち、一定のスケールに達すると、小さなサンプルプロンプトでタスクを実行できるようになり、新たな機能が現れ、モデルのパフォーマンスはランダムなパフォーマンスよりもはるかに高くなります。下の図は、5 つの言語モデル ファミリ (LaMDA、GPT-3、Gopher、Chinchilla、PaLM) の 8 つの出現機能を示しています。

BIG-Bench: 図 2A ~ D は、200 を超える言語モデル評価ベンチマークのスイートである BIG-Bench からの 4 つの出現する少数ショットプロンプトタスクを示しています。図 2A は、3 桁の数字の加算と減算、および 2 桁の数字の乗算をテストする算術ベンチマークを示しています。表 1 は、BIG-Bench のさらに新しい機能を示しています。

強化されたプロンプト戦略

少数ショットのヒントは現在、大規模な言語モデルと対話する最も一般的な方法ですが、最近の研究では、言語モデルの機能をさらに強化するための他のヒントや微調整戦略がいくつか提案されています。十分に大きなモデルに適用する前に改善が見られなかったり、有害であったりする技術は、新たな機能であるとみなされます。

多段階推論: 推論タスク、特に多段階推論を伴うタスクは、言語モデルと NLP モデルにとって常に大きな課題でした。思考連鎖プロンプトと呼ばれる最近の戦略により、言語モデルは、最終的な答えを出す前に一連の中間ステップを生成するように誘導することで、このような問題を解決できるようになります。図 3A に示すように、1023 トレーニング FLOP (約 100B パラメータ) にスケールすると、思考連鎖プロンプトは中間ステップのない標準プロンプトよりも優れたパフォーマンスを発揮します。

命令の追跡: 図 3B に示すように、Wei らは、トレーニング FLOP が 7 · 10^21 (80 億のパラメータ) 以下の場合、命令の微調整手法によってモデルのパフォーマンスが低下し、トレーニング FLOP が 10^23 (約 1000 億のパラメータ) に拡張された場合にのみパフォーマンスが向上することを発見しました。

プログラム実行: 図 3C に示すように、8 ビット加算のドメイン内評価では、スクラッチパッドの使用は、約 9·10^19 FLOP (40M パラメータ) 以上のモデルのトレーニングにのみ役立ちます。図 3D は、これらのモデルがドメイン外 9 ビット加算にも一般化できることを示しています。これは、約 1.3·10^20 のトレーニング FLOP (100M パラメータ) で発生します。

この論文では、これまで特定の計算規模でのみ意味のあるパフォーマンスが観察されてきた言語モデルの出現力について説明します。このモデルの新たな機能は、さまざまな言語モデル、タスク タイプ、実験シナリオにまたがることができます。この出現の存在は、追加のスケーリングによって言語モデルの機能がさらに拡張できることを意味します。この能力は最近発見された言語モデルの拡張の結果であり、それがどのように出現するか、そしてさらなる拡張がより多くの能力の出現につながるかどうかは、NLP 分野における将来の重要な研究方向となる可能性があります。

詳細については、原文論文を参照してください。​

<<:  Meta Digital Human 2nd Generation が登場! VRヘッドセットはもういらない、iPhoneでスキャンするだけ

>>:  スタンフォード大学のコンピュータサイエンス博士による新しい研究: 新しいアテンションは 2 ~ 4 倍高速化、BERT シングルノードトレーニングは最速

ブログ    
ブログ    

推薦する

フェイスブック従業員の半数が10年以内にリモート勤務、転勤、給与削減へ、ザッカーバーグは二級都市、三級都市で大量採用

[[327238]] Twitter社が永久に在宅勤務を行うと発表した後、ザッカーバーグ氏は今後5年...

Qualcomm CVPR 研究: ビデオ処理の計算を 78% 削減、畳み込み層に「ピクセルの選択」を教える

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

SLAM の新時代を切り開きましょう! NeRFと3D GS法のレビュー

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

AIが教育技術分野にもたらす変化 パーソナライズされた学習が従来の教育方法を超える

最近のコロナ時代では、教育は大きなビジネスへと変貌しました。初等、中等、高等教育機関における学習は目...

...

AI、機械学習、ディープラーニングの解放

【51CTO.com クイック翻訳】 [[393512]] AI、機械学習、ディープラーニングの発展...

...

Salesforceは、20のコードタスクSOTAをリフレッシュするために、新しい基本的なLLMシリーズのエンコーダー/デコーダーコードT5 +を提案しています。

大規模言語モデル (LLM) は最近、コード レベルでのさまざまなダウンストリーム タスクで優れたパ...

...

SAIC Maxus、クローズドループエコシステム構築に向けた「RVスマートモビリティビジョン」を発表

2017年6月30日、第一回世界知能大会で上汽大通の「RVスマートモビリティビジョン」が盛大に発表さ...

機械学習ツールボックスには6つの重要なアルゴリズムが隠されています

1. 線形回帰フランスの数学者アドリアン・マリー・ルジャンドルは、彗星の将来の位置を予測することに常...

あなたは人工知能(AI)を本当に理解していますか?将来、人工知能によって多くの人が失業することになるのでしょうか?

[[286906]]人工知能 (AI) は、通常は人間の思考を必要とするタスクを実行できるインテリ...

ナノロボットは将来さまざまな場面で使用される可能性がある

最近、米国ペンシルベニア州立大学の科学者たちが新しいタイプのナノロボットを開発しました。このロボット...

確かな情報です! AIテクノロジーアーキテクチャソリューションの実現可能性を判断するのに役立つ3つの重要な要素

近年、人工知能は急速に発展しており、コンピュータービジョンや自然言語処理の分野で画期的な変化をもたら...

面接官はガベージコレクションアルゴリズムについて質問するのが大好きです

[[438235]]この記事はWeChatの公開アカウント「Programmer Bus」から転載し...