Google DeepMind が証明: GPT-4 の最終結果は人類の知恵の集大成です! Transformerモデルはトレーニングデータを超えて一般化できない

Google DeepMind が証明: GPT-4 の最終結果は人類の知恵の集大成です! Transformerモデルはトレーニングデータを超えて一般化できない

Transformer モデルが事前トレーニング データの範囲を超えて新しい認知と能力を一般化できるかどうかは、学界では長年議論の的となっている問題です。

最近、Google DeepMind の 3 人の研究者は、事前トレーニング データの範囲を超えてモデルを一般化して新しい問題を解決することを要求することはほぼ不可能であると信じていました。

LLM の終わりは人類の知恵の総和でしょうか?

論文アドレス: https://arxiv.org/abs/2311.00871

論文を転送した後、Jim Fan 氏は、これはモデルのパフォーマンスに対するトレーニング データの重要性を明確に示しているため、LLM にとってデータ品質が非常に重要であるとコメントしました。

研究者らは論文の中で、事前トレーニング プロセスの特定の側面、つまり事前トレーニングで使用されるデータに焦点を当て、それが最終的な Transformer モデルの少数ショット学習機能にどのように影響するかを調査しています。

研究者は、入力とラベルのセットを使用して、新しい入力のラベルを予測しますこのような予測を行うモデルをトレーニングするには、形式の多くのシーケンスにモデルを適合させる必要があります。

研究者らは、コンテキスト内での学習を可能にするために、さまざまな機能カテゴリを組み合わせて Transformer モデルを事前トレーニングし、モデル選択動作 (モデル選択現象) を実証しました。

彼らはまた、事前トレーニング データ内の関数のクラスから「分布外」の関数に対する事前トレーニング済み Transformer モデルの学習動作も研究しました。

このようにして、研究者は事前トレーニング データの構成と、Transformer モデルがわずかな労力で関連タスクを学習する能力との間の相互作用と影響を研究し、次のことを発見しました。

1. 研究されたメカニズムの中には、モデルがコンテキスト学習中に事前トレーニングされた関数のクラスの中からモデル選択をほとんど追加の統計コストなしで実行できるという明確な証拠があります。

事前トレーニング データ内のさまざまなスパース レベルの線形関数が十分にカバーされている場合、Transformer はほぼ最適な予測を行うことができます。

2. しかし、モデルの文脈学習動作が事前トレーニングデータの範囲を超えて拡張できるという証拠はほとんどありません。

結合された関数が主に 1 つの関数クラスからのものである場合、予測は妥当です。両方のクラスが同時に大きく貢献すると、予測は失敗します。

事前トレーニング データでは非常にまれな高周波および低周波の正弦関数の場合、モデルの一般化は失敗します。

研究プロセスの詳細

まず、誤解を避けるために、この実験で使用したモデルを述べておきます。これは GPT-2 に似ており、12 層で構成され、256 次元の埋め込み空間を持っています。

前述したように、この記事ではさまざまな機能を組み合わせて研究を行う方法を採用しています。

「事前トレーニング済みの混合をサポートするコンテキスト例が提供された場合、モデルはどのようにして異なるクラスの関数を選択するのでしょうか?」という疑問を抱かずにはいられません。

これまでの研究では、線形関数で事前トレーニングされたトランスフォーマーは、新しい線形関数を文脈的に学習するときにほぼ最適に機能することが示されています。

研究者らは、研究のために 2 つの線形モデルを使用しました。1 つは密な線形関数 (線形モデルのすべての係数がゼロ以外) でトレーニングしたもので、もう 1 つは疎な線形関数 (20 個の係数のうち 2 個だけがゼロ以外であると想定) でトレーニングしたものです。

各モデルは、それぞれ新しい密な線形関数とスパースな線形関数に対して対応する線形回帰と LASSO 回帰を実行します。さらに、両方のモデルは、スパース線形関数と密な線形関数の混合で事前トレーニングされたモデルと比較されます。

上の図は、2 つの関数を D(F) = 0.5*D(F1) + 0.5*D(F2) の比率で混合すると、コンテキスト学習における新しい関数のパフォーマンスが、1 つの関数クラスのみで事前トレーニングされたモデルのパフォーマンスと同様になることを示しています。

新しい混合関数で事前トレーニングされたモデルは、以前の研究で示されたモデル(理論的に最適)と類似しているため、このモデルもほぼ最適であると推測できます。

上図の ICL 学習曲線は、このコンテキスト モデルの選択能力が、提供されるコンテキスト例の数と比較的一貫していることを示しています。

また、特定の関数クラスの場合、事前トレーニング データ混合に重みを使用する ICL の学習曲線は、その関数クラスのみでモデルを事前トレーニングする場合と比較して、最良のベースライン サンプル複雑さとほぼ一致することがわかります。

上の図は、Transformer モデルにおける ICL の一般化が不均一に分布していることも示しています。密な線形クラスと疎な線形クラスはどちらも線形関数ですが、上の図 (a) の赤い曲線のパフォーマンスは低く、それに応じて図 (b) の青い曲線のパフォーマンスも低いことがわかります。

これは、モデルがモデル選択を実行して、事前トレーニング済みの組み合わせの 1 つの基底関数クラスのみからの知識を使用して予測を行うか、他のクラスからの知識を使用して予測を行うかを選択できることを示唆しています。

実際、コンテキストで提供される例が非常にスパースな関数または非常に密な関数からのものである場合、予測は、それぞれスパースなデータのみまたは密なデータのみで事前トレーニングされたモデルによって行われた予測とほぼ同じになります。

モデルの限界

前の実験では、事前トレーニング データを混合するケースを示しました。次に、すべての事前トレーニング データから明示的に逸脱するいくつかの関数を調べてみましょう。

ここで著者らは、これまでに見たことのない関数と、関数の極端なバージョン(事前トレーニングで通常見られるものよりもはるかに高いまたは低い周波数の正弦波)でのパフォーマンスという 2 つの軸に沿って、ICL に一般化するモデルの能力を研究しています。

どちらの場合も、研究者は分布外一般化の証拠をほとんど発見しなかった。

上の図は、中程度のスパース性レベル (nnz = 3〜7) での Transformer の予測が、事前トレーニング中に提供されたどの関数クラスの予測とも類似しておらず、その中間にあることを示しています。

したがって、モデルには、事前にトレーニングされた関数のクラスを組み合わせるための何らかの帰納的バイアスがあると想定できます。

しかし、事前トレーニング中に確認した関数の組み合わせからモデルが予測を生成できるかどうか疑問に思う人もいるかもしれません。

したがって、私たちはこの仮説を、明らかに互いに素な関数のクラスのコンテキストでテストし、線形関数、正弦関数、および両方の凸関数の組み合わせに対して ICL を実行する能力を調査します。

上の図は、線形関数と正弦波の混合 (つまり、D(F) = 0.5*D(F1)+0.5*D(F2)) で事前トレーニングされたモデルは、これら 2 つの関数のいずれかを個別に適切に予測できるものの、2 つの関数の凸結合である関数を適合できないことを示しています。

ただし、コンテキスト内の例が事前トレーニングで学習した関数クラスに近い場合、モデルは予測に最適な関数クラスを選択できると想定できます。

図 5 では、研究者は凸結合における線形関数と正弦波の相対的な重みをスキャンしました。ここで研究者らは、合成された関数が主にどちらか一方の関数クラスからのものである場合、つまり事前トレーニング中に学習された関数クラスによって十分に近似されている場合、文脈予測は妥当であることを観察しました。

ただし、両方の関数が凸結合に大きく寄与する場合、モデルはコンテキスト例によって十分に正当化されない不安定な予測を行います。これは、モデルのモデル選択能力が事前トレーニング データへの近さによって制限されることを示唆しており、一般化されたコンテキスト学習機能には特徴空間の広範なカバレッジが重要であることを示唆しています。

前述の凸結合は、モデルが事前トレーニング中に同様の関数を見たことがないような特別に構築されています。

ネットユーザーの間で熱い議論

記事の結論に直面して、ジム・ファンはやや皮肉なコメントを述べた。

「この論文は、犬と猫のデータセットだけで ViT をトレーニングしてみるのと同じことです。1000 億枚の犬/猫の画像と 1T のパラメータを使用します。それでは、飛行機を認識できるかどうか試してみましょう。なんと、認識できません!」

しかし、好奇心旺盛なネットユーザーがChatGPTにこれについて質問したところ、トレーニングデータを超えた新しいコンテンツを出力できると回答しました。

ネットユーザーは、トランスフォーマーのこの制限に対して、いまだに寛容だ。結局、人間にもできないことだ。

AIGC の人気により、モデルの能力に関する研究が盛んに行われています。私たちが完全に理解できていないにもかかわらず、社会や生活に広く利用されている「人工知能」にとって、その限界がどこにあるのかを知ることも重要です。

<<: 

>>:  11人が2ヶ月間集中的にトレーニングし、マスク氏がOpenAIを徹底的に攻撃! xAIの最初の大規模モデルGrokが爆発的に成長、330億のパラメータと月額16ドル

ブログ    
ブログ    

推薦する

年間5億ドルの損失で、OpenAIは2024年に破産するのでしょうか?アルタマン、GPU不足を明らかに、優秀な人材が退社

ChatGPT は、開始から 9 か月ですでに 2 億ドル近くを費やしています。海外メディアAnal...

クルーズ:自動運転タクシーは4~5マイルごとに人間の支援が必要

11月7日、ゼネラルモーターズの自動運転会社クルーズは、自動運転タクシーは4~5マイルごとに人間の支...

4つのニューラルネットワークシーケンスデコードモデルとサンプルコードの説明

[[189448]]以下は、ニューラル ネットワーク モデルにおける 4 つのシーケンス デコード ...

最初の機械学習APIをデプロイする

[[432622]] 【51CTO.com クイック翻訳】はじめにこのプロジェクトでは、簡単なコード...

Playgroundで数値アルゴリズムを学ぶ

中学校では、数学の描画ほど恐ろしいものはありませんでした。多くの問題にはすぐに利用できる解析的解法が...

インドのチームが人間のように考えることができる自動運転アルゴリズムを開発

[51CTO.com クイック翻訳]インド工科大学 (IIT マドラス) の研究者らは、人間のように...

疫病と戦うための新しい技術!北京で3Dプリント/コピー防護マスクの開発に成功

流行は激しく、科学技術界は全力で流行と戦っています。北京化工大学の楊衛民教授は2月25日、21世紀ビ...

ChatGPT が「Paper Artifact」プラグインをリリースしました。キーワードなしで2億件の記事を検索、リンクは完全に本物です

ChatGPT には、「Consensus」と呼ばれる新しい「論文検索アーティファクト」プラグインが...

人工知能のいくつかの重要な技術をご存知ですか?

今日は人工的にしか開発できない重要な技術をいくつか紹介します。音声認識からスマートホーム、人間と機械...

...

ロードバランサーのアルゴリズムと原理を探る

負荷分散アルゴリズムの種類を分析した後、動的負荷分散について紹介します。この概念は主にロードバランサ...

オープンソースの人工知能ソフトウェア 15 種類、あなたのお気に入りはどれですか?

人工知能は現在最も注目されている科学研究分野の一つです。 IBM、Google、Microsoft、...

AIカーゴのロープロファイルバージョン?ネットユーザーがCNN1台を使って「ニード・フォー・スピード9」でレース

最近、Redditユーザーが、2005年にリリースされたクラシックゲーム「ニード・フォー・スピード9...

人工知能が試験重視教育の華容道を阻む

01 はじめに人工知能のビッグデータトレーニングと試験重視の教育における質疑応答トレーニングは、トレ...

...