Google DeepMind が証明: GPT-4 の最終結果は人類の知恵の集大成です! Transformerモデルはトレーニングデータを超えて一般化できない

Transformer モデルが事前トレーニングデータの範囲を超えて新しい認知と能力を一般化できるかどうかは、学界では長年議論の的となっている問題です。

最近、Google DeepMind の 3 人の研究者は、事前トレーニングデータの範囲を超えてモデルを一般化して新しい問題を解決することを要求することはほぼ不可能であると信じていました。

LLM の終わりは人類の知恵の総和でしょうか?

論文アドレス: https://arxiv.org/abs/2311.00871

論文を転送した後、Jim Fan 氏は、これはモデルのパフォーマンスに対するトレーニングデータの重要性を明確に示しているため、LLM にとってデータ品質が非常に重要であるとコメントしました。

研究者らは論文の中で、事前トレーニングプロセスの特定の側面、つまり事前トレーニングで使用されるデータに焦点を当て、それが最終的な Transformer モデルの少数ショット学習機能にどのように影響するかを調査しています。

研究者は、入力とラベルのセットを使用して、新しい入力のラベルを予測します。このような予測を行うモデルをトレーニングするには、形式の多くのシーケンスにモデルを適合させる必要があります。

研究者らは、コンテキスト内での学習を可能にするために、さまざまな機能カテゴリを組み合わせて Transformer モデルを事前トレーニングし、モデル選択動作 (モデル選択現象) を実証しました。

彼らはまた、事前トレーニングデータ内の関数のクラスから「分布外」の関数に対する事前トレーニング済み Transformer モデルの学習動作も研究しました。

このようにして、研究者は事前トレーニングデータの構成と、Transformer モデルがわずかな労力で関連タスクを学習する能力との間の相互作用と影響を研究し、次のことを発見しました。

1. 研究されたメカニズムの中には、モデルがコンテキスト学習中に事前トレーニングされた関数のクラスの中からモデル選択をほとんど追加の統計コストなしで実行できるという明確な証拠があります。

事前トレーニングデータ内のさまざまなスパースレベルの線形関数が十分にカバーされている場合、Transformer はほぼ最適な予測を行うことができます。

2. しかし、モデルの文脈学習動作が事前トレーニングデータの範囲を超えて拡張できるという証拠はほとんどありません。

結合された関数が主に 1 つの関数クラスからのものである場合、予測は妥当です。両方のクラスが同時に大きく貢献すると、予測は失敗します。

事前トレーニングデータでは非常にまれな高周波および低周波の正弦関数の場合、モデルの一般化は失敗します。

研究プロセスの詳細

まず、誤解を避けるために、この実験で使用したモデルを述べておきます。これは GPT-2 に似ており、12 層で構成され、256 次元の埋め込み空間を持っています。

前述したように、この記事ではさまざまな機能を組み合わせて研究を行う方法を採用しています。

「事前トレーニング済みの混合をサポートするコンテキスト例が提供された場合、モデルはどのようにして異なるクラスの関数を選択するのでしょうか？」という疑問を抱かずにはいられません。

これまでの研究では、線形関数で事前トレーニングされたトランスフォーマーは、新しい線形関数を文脈的に学習するときにほぼ最適に機能することが示されています。

研究者らは、研究のために 2 つの線形モデルを使用しました。1 つは密な線形関数 (線形モデルのすべての係数がゼロ以外) でトレーニングしたもので、もう 1 つは疎な線形関数 (20 個の係数のうち 2 個だけがゼロ以外であると想定) でトレーニングしたものです。

各モデルは、それぞれ新しい密な線形関数とスパースな線形関数に対して対応する線形回帰と LASSO 回帰を実行します。さらに、両方のモデルは、スパース線形関数と密な線形関数の混合で事前トレーニングされたモデルと比較されます。

上の図は、2 つの関数を D(F) = 0.5*D(F1) + 0.5*D(F2) の比率で混合すると、コンテキスト学習における新しい関数のパフォーマンスが、1 つの関数クラスのみで事前トレーニングされたモデルのパフォーマンスと同様になることを示しています。

新しい混合関数で事前トレーニングされたモデルは、以前の研究で示されたモデル（理論的に最適）と類似しているため、このモデルもほぼ最適であると推測できます。

上図の ICL 学習曲線は、このコンテキストモデルの選択能力が、提供されるコンテキスト例の数と比較的一貫していることを示しています。

また、特定の関数クラスの場合、事前トレーニングデータ混合に重みを使用する ICL の学習曲線は、その関数クラスのみでモデルを事前トレーニングする場合と比較して、最良のベースラインサンプル複雑さとほぼ一致することがわかります。

上の図は、Transformer モデルにおける ICL の一般化が不均一に分布していることも示しています。密な線形クラスと疎な線形クラスはどちらも線形関数ですが、上の図 (a) の赤い曲線のパフォーマンスは低く、それに応じて図 (b) の青い曲線のパフォーマンスも低いことがわかります。

これは、モデルがモデル選択を実行して、事前トレーニング済みの組み合わせの 1 つの基底関数クラスのみからの知識を使用して予測を行うか、他のクラスからの知識を使用して予測を行うかを選択できることを示唆しています。

実際、コンテキストで提供される例が非常にスパースな関数または非常に密な関数からのものである場合、予測は、それぞれスパースなデータのみまたは密なデータのみで事前トレーニングされたモデルによって行われた予測とほぼ同じになります。

モデルの限界

前の実験では、事前トレーニングデータを混合するケースを示しました。次に、すべての事前トレーニングデータから明示的に逸脱するいくつかの関数を調べてみましょう。

ここで著者らは、これまでに見たことのない関数と、関数の極端なバージョン（事前トレーニングで通常見られるものよりもはるかに高いまたは低い周波数の正弦波）でのパフォーマンスという 2 つの軸に沿って、ICL に一般化するモデルの能力を研究しています。

どちらの場合も、研究者は分布外一般化の証拠をほとんど発見しなかった。

上の図は、中程度のスパース性レベル (nnz = 3〜7) での Transformer の予測が、事前トレーニング中に提供されたどの関数クラスの予測とも類似しておらず、その中間にあることを示しています。

したがって、モデルには、事前にトレーニングされた関数のクラスを組み合わせるための何らかの帰納的バイアスがあると想定できます。

しかし、事前トレーニング中に確認した関数の組み合わせからモデルが予測を生成できるかどうか疑問に思う人もいるかもしれません。

したがって、私たちはこの仮説を、明らかに互いに素な関数のクラスのコンテキストでテストし、線形関数、正弦関数、および両方の凸関数の組み合わせに対して ICL を実行する能力を調査します。

上の図は、線形関数と正弦波の混合 (つまり、D(F) = 0.5*D(F1)+0.5*D(F2)) で事前トレーニングされたモデルは、これら 2 つの関数のいずれかを個別に適切に予測できるものの、2 つの関数の凸結合である関数を適合できないことを示しています。

ただし、コンテキスト内の例が事前トレーニングで学習した関数クラスに近い場合、モデルは予測に最適な関数クラスを選択できると想定できます。

図 5 では、研究者は凸結合における線形関数と正弦波の相対的な重みをスキャンしました。ここで研究者らは、合成された関数が主にどちらか一方の関数クラスからのものである場合、つまり事前トレーニング中に学習された関数クラスによって十分に近似されている場合、文脈予測は妥当であることを観察しました。

ただし、両方の関数が凸結合に大きく寄与する場合、モデルはコンテキスト例によって十分に正当化されない不安定な予測を行います。これは、モデルのモデル選択能力が事前トレーニングデータへの近さによって制限されることを示唆しており、一般化されたコンテキスト学習機能には特徴空間の広範なカバレッジが重要であることを示唆しています。

前述の凸結合は、モデルが事前トレーニング中に同様の関数を見たことがないような特別に構築されています。

ネットユーザーの間で熱い議論

記事の結論に直面して、ジム・ファンはやや皮肉なコメントを述べた。

「この論文は、犬と猫のデータセットだけで ViT をトレーニングしてみるのと同じことです。1000 億枚の犬/猫の画像と 1T のパラメータを使用します。それでは、飛行機を認識できるかどうか試してみましょう。なんと、認識できません!」

しかし、好奇心旺盛なネットユーザーがChatGPTにこれについて質問したところ、トレーニングデータを超えた新しいコンテンツを出力できると回答しました。

ネットユーザーは、トランスフォーマーのこの制限に対して、いまだに寛容だ。結局、人間にもできないことだ。

AIGC の人気により、モデルの能力に関する研究が盛んに行われています。私たちが完全に理解できていないにもかかわらず、社会や生活に広く利用されている「人工知能」にとって、その限界がどこにあるのかを知ることも重要です。

<<:

>>: 11人が2ヶ月間集中的にトレーニングし、マスク氏がOpenAIを徹底的に攻撃！ xAIの最初の大規模モデルGrokが爆発的に成長、330億のパラメータと月額16ドル

ブログ

1024解像度で最速モデル、ByteDanceのオープンモデルSDXL-Lightningがリリース

ブログ

C# の敏感な単語フィルタリングアルゴリズムの実装

ブログ

Google DeepMind が証明: GPT-4 の最終結果は人類の知恵の集大成です! Transformerモデルはトレーニングデータを超えて一般化できない

研究プロセスの詳細

モデルの限界

ネットユーザーの間で熱い議論

データと人工知能の整合性をどのように確保するか?

AIとスマート信号機が通勤を変えるかもしれない

ソフトウェア開発を簡素化する 5 つの機械学習ツール

繊毛もチップにできる！コーネル大学の中国人博士課程学生の初の論文がネイチャーの表紙に掲載

1024解像度で最速モデル、ByteDanceのオープンモデルSDXL-Lightningがリリース

C# の敏感な単語フィルタリングアルゴリズムの実装

推薦する

誰もがエンドツーエンドに取り組んでいますが、エンドツーエンドの自動運転の基礎は何でしょうか?

Google が TensorFlow-GNN 1.0 のリリースを正式に発表しました。大規模なグラフニューラルネットワークを構築するための動的かつインタラクティブなサンプリング

ディープラーニングモデルのサイズとモデル推論速度に関するいくつかの議論

iPhoneのトランスフォーマーを公開: GPT-2アーキテクチャをベースにした単語セグメンターには、MITの卒業生が制作した絵文字が含まれています。

将来のディープラーニングの鍵はフォトニックコンピューティング

インテリジェンスの時代: 新たな進歩、新たな傾向、新たな取り組み。第 2 回世界インテリジェンス会議が来月開催されます。

IBMの人工知能システム「プロジェクト・ディベーター」が両討論会で勝利

Google、AIの地位強化のためデータサイエンスコミュニティKaggleの買収を発表

ヘルスケアにおけるAI導入が難しい理由

インテリジェント時代の到来により、インテリジェントロボットが私たちの仕事と収入を奪ってしまうのでしょうか?

人工知能の3つの段階：統計学習から文脈適応へ移行中

TCPとUDPの違いと、フロー制御、輻輳制御、高速再送、高速回復アルゴリズムの詳細な説明

3省庁：AI分野の大学院生の育成を加速し、世界の科学技術の最先端を掌握