Google、大規模モデルの「理解」という現象を発見！長い間練習してきたのに、突然、暗記ができなくなってしまいました。痛い気づきです！

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

わずか数十個のニューロンでも、AI は一般化能力を発揮できます。

これは、数人のGoogle 科学者が真剣な研究中に「偶然」発見した新しい結果です。

彼らはいくつかの非常に単純な AI モデルを X 線撮影し、そのトレーニングプロセスを視覚化して、いくつかの興味深い現象を発見しました。

トレーニング時間が長くなるにつれて、一部の AI は「暗記」の状態から脱却し、「理解」（グロッキング）を進化させ、これまで見たことのないデータを一般化する能力を示します。

これが AI の一般化能力の鍵です。

これを踏まえて、数人の科学者がブログでその背後にある原理を探り、大きなモデルが突然強い理解力を持つようになった本当の理由を解明するために研究を続けると述べた。

見てみましょう。

すべてのAIが「理解」を学べるわけではない

科学者たちはまず、AI の「グロッキング」のプロセスと機会を調査し、次の 2 つの現象を発見しました。

1.トレーニング中に損失は突然減少しますが、「理解」は突然起こるわけではなく、スムーズな変化のプロセスです。
2.すべての AI が「理解」することを学習できるわけではありません。

まずは最初の結論を見てみましょう。彼らは単層 MLPを設計し、 「奇数を数える」タスクを完了するようにトレーニングしました。

「奇数を数える」タスクは、30 ビットの「0」と「1」のシーケンスの最初の 3 ビットに奇数の「1」があるかどうかを識別することを指します。たとえば、00011001011000101010111001001011 では、最初の 3 ビットに奇数の 1 が含まれません。また、01011001011000101010111001001011 では、最初の 3 ビットに奇数の 1 が含まれます。

トレーニングの初期段階では、AI はこのタスクを完了するために最初の 3 つの数字を見るだけでよいことを認識していないため、モデル内のニューロンの重み(下の図のヒートマップ)は混沌としています。

しかし、一定期間のトレーニングの後、AIは突然「理解」し、シーケンスの最初の3つの数字だけを見ることを学習しました。具体的には、モデルでは、入力によって変化する重みはごくわずかです。

このトレーニングプロセスの目標は、損失の最小化(モデル出力の精度の向上)と呼ばれ、使用される手法は、重み減衰(モデルの過剰適合の防止)と呼ばれます。

トレーニング中、一部の重みはタスクの「干渉桁」（30 桁のシーケンスの最後の 27 桁）に関連し、下の図では灰色で視覚化されます。一部の重みはタスクの「最初の 3 桁」に関連し、下の図では緑色で視覚化されます。

最後のグレーウェイトが 0 に近づくと、モデルは「理解」を示し、このプロセスが突然発生するのではないことは明らかです。

2番目の結論を見てみましょう。すべての AI モデルが「理解」することを学習できるわけではありません。

科学者たちは、モデル間で異なるハイパーパラメータを持つ1,125 個のモデルをトレーニングし、ハイパーパラメータのセットごとに 9 個のモデルをトレーニングしました。

最終的に4種類のモデルをまとめたところ、2種類のモデルのみが「理解」を示しました。

下の図のように、「白」と「灰色」は「理解」を学習できないAIモデル、「黄色」と「青」は「理解」ができるAIモデルを表しています。

まとめると、重みの減衰、モデルのサイズ、データ量、ハイパーパラメータの設定が適切でなくなると、AI の「理解」が失われる可能性があります。

体重減少を例に挙げてみましょう。重みの減衰が小さすぎると、モデルは過剰適合し、重みの減衰が大きすぎると、モデルは何も学習しません。

まあ、パラメータ調整は技術的な仕事ですが…

現象を理解した後、その背後にある理由を見つける必要があります。

次に、科学者たちは、モデルが「理解」と最終的には一般化能力を開発するメカニズムを調査するために、2つの小さなAIモデルを設計しました。

大規模モデルが一般化を学ぶ方法

科学者たちは、それぞれ24個のニューロンを持つ単層MLPと5個のニューロンを持つ単層MLPを設計し、モジュール加算タスクを実行するように学習するように訓練しました。

モジュラー加算は (a + b) mod n を指します。整数 a と b を入力し、その合計から係数 n を減算して n 未満の整数を取得し、出力が 0 から (n-1) の間になるようにします。

明らかに、このタスクの出力は周期的であり、答えは 0 から 66 の間である必要があります。

まず、5 つのニューロンのみを持つ単層 MLP にちょっとした「ヒント」を与えましょう。重みを設定するときに周期性(sin 関数、cos 関数)を追加します。

人間の助けにより、モデルはトレーニング中にうまく適合し、モジュラー加算を素早く学習しました。

次に、特別な重みを設定せずに、24 個のニューロンを持つ単層 MLP を「ゼロから」トレーニングしてみます。

トレーニングの初期段階では、この MLP モデルの重み(下のヒートマップ)が無秩序に変化していることがわかります。

ただし、特定のトレーニング段階に達すると、モデルの重みの変化は非常に規則的になり、入力が変化すると周期的な変化も示されます。

個々のニューロンの重みを見ると、トレーニングのステップ数が増えるにつれて変化がより顕著になります。

これは、AI が暗記能力から一般化能力へと変換することを可能にする重要な現象でもあります。ニューロンの重みは入力に応じて定期的に変化します。これは、モデルが特定の数学的構造(sin 関数、cos 関数) を自ら見つけて学習したことを意味します。

ここでの周波数（freq）は固定値ではなく、いくつかあります。

複数の周波数が使用される理由は、24 個のニューロンを持つ単層 MLP が、過剰適合を回避するために建設的干渉を使用することも学習しているためです。

異なる周波数の組み合わせにより、AI に「理解」させる効果が得られます。

離散フーリエ変換(DFT)を使用して周波数を分離すると、「奇数を数える」のと同様の現象が見られますが、ここではいくつかの重みだけが重要になります。

まとめると、前述の「奇数を数える」タスクと同様に、「モジュラー加算」実験では、より多くのパラメータを持つ AI がこのタスクでも「理解」を学習できることが示され、このプロセスでも重み減衰が使用されています。

科学者たちは、5個のニューロンから24個のニューロンまで、より大きな AI が「理解」することを学習できるメカニズムの解明に成功しました。

次に、彼らはこのアイデアをより大きなモデルに適用し、最終的に、なぜ大きなモデルが強力な理解能力を持つのかという理由をまとめる予定です。

それだけでなく、この成果はニューラルネットワークの学習アルゴリズムを自動的に発見するのにも役立ち、最終的には AI が独自の AI を設計できるようになります。

チームについて

このブログの著者は、Google の People + AI Research (PAIR)チームのメンバーです。

これは、基礎研究、ツールの構築、フレームワークの作成を通じて、AI の公平性、信頼性、その他の側面を研究することに専念する Google の学際的なチームです。

一言でまとめると、「AI は人々にもっと利益をもたらす」ということです。

ブログアドレス: https://pair.withgoogle.com/explorables/grokking/

<<: 最適化問題におけるステップサイズが大きいほど、収束速度が速くなり、数十年にわたる勾配降下法アルゴリズムの従来の考え方を覆すものとなった。

>>: 物理学者が67年前に予測した「悪魔」がネイチャー誌に登場:「偽の」高温超伝導体で偶然発見

ブログ

IoT が成功するために AI が必要な理由

ブログ

世界人工知能会議の最高栄誉である2020年SAIL賞のトップ30プロジェクトが発表されました

ブログ

Google、大規模モデルの「理解」という現象を発見！長い間練習してきたのに、突然、暗記ができなくなってしまいました。痛い気づきです！

すべてのAIが「理解」を学べるわけではない

大規模モデルが一般化を学ぶ方法

チームについて

医療画像技術の応用におけるAIの4つのコアバリュー

機械学習エンジニアとデータサイエンティストの違い

国内No.1の大型モデルオープンソースが帰ってきた、最強のバイリンガルLLM「ファミリーバケツ」レベルのオープンソース！ 340億のパラメータがLlama2-70Bを上回る

人工知能を製造業に統合するのはどれくらい難しいのでしょうか?私の国のAI人材不足は30万人に達する

人工知能がホテル業界にもたらす変化

CMU 中国チームは、スタンフォード大学のエビ揚げロボットに勝る高エネルギーロボットを開発するために 18 万ドルを費やしました。完全自律操作、1時間で12種類のドアを開ける方法を学習

IoT が成功するために AI が必要な理由

世界人工知能会議の最高栄誉である2020年SAIL賞のトップ30プロジェクトが発表されました

推薦する

プロジェクト管理における人工知能の役割

3つの大きなトレンドが浮上、我が国のドローン産業の発展の概要

韓国のUNISTが協力し、今後5～15分間の交通状況を予測するAIシステムを開発

機械学習において統計がなぜそれほど重要なのか？

2018年: 人工知能の世界における8つのトレンド

データ構造とアルゴリズムの比較バックスペースを含む文字列!

ドローン技術の飛躍的進歩とアプリケーションの革新が2017年に新たな時代を告げるかもしれない

会社はあなたの顔を20万ドルで買いたいそうです！性別や年齢制限なし、ロボットは2023年に実用化される予定

面接の質問に必ず読むべき一冊！ Python のトップ 5 ソートアルゴリズムとその実装コード

ビッグデータに圧倒された米国の諜報機関は人工知能に期待をかけている

人工知能が高等教育を支援する：変化と持続

13 のインテリジェントなインタラクティブ AI チャットボットプラットフォーム