ニューラルネットワークが大きいほど良いのはなぜですか? NeurIPSの論文が証明:堅牢性は一般化の基礎である

ニューラルネットワークが大きいほど良いのはなぜですか? NeurIPSの論文が証明:堅牢性は一般化の基礎である

ニューラルネットワークの研究方向が徐々に超大規模な事前トレーニング済みモデルへと移行するにつれて、研究者の目標は、ネットワークにより多くのパラメータ、より多くのトレーニングデータ、より多様なトレーニングタスクを与えるようになったようです。

もちろん、この対策は確かに効果的です。ニューラル ネットワークがどんどん大きくなるにつれて、モデルはより多くのデータを理解し、習得し、特定のタスクでは人間を超えています。

しかし、数学的には、現代のニューラル ネットワークのサイズは実際には少し肥大化しすぎており、パラメーターの数は予測タスクの要件をはるかに超えることが多く、これは過剰パラメーター化とも呼ばれます。

この現象についての新たな説明が最近、NeurIPS に掲載された論文で提案されました。彼らは、予想よりも大きなこのニューラル ネットワークは、特定の基本的な問題を回避するために必要であると信じており、この論文の調査結果は、この問題に対するより一般的な洞察も提供します。

論文アドレス: https://arxiv.org/abs/2105.12806

この記事の筆頭著者である Sébastien Bubeck 氏は、MSR Redmond の Machine Learning Foundation Research Group を管理しており、機械学習と理論コンピュータサイエンスの交差点でさまざまなトピックの研究を行っています。

ニューラルネットワークはこれくらいの大きさであるべきだ

ニューラル ネットワークの一般的なタスクは、画像内のオブジェクトを認識することです。

このタスクを実行できるネットワークを作成するために、研究者はまず、多数の画像とそれに対応するオブジェクト ラベルを入力し、それらの相関関係を学習するようにトレーニングしました。その後、ネットワークは見た画像内のオブジェクトを正しく識別します。

つまり、トレーニング プロセスにより、ニューラル ネットワークはこのデータを記憶することになります。

そして、ネットワークが十分なトレーニングデータを記憶すると、これまで見たことのない物体のラベルをさまざまな精度で予測することも可能になります。このプロセスは一般化と呼ばれます。

ネットワークのサイズによって、記憶できる量が決まります。

グラフィカルな空間を使って理解することができます。 2 つのデータ ポイントがあり、それらを XY 平面上に配置した場合、これらのポイントを、線の傾きと垂直軸と交差する高さという 2 つのパラメーターで記述される線で接続できます。他の誰かが線のパラメータと、元のデータ ポイントの 1 つの X 座標も知っていれば、線を見て (またはパラメータを使用して) 対応する Y 座標を計算できます。

つまり、ラインはこれら 2 つのデータ ポイントを記憶しており、ニューラル ネットワークも同様のことを行います。

たとえば、画像は各ピクセルに 1 つずつ、数百または数千の数値で記述されます。この多数の自由値の集合は、数学的には高次元空間内の点の座標と同等です。座標の数は次元とも呼ばれます。

従来の数学的結論によれば、曲線を n 個のデータ ポイントに当てはめるには、n 個のパラメータを持つ関数が必要です。たとえば、線の例では、2 つの点は 2 つのパラメータを持つ曲線によって表されます。

ニューラル ネットワークが 1980 年代に新しいモデルとして初めて登場したとき、研究者は、データの次元に関係なく、n 個のデータ ポイントを適合させるには n 個のパラメーターのみが必要であると信じていました。

テキサス大学オースティン校のアレックス・ディマキス氏は、もはやそうではないと述べている。ニューラルネットワークのパラメータの数はトレーニングサンプルの数をはるかに上回っており、教科書の内容を書き直し、改訂する必要があることを意味している。

研究者たちは、ニューラル ネットワークの堅牢性、つまり小さな変化を処理する能力を研究しています。たとえば、堅牢でないネットワークはキリンを認識するように学習したかもしれませんが、ほとんど変更されていないバージョンをスナネズミとして誤って分類する可能性があります。

2019年、ブーベック氏とその同僚はこの問題に関する定理を証明しようとしていたところ、問題がネットワークのサイズに関連していることに気づきました。

研究者らは新たな証明の中で、ネットワークの堅牢性には過剰パラメータ化が必要であることを示している。彼らは、堅牢性に相当する数学的特性を持つ曲線にデータ ポイントを適合させるために必要なパラメーターの数を示すために、滑らかさを提案しました。

これを理解するには、x 座標がピクセルの色を表し、y 座標が画像ラベルを表す平面上の曲線をもう一度想像してください。

曲線は滑らかなので、ピクセルの色をわずかに変更し、曲線に沿って少し移動しても、対応する予測値はわずかにしか変化しません。一方、ギザギザの曲線では、X 座標 (色) の小さな変化が Y 座標 (画像ラベル) の大きな変化につながり、キリンがスナネズミに変わってしまう可能性があります。

Bubeck と Sellke は論文の中で、高次元データ ポイントのスムーズなフィッティングには n 個のパラメータだけでなく、n×d 個のパラメータが必要であることを示しています。ここで、d は入力の次元です (たとえば、784 ピクセルの画像の場合は 784)。

言い換えれば、ネットワークにトレーニング データを確実に記憶させたい場合、過剰パラメータ化は役立つだけでなく、必要不可欠です。この証明は、高次元幾何学に関する事実に基づいています。球面上にランダムに分布する点は、ほぼ常に互いに直径 1 つ分離れており、点間の間隔が非常に大きいため、滑らかな曲線で点をフィッティングするには、多くの追加パラメータが必要になります。

イェール大学のアミン・カルバシ氏は、この論文の証明が非常に簡潔で、数式をあまり使わず、非常に一般的なことを述べていると称賛した。

この結果は、ニューラル ネットワークをスケールアップするための単純な戦略がなぜそれほど効果的なのかを理解するための新たな方法も提供します。

他の研究では、過剰パラメータ化が役立つ他の理由が明らかになっています。たとえば、トレーニング プロセスをより効率的にし、ネットワークの一般化能力を向上させることもできます。

堅牢性には過剰パラメータ化が必要であることはわかっていますが、堅牢性が他の事柄にどの程度必要であるかは明らかではありません。しかし、これを過剰パラメータ化と関連付けることで、新たな証拠は、堅牢性が人々が考えていたよりも重要である可能性があることを示唆しており、大規模モデルの利点を説明する他の研究への道を開く可能性もある。

堅牢性は、一般化の前提条件です。システムを構築し、ほんの少しの混乱でシステムがおかしくなったら、それは一体どのようなシステムなのでしょうか。明らかにそれは無理だ。

したがって、Bubeck 氏は、これは非常に基本的かつ根本的な要件であると考えています。

<<:  「Singularity」AIコンピューティングプラットフォームの詳細を公開!それは4年前のマイクロソフトの古いプロジェクトの復活であることが判明した

>>:  人工知能分野における神話を再考する

推薦する

マッキンゼー:人工知能の最大の課題と機会

最近、多くの専門家とコミュニケーションをとる中で、人工知能の3つの重要なビジネス面が徐々に明らかにな...

...

科学者たちは古い携帯電話を分解してリサイクルするためのAI搭載ロボットを開発している

2016年、AppleはiPhoneを11秒で分解できるリサイクルロボット「Liam」を開発したと発...

エアコンピューティング、高度に発達した人工知能を備えた未来の世界

インターネット技術の急速な発展に伴い、「クラウド コンピューティング」や「フォグ コンピューティング...

...

ソラの13人のメンバーを解読:北京大学卒業生を含む中国人3人、博士号を取得したばかりの1人、そして21歳の天才

OpenAIはSoraで世界に衝撃を与えた。どのような才能あるチームがこのような傑作を開発できるので...

あらゆるシーンのあらゆるもの: リアルなオブジェクトの挿入 (さまざまな運転データの合成に役立ちます)

あらゆるシーンのあらゆるもの: フォトリアリスティックなビデオオブジェクト挿入論文リンク: http...

日常生活におけるAIの優れた活用例

人工知能は、テクノロジーやビジネスの世界で広く議論されている人気のテクノロジーの 1 つです。 さま...

...

人工知能は 5 つの主要な地球規模の問題に解決策をもたらす | ダボス ブログ

[[183562]]人々は常に人工知能について多くの懸念を抱いています。人工知能は私たちの仕事にとっ...

国家基準の策定が加速しており、科学的な顔認識は100億元のブルーオーシャンをもたらすだろう

4月22日、「情報セキュリティ技術の顔認識データのセキュリティ要件」国家標準の草案が正式に公開され、...

無料の Python 機械学習コース 6: ニューラル ネットワーク アルゴリズム

ニューラルネットワークは人間の脳を模倣するために開発されました。まだ実現されていないものの、ニューラ...

ICCV'23論文表彰式は「神々の戦い」! Meta Split EverythingとControlNetが両方とも選出され、審査員を驚かせた記事がもう一つありました

たった今、コンピュータービジョンの最高峰カンファレンスである ICCV 2023 がフランスのパリで...

Nvidia に挑戦する Groq の起源は何ですか?新しいAIチップLPUの簡単な紹介

今日の人工知能分野では、「GPUがあれば十分」というのが徐々にコンセンサスになってきています。十分な...