ニューラルネットワークが大きいほど良いのはなぜですか? NeurIPSの論文が証明:堅牢性は一般化の基礎である

ニューラルネットワークが大きいほど良いのはなぜですか? NeurIPSの論文が証明:堅牢性は一般化の基礎である

ニューラルネットワークの研究方向が徐々に超大規模な事前トレーニング済みモデルへと移行するにつれて、研究者の目標は、ネットワークにより多くのパラメータ、より多くのトレーニングデータ、より多様なトレーニングタスクを与えるようになったようです。

もちろん、この対策は確かに効果的です。ニューラル ネットワークがどんどん大きくなるにつれて、モデルはより多くのデータを理解し、習得し、特定のタスクでは人間を超えています。

しかし、数学的には、現代のニューラル ネットワークのサイズは実際には少し肥大化しすぎており、パラメーターの数は予測タスクの要件をはるかに超えることが多く、これは過剰パラメーター化とも呼ばれます。

この現象についての新たな説明が最近、NeurIPS に掲載された論文で提案されました。彼らは、予想よりも大きなこのニューラル ネットワークは、特定の基本的な問題を回避するために必要であると信じており、この論文の調査結果は、この問題に対するより一般的な洞察も提供します。

論文アドレス: https://arxiv.org/abs/2105.12806

この記事の筆頭著者である Sébastien Bubeck 氏は、MSR Redmond の Machine Learning Foundation Research Group を管理しており、機械学習と理論コンピュータサイエンスの交差点でさまざまなトピックの研究を行っています。

ニューラルネットワークはこれくらいの大きさであるべきだ

ニューラル ネットワークの一般的なタスクは、画像内のオブジェクトを認識することです。

このタスクを実行できるネットワークを作成するために、研究者はまず、多数の画像とそれに対応するオブジェクト ラベルを入力し、それらの相関関係を学習するようにトレーニングしました。その後、ネットワークは見た画像内のオブジェクトを正しく識別します。

つまり、トレーニング プロセスにより、ニューラル ネットワークはこのデータを記憶することになります。

そして、ネットワークが十分なトレーニングデータを記憶すると、これまで見たことのない物体のラベルをさまざまな精度で予測することも可能になります。このプロセスは一般化と呼ばれます。

ネットワークのサイズによって、記憶できる量が決まります。

グラフィカルな空間を使って理解することができます。 2 つのデータ ポイントがあり、それらを XY 平面上に配置した場合、これらのポイントを、線の傾きと垂直軸と交差する高さという 2 つのパラメーターで記述される線で接続できます。他の誰かが線のパラメータと、元のデータ ポイントの 1 つの X 座標も知っていれば、線を見て (またはパラメータを使用して) 対応する Y 座標を計算できます。

つまり、ラインはこれら 2 つのデータ ポイントを記憶しており、ニューラル ネットワークも同様のことを行います。

たとえば、画像は各ピクセルに 1 つずつ、数百または数千の数値で記述されます。この多数の自由値の集合は、数学的には高次元空間内の点の座標と同等です。座標の数は次元とも呼ばれます。

従来の数学的結論によれば、曲線を n 個のデータ ポイントに当てはめるには、n 個のパラメータを持つ関数が必要です。たとえば、線の例では、2 つの点は 2 つのパラメータを持つ曲線によって表されます。

ニューラル ネットワークが 1980 年代に新しいモデルとして初めて登場したとき、研究者は、データの次元に関係なく、n 個のデータ ポイントを適合させるには n 個のパラメーターのみが必要であると信じていました。

テキサス大学オースティン校のアレックス・ディマキス氏は、もはやそうではないと述べている。ニューラルネットワークのパラメータの数はトレーニングサンプルの数をはるかに上回っており、教科書の内容を書き直し、改訂する必要があることを意味している。

研究者たちは、ニューラル ネットワークの堅牢性、つまり小さな変化を処理する能力を研究しています。たとえば、堅牢でないネットワークはキリンを認識するように学習したかもしれませんが、ほとんど変更されていないバージョンをスナネズミとして誤って分類する可能性があります。

2019年、ブーベック氏とその同僚はこの問題に関する定理を証明しようとしていたところ、問題がネットワークのサイズに関連していることに気づきました。

研究者らは新たな証明の中で、ネットワークの堅牢性には過剰パラメータ化が必要であることを示している。彼らは、堅牢性に相当する数学的特性を持つ曲線にデータ ポイントを適合させるために必要なパラメーターの数を示すために、滑らかさを提案しました。

これを理解するには、x 座標がピクセルの色を表し、y 座標が画像ラベルを表す平面上の曲線をもう一度想像してください。

曲線は滑らかなので、ピクセルの色をわずかに変更し、曲線に沿って少し移動しても、対応する予測値はわずかにしか変化しません。一方、ギザギザの曲線では、X 座標 (色) の小さな変化が Y 座標 (画像ラベル) の大きな変化につながり、キリンがスナネズミに変わってしまう可能性があります。

Bubeck と Sellke は論文の中で、高次元データ ポイントのスムーズなフィッティングには n 個のパラメータだけでなく、n×d 個のパラメータが必要であることを示しています。ここで、d は入力の次元です (たとえば、784 ピクセルの画像の場合は 784)。

言い換えれば、ネットワークにトレーニング データを確実に記憶させたい場合、過剰パラメータ化は役立つだけでなく、必要不可欠です。この証明は、高次元幾何学に関する事実に基づいています。球面上にランダムに分布する点は、ほぼ常に互いに直径 1 つ分離れており、点間の間隔が非常に大きいため、滑らかな曲線で点をフィッティングするには、多くの追加パラメータが必要になります。

イェール大学のアミン・カルバシ氏は、この論文の証明が非常に簡潔で、数式をあまり使わず、非常に一般的なことを述べていると称賛した。

この結果は、ニューラル ネットワークをスケールアップするための単純な戦略がなぜそれほど効果的なのかを理解するための新たな方法も提供します。

他の研究では、過剰パラメータ化が役立つ他の理由が明らかになっています。たとえば、トレーニング プロセスをより効率的にし、ネットワークの一般化能力を向上させることもできます。

堅牢性には過剰パラメータ化が必要であることはわかっていますが、堅牢性が他の事柄にどの程度必要であるかは明らかではありません。しかし、これを過剰パラメータ化と関連付けることで、新たな証拠は、堅牢性が人々が考えていたよりも重要である可能性があることを示唆しており、大規模モデルの利点を説明する他の研究への道を開く可能性もある。

堅牢性は、一般化の前提条件です。システムを構築し、ほんの少しの混乱でシステムがおかしくなったら、それは一体どのようなシステムなのでしょうか。明らかにそれは無理だ。

したがって、Bubeck 氏は、これは非常に基本的かつ根本的な要件であると考えています。

<<:  「Singularity」AIコンピューティングプラットフォームの詳細を公開!それは4年前のマイクロソフトの古いプロジェクトの復活であることが判明した

>>:  人工知能分野における神話を再考する

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人間は強力な人工知能の開発を心配する必要はない

[51CTO.com クイック翻訳] 現在、人工知能技術が「悪のロボット」に発展し、世界を支配するの...

NVIDIA が 2023 年のトップ 10 研究プロジェクトを公式に発表しました。 「Neuro Angelo」はAIを使って3D仮想世界を作り出し、数秒で本物そっくりのダビデ像に変身する

2023年は人工知能が爆発的に成長する年となるでしょう。赤は人工知能、青は機械学習を表すマイクロソフ...

...

...

知っておくべき 10 個の機械学習 API

[[257117]] [51CTO.com クイック翻訳] 今日では、携帯電話の写真ストリーム認識...

Google DeepMindがAGIをランク付け、ChatGPTのランクはどこになるか推測してください

AGI(汎用人工知能)をどのように定義すればよいでしょうか? 100 人の AI 専門家に答えを尋ね...

必要なパラメータはわずか1%で、その効果はControlNetを上回る。新しいAI塗装制御マスターが登場

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

自然言語処理の究極の方向性: 自然言語処理におけるディープラーニングの 5 つの利点

[[206924]]自然言語処理の分野では、ディープラーニングによって、より多くのデータが必要でも言...

...

...

産業用ロボットは国内でどのように普及できるのか?標準を第一にすることが鍵

近年、自動化の需要が継続的に高まり、人口ボーナス要因の影響も継続して受け、わが国の産業用ロボットは急...

2020 年に慈善活動を変える主要なテクノロジー トレンドのリスト

チャリティーは常に実行速度が遅いことで知られています。慈善団体が社会、経済、環境の変化に対応するには...

初心者向けの機械学習アルゴリズムトップ10

機械学習モデルは全部でいくつありますか?分かりません。誰も数えたことがありません。すべての変種を含め...

...