普遍近似定理を理解しなければ、ニューラルネットワークを理解することはできない

普遍近似定理を理解しなければ、ニューラルネットワークを理解することはできない

ニューラルネットワークの威力を示す証拠

文字通り、普遍近似定理はニューラル ネットワークがどのように機能するかについての理論的基礎です。 簡単に言えば、十分な数の有限のニューロンを含む 1 つの隠れ層を持つニューラル ネットワークは、活性化関数に関する特定の条件 (つまり、活性化関数がシグモイド型でなければならない) の下で、任意の連続関数を妥当な精度で近似できることを示しています。

[[335995]]

1989 年に George Cybenko によってシグモイド曲線の活性化にのみ機能するように定式化され、1991 年に Kurt Hornik によってすべての活性化関数に機能することが証明されました (パフォーマンスの原動力となるのは関数の選択ではなく、ニューラル ネットワークのアーキテクチャです)。この発見は、ニューラル ネットワークが今日使用されている多数のアプリケーションへと刺激的に発展する上で重要な原動力となりました。

しかし、最も重要なのは、この定理が、ニューラル ネットワークがなぜそれほどインテリジェントに動作するように見えるのかを驚くべきほど説明している点です。 これを理解することは、ニューラル ネットワークを深く理解するための重要なステップです。

より深い探求

コンパクトな(有界で閉じた)集合上の任意の連続関数は、区分関数によって近似できます。 たとえば、-3 から 3 までの正弦波は、3 つの関数 (2 つの 2 次関数と 1 つの線形関数) で確実に近似できます。

> Desmos でグラフ化しました。

Cybenko は、この区分関数が定数になる可能性があり、基本的に関数に適合する複数のステップで構成されるため、この区分関数に特化しています。 十分な定数領域(「ステップ サイズ」)があれば、特定の範囲にわたって関数の適切な推定値を得ることができます。


> Desmos でグラフ化しました。

この近似に基づいて、各ニューロンを「ステップ」に委任することでネットワークを構築できます。 重みとバイアスを「ゲート」として使用して、どの入力が下がるか、したがってどのニューロンがアクティブになるかを決定することで、十分な数のニューロンを持つニューラル ネットワークは、関数をいくつかの定数領域に分割するだけで関数を推定できます。

ニューロンの委任領域に入る入力の場合、大きな値に重みを割り当てることで、最終値は 1 に近くなります (シグモイド関数を使用して評価した場合)。 そのセクションに該当しない場合は、重みを負の無限大に向かって移動すると、最終結果は 0 に近くなります。ニューロンが存在する範囲を決定するための一種の「プロセッサ」としてシグモイド関数を使用すると、ニューロンが豊富にある場合、ほぼすべての関数を完璧に近似することが可能です。 多次元空間では、サイベンコはこの考え方を一般化し、各ニューロンが多次元関数内の空間ハイパーキューブを「制御」しました。

普遍近似定理の鍵となるのは、入力と出力の間に複雑な数学的関係を作成する代わりに、単純な線形演算を使用して複雑な関数を多くの小さな複雑度の低い部分に分割し、各部分をニューロンが取得できることです。

> 画像は著者によって作成されました。

Cybenko の最初の証明以来、ReLU、無制限 (片側)、またはさまざまなアーキテクチャ (再帰、畳み込みなど) などのさまざまな活性化関数に対する普遍近似定理のテストなど、他の多くの改善が行われてきました。

いずれにせよ、これらすべての探求は、ニューラル ネットワークは数の力で強くなるという 1 つの考えを中心に展開されています。 各ニューロンは特徴空間のパターンまたは領域を監視します。そのサイズはネットワーク内のニューロンの数によって異なります。 ニューロンの数が少ないほど、各ニューロンが監視する必要があるスペースが大きくなるため、近似能力は低下します。 ただし、ニューロンの数が増えると、活性化関数に関係なく、任意の関数を多数の小さな断片と組み合わせることができます。

一般化と外挿

普遍近似定理は単純であるにもかかわらず、(少なくとも概念的には)少し単純すぎると指摘する人もいるかもしれません。 強力なニューラル ネットワークは、実際には、数字を分離したり、音楽を生成したり、全体的にインテリジェントに動作したりできる洗練された近似器になることができます。

ニューラル ネットワークの目的は、データ ポイントのサンプリングに基づいて複雑な数学関数を一般化またはモデル化することです。 これらは近似値としては優れていますが、トレーニングされた範囲外の入力値を要求するとすぐに、悲惨な結果になります。 これは有限テイラー級数近似に似ており、特定の範囲内では正弦波を説得力を持ってモデル化しますが、その範囲外ではカオスを生成します。


> Desmos でグラフ化しました。

特定のトレーニング範囲外で推定したり、妥当な予測を行ったりする機能は、ニューラル ネットワークが設計されているものではありません。 普遍近似定理から、ニューラル ネットワークは実際にはまったくインテリジェントではなく、多次元の偽装に隠れた優れた推定器に過ぎず、そのため (2 次元または 3 次元では普通に見える) ニューラル ネットワークの機能が印象的であることがわかります。

ニューラル ネットワークがトレーニングされた範囲外で失敗しても問題はありません。それがニューラル ネットワークの目標ではないからです。

定理の実際的な意味

与えられた問題に適したニューラル ネットワーク アーキテクチャを構築し、そのようなネットワークが存在することを認識しながら多次元空間を適切に近似し、計算コストの現実性とバランスをとることは、機械学習エンジニアの直感と経験にかかっています。 はい。 この定理により、機械学習エンジニアは必ず解決策が存在することを知ることができます。

<<:  スーパー暗号解読:自動運転はこうして実現される

>>:  AIの失敗例と今後の課題と機会

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

HumanGaussian オープンソース: ガウススプラッティングに基づく高品質な 3D 人体生成のための新しいフレームワーク

3D 生成の分野では、テキスト プロンプトに基づいて高品質の 3D 人間の外観と形状を作成することは...

人工知能は商業ディスプレイの将来の発展の傾向を混乱させる可能性がある

[[412444]]商業用ディスプレイは日常生活でますます広く使用されるようになり、買い物、仕事、旅...

90年代以降は人工知能で年間数百万ドルを稼ぐ、Google、Microsoft、BATの給与リストが明らかに

年末には給与に関する議論が再び盛り上がる。昨日、馬化騰氏は抽選で従業員に30万元相当のテンセント株1...

2021年の10のAIトレンド

[[361168]] IDCは2019年9月の時点で、2023年までに人工知能技術への支出が3倍以上...

Google Cloud が AI を活用したパーソナライズされたおすすめ商品をオンライン小売業者向けに提供開始

海外メディアの報道によると、1月22日、Google Cloudは、世界中の小売業者が電子商取引機能...

脳の治癒、人間と機械の共生、マスク氏は「脳コンピューターインターフェース」を擁護

[[316164]]天才イーロン・マスクについて語るとき、多くの人はまずテスラを思い浮かべるでしょう...

韓国が世界初の常温超伝導体を開発? 127度での超伝導、再現できればノーベル賞確実

常温・常圧超伝導が再び突破された?今回は韓国の科学者たちです。彼らは、世界初の常温常圧超伝導体、すな...

2021 年の人工知能のトップ 10 トレンド

コロナウイルスのパンデミック以前、AI業界は2020年に大きな成長を遂げると予想されていました。 2...

...

ロシアメディア:人工知能は顔認識技術を使って宗教的傾向を判断できる

ロシア新聞は1月19日、「もう隠せないのか?」と題する記事を掲載し、米スタンフォード大学の学者マイケ...

...

機械学習: 具体的なカテゴリーは何ですか?プロジェクトのプロセスはどのようなものですか?

機械学習と人工知能は近年最もホットなキーワードの 1 つであるはずです。今日は機械学習の基礎知識をい...

仕事の脅威? AIはマーケティング担当者の仕事を奪うのでしょうか?

先週、コピーライターのパネルがAIによってコピーライターの必要性がなくなるかどうかを議論した。一部の...

火星探査車「パーセベランス」の火星着陸における人工知能の応用

2月18日に火星への着陸に成功したNASAの火星探査車パーサヴィアランスは、火星での2年間の探査ミッ...

Nature: 室温超伝導体はなぜ持続できないのか?

世界中で白熱した議論を巻き起こしたLK-99論争が終結した後、ネイチャー誌の見出しに再び「室温超伝導...