普遍近似定理を理解しなければ、ニューラルネットワークを理解することはできない

普遍近似定理を理解しなければ、ニューラルネットワークを理解することはできない

ニューラルネットワークの威力を示す証拠

文字通り、普遍近似定理はニューラル ネットワークがどのように機能するかについての理論的基礎です。 簡単に言えば、十分な数の有限のニューロンを含む 1 つの隠れ層を持つニューラル ネットワークは、活性化関数に関する特定の条件 (つまり、活性化関数がシグモイド型でなければならない) の下で、任意の連続関数を妥当な精度で近似できることを示しています。

[[335995]]

1989 年に George Cybenko によってシグモイド曲線の活性化にのみ機能するように定式化され、1991 年に Kurt Hornik によってすべての活性化関数に機能することが証明されました (パフォーマンスの原動力となるのは関数の選択ではなく、ニューラル ネットワークのアーキテクチャです)。この発見は、ニューラル ネットワークが今日使用されている多数のアプリケーションへと刺激的に発展する上で重要な原動力となりました。

しかし、最も重要なのは、この定理が、ニューラル ネットワークがなぜそれほどインテリジェントに動作するように見えるのかを驚くべきほど説明している点です。 これを理解することは、ニューラル ネットワークを深く理解するための重要なステップです。

より深い探求

コンパクトな(有界で閉じた)集合上の任意の連続関数は、区分関数によって近似できます。 たとえば、-3 から 3 までの正弦波は、3 つの関数 (2 つの 2 次関数と 1 つの線形関数) で確実に近似できます。

> Desmos でグラフ化しました。

Cybenko は、この区分関数が定数になる可能性があり、基本的に関数に適合する複数のステップで構成されるため、この区分関数に特化しています。 十分な定数領域(「ステップ サイズ」)があれば、特定の範囲にわたって関数の適切な推定値を得ることができます。


> Desmos でグラフ化しました。

この近似に基づいて、各ニューロンを「ステップ」に委任することでネットワークを構築できます。 重みとバイアスを「ゲート」として使用して、どの入力が下がるか、したがってどのニューロンがアクティブになるかを決定することで、十分な数のニューロンを持つニューラル ネットワークは、関数をいくつかの定数領域に分割するだけで関数を推定できます。

ニューロンの委任領域に入る入力の場合、大きな値に重みを割り当てることで、最終値は 1 に近くなります (シグモイド関数を使用して評価した場合)。 そのセクションに該当しない場合は、重みを負の無限大に向かって移動すると、最終結果は 0 に近くなります。ニューロンが存在する範囲を決定するための一種の「プロセッサ」としてシグモイド関数を使用すると、ニューロンが豊富にある場合、ほぼすべての関数を完璧に近似することが可能です。 多次元空間では、サイベンコはこの考え方を一般化し、各ニューロンが多次元関数内の空間ハイパーキューブを「制御」しました。

普遍近似定理の鍵となるのは、入力と出力の間に複雑な数学的関係を作成する代わりに、単純な線形演算を使用して複雑な関数を多くの小さな複雑度の低い部分に分割し、各部分をニューロンが取得できることです。

> 画像は著者によって作成されました。

Cybenko の最初の証明以来、ReLU、無制限 (片側)、またはさまざまなアーキテクチャ (再帰、畳み込みなど) などのさまざまな活性化関数に対する普遍近似定理のテストなど、他の多くの改善が行われてきました。

いずれにせよ、これらすべての探求は、ニューラル ネットワークは数の力で強くなるという 1 つの考えを中心に展開されています。 各ニューロンは特徴空間のパターンまたは領域を監視します。そのサイズはネットワーク内のニューロンの数によって異なります。 ニューロンの数が少ないほど、各ニューロンが監視する必要があるスペースが大きくなるため、近似能力は低下します。 ただし、ニューロンの数が増えると、活性化関数に関係なく、任意の関数を多数の小さな断片と組み合わせることができます。

一般化と外挿

普遍近似定理は単純であるにもかかわらず、(少なくとも概念的には)少し単純すぎると指摘する人もいるかもしれません。 強力なニューラル ネットワークは、実際には、数字を分離したり、音楽を生成したり、全体的にインテリジェントに動作したりできる洗練された近似器になることができます。

ニューラル ネットワークの目的は、データ ポイントのサンプリングに基づいて複雑な数学関数を一般化またはモデル化することです。 これらは近似値としては優れていますが、トレーニングされた範囲外の入力値を要求するとすぐに、悲惨な結果になります。 これは有限テイラー級数近似に似ており、特定の範囲内では正弦波を説得力を持ってモデル化しますが、その範囲外ではカオスを生成します。


> Desmos でグラフ化しました。

特定のトレーニング範囲外で推定したり、妥当な予測を行ったりする機能は、ニューラル ネットワークが設計されているものではありません。 普遍近似定理から、ニューラル ネットワークは実際にはまったくインテリジェントではなく、多次元の偽装に隠れた優れた推定器に過ぎず、そのため (2 次元または 3 次元では普通に見える) ニューラル ネットワークの機能が印象的であることがわかります。

ニューラル ネットワークがトレーニングされた範囲外で失敗しても問題はありません。それがニューラル ネットワークの目標ではないからです。

定理の実際的な意味

与えられた問題に適したニューラル ネットワーク アーキテクチャを構築し、そのようなネットワークが存在することを認識しながら多次元空間を適切に近似し、計算コストの現実性とバランスをとることは、機械学習エンジニアの直感と経験にかかっています。 はい。 この定理により、機械学習エンジニアは必ず解決策が存在することを知ることができます。

<<:  スーパー暗号解読:自動運転はこうして実現される

>>:  AIの失敗例と今後の課題と機会

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

無料の Python 機械学習コース 7: アルゴリズムのパフォーマンスが低い場合の対処方法

私たちは機械学習アルゴリズムの開発に多くの時間を費やしました。しかし、導入後にアルゴリズムのパフォー...

2030 年までに AI と私たちの世界はどうなるでしょうか?

2030年までに、私たちの世界は変わるでしょう。人工知能 (AI) は、スマート シティ、モノのイ...

爆発的なソラの背後にある技術、拡散モデルの最新の開発をレビューする記事

機械が人間の想像力を持てるようにするために、深層生成モデルは大きな進歩を遂げました。これらのモデルは...

自動運転車は本当に人間が運転する車よりも安全でしょうか?

自動運転車は、人工知能技術の最もエキサイティングで影響力のある応用例の 1 つです。米国だけでも、毎...

「Split Everything」のビデオ版はこちらです。数回クリックするだけで、動いている人物や物体が丸で囲まれます。

写真ビデオセグメンテーションは多くのシナリオで広く使用されています。映画の視覚効果を高めたり、自動運...

データを盗むために設計された8つの偽ChatGPTマルウェアアプリ

翻訳者 |陳俊レビュー | Chonglou現在、人々は、回答の検索、グラフィック コンテンツの生成...

AI 開発者: AI 分野を選択するには?

機械学習アルゴリズムは、より広範で信頼性の高いデータをリアルタイムで提供することができ、インテリジェ...

ジャック・マーとイーロン・マスクは「愛し合い、憎み合っている」:人間とテクノロジーの競争の勝者は誰か?

8月29日、国家発展改革委員会、科学技術部、工業情報化部、中国サイバースペース管理局、中国科学院、...

...

AI プロジェクトを成功させる 8 つの秘訣

あらゆる分野のビジネスリーダーは人工知能の価値を認識していますが、それを適切に使用することによっての...

HDビデオは本物ではなく、数枚の写真でレンダリングされた3Dシーンでは本物かどうか判断が難しい。

今日の紹介を始める前に、次のシナリオを見てみましょう。 上記のアニメーションは、複数の写真からレンダ...

量子コンピューティングがサプライチェーン管理を改善する方法

サプライチェーン業務における量子コンピューティングのユースケースでは、意思決定モデル内の複雑で不可能...

フィンテックとAI: 金融におけるAIの活用方法

フィンテックの人工知能と機械学習技術は、大規模なデータセットをリアルタイムで分析し、改善を図るのに役...

ソニーはプレイヤーの感情を感知できるコンパニオンロボットを開発中

過去数年間、多くのゲーム機はアクセサリを導入することでゲーム体験を向上させることに重点を置いてきまし...

...