普遍近似定理を理解しなければ、ニューラルネットワークを理解することはできないだろう。

普遍近似定理を理解しなければ、ニューラルネットワークを理解することはできないだろう。

[[422682]]

以前、チューリング賞受賞者でありディープラーニングの先駆者であるヤン・ルカン氏のツイートが多くのネットユーザーの間で議論を呼んだ。

ツイートの中で、ルカン氏はこう述べている。「ディープラーニングは、カーブフィッティングによって生成される補間に過ぎないので、皆さんが考えるほど素晴らしいものではありません。しかし、高次元空間では、補間というものは存在しません。高次元空間では、すべてが外挿なのです。」

ルカン氏が転送した内容は、ハーバード大学の認知科学者スティーブン・ピンカー氏のツイートから引用したもの。ピンカー氏は「普遍近似定理は、ニューラルネットワークがなぜ機能し、なぜ機能しないことが多いのかをうまく説明している。アンドレ・イエ氏の普遍近似定理を理解することによってのみ、ニューラルネットワークを理解できる」と述べた。

ピンカーが言及したアンドレ・イェは、次に紹介する論文「普遍近似定理を理解するまでニューラルネットワークを理解することはできない」の著者です。この記事は昨年のものですが、ニューラルネットワークを理解する上で非常に重要な役割を果たします。

人工ニューラル ネットワークの数学的理論では、普遍近似定理 (または普遍近似定理) は、人工ニューラル ネットワークが任意の関数を近似する能力を指摘しています。通常、この定理で参照されるニューラル ネットワークはフィードフォワード ニューラル ネットワークであり、近似される目的関数は通常、入力と出力の両方がユークリッド空間にある連続関数です。ただし、この定理を畳み込みニューラル ネットワーク、ラジアル基底関数ネットワーク、その他の特殊なニューラル ネットワークなど、他の種類のニューラル ネットワークに拡張する研究もあります。

この定理は、ニューラル ネットワークを使用して任意の複雑な関数を近似し、任意の精度の近似を達成できることを意味します。しかし、近似したい目的関数を達成するためにニューラル ネットワーク パラメータ (重み、ニューロン数、ニューラル層数など) を選択する方法については説明されていません。

1989 年、ジョージ・サイベンコは、単一の隠れ層と任意の幅を持ち、活性化関数として S 関数を使用するフィードフォワード ニューラル ネットワークの普遍近似定理を初めて提案し、証明しました。 2 年後の 1991 年、Kurt Hornik は、活性化関数の選択が重要ではなく、フィードフォワード ニューラル ネットワークの多層ニューラル層とマルチニューロン アーキテクチャが、ニューラル ネットワークを汎用近似器にするための鍵であることを発見しました。

最も重要なのは、この定理がニューラル ネットワークがなぜそれほどインテリジェントに動作するように見えるのかを説明していることです。これを理解することは、ニューラル ネットワークを深く理解するための重要なステップです。

より深い探求

コンパクトな(有限で閉じた)集合上の任意の連続関数は、区分関数によって近似できます。 -3 から 3 までの正弦波を例に挙げます。これは、下の図に示すように、2 つの二次関数と 1 つの一次関数の 3 つの関数で近似できます。

ただし、Cybenko はこの区分関数の記述についてより具体的に説明しています。これは、関数が定数になり、基本的にステップを通じて関数を適合できるからです。十分な定数領域 (ステップ) があれば、指定された範囲内で関数を適切に推定できます。

この近似に基づいて、ニューロンをステップとして使用してネットワークを構築できます。重みとバイアスを「ゲート」として使用して、どの入力が下がり、どのニューロンがアクティブになるかを決定すると、十分な数のニューロンを持つニューラル ネットワークは、関数をいくつかの定数領域に分割して推定することができます。

ニューロンの下降部分に該当する入力信号の場合、重みをより大きな値に増幅すると、最終値は 1 に近くなります (シグモイド関数を使用して計算した場合)。そこに属さない場合、重みを負の無限大に向かって動かすと、最終結果はゼロに近くなります。ニューロンが存在する範囲を決定するためのプロセッサとしてシグモイド関数を使用すると、ニューロンの数が多い限り、任意の関数をほぼ完璧に近似できます。多次元空間では、サイベンコはこの考え方を一般化し、各ニューロンが多次元関数内の空間のハイパーキューブを制御します。

普遍近似定理の鍵となるのは、入力と出力の間に複雑な数学的関係を構築する代わりに、単純な線形演算を使用して複雑な関数を多くの小さな、それほど複雑でない部分に分割し、各部分をニューロンで処理することです。

Cybenko の最初の証明以来、さまざまな活性化関数 (ReLU など) やさまざまなアーキテクチャ (再帰型ネットワーク、畳み込みネットワークなど) に対する普遍近似定理のテストなど、多くの新しい改善が行われてきました。

いずれにせよ、これらすべての研究は、ニューラル ネットワークはニューロンの数によって強さを見出すという 1 つの考えを中心に展開しています。各ニューロンは特徴空間のパターンまたは領域を監視します。特徴空間のサイズはネットワーク内のニューロンの数によって決まります。ニューロンの数が少ないほど、各ニューロンが監視する必要があるスペースが大きくなるため、近似能力は低下します。しかし、ニューロンの数が増えると、活性化関数が何であれ、多くの小さな部分をつなぎ合わせることであらゆる関数を構築できるようになります。

一般化と外挿

普遍近似定理は単純ではあるが、(少なくとも概念的には)少し単純化しすぎていると指摘する人もいるかもしれない。ニューラル ネットワークは数字を区別したり、音楽を生成したりすることができ、一般的にはインテリジェントに動作しますが、実際には洗練された近似値にすぎません。

ニューラル ネットワークは、特定のデータ ポイントに対して複雑な数学関数をモデル化するように設計されています。ニューラル ネットワークは優れた近似値ですが、入力がトレーニングされた範囲外にある場合は役に立たなくなります。これは有限テイラー級数近似に似ており、特定の範囲内では正弦波を適合させることができますが、その範囲を超えると適合できなくなります。

外挿、つまりトレーニングされた範囲外で合理的な予測を行う能力は、ニューラル ネットワークが行うように設計されたものではありません。普遍近似定理から、ニューラル ネットワークは実際にはインテリジェントなものではなく、2 次元または 3 次元では普通に見える多次元性を装った推定器であることがわかります。

定理の実際的意義

もちろん、普遍近似定理は、ニューロンを無限に追加し続けることができると仮定していますが、これは実際には実現可能ではありません。さらに、ニューラル ネットワークのほぼ無限のパラメータの組み合わせを使用して、最もパフォーマンスの高い組み合わせを見つけることは非現実的です。ただし、この定理では、隠れ層が 1 つしかないことも想定されており、隠れ層が追加されるにつれて、複雑さと普遍的な近似の可能性は指数関数的に増大します。

代わりに、機械学習エンジニアは、直感と経験を活用して、与えられた問題に適したニューラル ネットワーク アーキテクチャを構築する方法を決定します。これにより、そのようなネットワークが存在することを認識しながらも、計算パフォーマンスのトレードオフも考慮して、多次元空間を適切に近似できるようになります。

<<:  人工知能デジタル技術の強化は現実予測において徐々にその力を発揮しつつある

>>:  ゼロサンプルのパフォーマンスが小サンプルのパフォーマンスを上回り、Google の新しい 1370 億パラメータ モデルは GPT-3 よりも強力

ブログ    
ブログ    
ブログ    

推薦する

AIがデータセンターの設計をどう変えるか

AI システムへの世界的な支出は 2023 年から 2026 年の間に 2 倍になると予想されており...

Go データ構造とアルゴリズムの基本クイックソート

[[411577]]この記事はWeChatの公開アカウント「Light City」から転載したもので...

ロボット介護は人間に比べて高齢者にとって負担が少ない?

最近、浙江省金華市のある家族の監視ビデオがインターネット上で話題になった。動画の全長は3分15秒。こ...

...

あなたを偲んで!孫建博士が早朝に逝去されました。AIは偉大な人物を失い、Megviiは技術リーダーを失いました。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

PaddlePaddle パノラマビューが初めて公開され、11 の新機能とサービス ハードコア リリース

ディープラーニングが注目を集めています。 4月23日、北京で第1回WAVE SUMMIT 2019デ...

AI生成コンテンツの隠れた危険性:AIがAIを学習するだけでは、インターネットは意味のないコンテンツで満たされる

6月20日のニュースによると、人工知能(AI)は急速に発展しているが、隠れた危険性ももたらしている。...

人工知能と5Gの完璧な組み合わせは人類に全く新しい体験をもたらすかもしれない

世界の経済レベルと科学レベルが継続的に向上するにつれて、人類の科学技術分野における成果はますます顕著...

LangChain をベースに LLM アプリケーションを構築する方法

皆さんこんにちは、Lugaです。今日も引き続き、人工知能(AI)エコシステムに関連する技術であるLa...

RPAとAIの違いを理解する

CIO は自動化と AI の導入を加速し、これらのテクノロジーが提供するスピードとコスト削減の利点を...

人工知能に関する12の有名な引用

[[321443]]アラン・チューリング(1912-1954)は、人工知能の概念を真剣に受け止めた最...

AI投資は2025年までに2,320億ドルに達する

KPMGが最近発表したレポートによると、2025年までに人工知能(AI)、機械学習、ロボティック・プ...

ベイジアンディープラーニング: ディープラーニングと確率的グラフィカルモデルを統合するフレームワーク

人工知能 (AI) の進歩により、多層のディープ ネットワークを構築し、大量のデータを学習に活用する...

スマートデバイスとエッジコンピューティングはどのように発展するのでしょうか?

エッジコンピューティングが増加しています。 AI とネットワークの進歩を組み合わせて、より強力なロー...

アリババが自然言語理解の世界記録を更新、AIの常識的推論は人間のそれに近づいている

最近、アリババAIは常識QA分野の権威あるデータセットであるCommonsenseQAで新たな世界記...