以前、チューリング賞受賞者でありディープラーニングの先駆者であるヤン・ルカン氏のツイートが多くのネットユーザーの間で議論を呼んだ。 ツイートの中で、ルカン氏はこう述べている。「ディープラーニングは、カーブフィッティングによって生成される補間に過ぎないので、皆さんが考えるほど素晴らしいものではありません。しかし、高次元空間では、補間というものは存在しません。高次元空間では、すべてが外挿なのです。」 ルカン氏が転送した内容は、ハーバード大学の認知科学者スティーブン・ピンカー氏のツイートから引用したもの。ピンカー氏は「普遍近似定理は、ニューラルネットワークがなぜ機能し、なぜ機能しないことが多いのかをうまく説明している。アンドレ・イエ氏の普遍近似定理を理解することによってのみ、ニューラルネットワークを理解できる」と述べた。 ピンカーが言及したアンドレ・イェは、次に紹介する論文「普遍近似定理を理解するまでニューラルネットワークを理解することはできない」の著者です。この記事は昨年のものですが、ニューラルネットワークを理解する上で非常に重要な役割を果たします。 人工ニューラル ネットワークの数学的理論では、普遍近似定理 (または普遍近似定理) は、人工ニューラル ネットワークが任意の関数を近似する能力を指摘しています。通常、この定理で参照されるニューラル ネットワークはフィードフォワード ニューラル ネットワークであり、近似される目的関数は通常、入力と出力の両方がユークリッド空間にある連続関数です。ただし、この定理を畳み込みニューラル ネットワーク、ラジアル基底関数ネットワーク、その他の特殊なニューラル ネットワークなど、他の種類のニューラル ネットワークに拡張する研究もあります。 この定理は、ニューラル ネットワークを使用して任意の複雑な関数を近似し、任意の精度の近似を達成できることを意味します。しかし、近似したい目的関数を達成するためにニューラル ネットワーク パラメータ (重み、ニューロン数、ニューラル層数など) を選択する方法については説明されていません。 1989 年、ジョージ・サイベンコは、単一の隠れ層と任意の幅を持ち、活性化関数として S 関数を使用するフィードフォワード ニューラル ネットワークの普遍近似定理を初めて提案し、証明しました。 2 年後の 1991 年、Kurt Hornik は、活性化関数の選択が重要ではなく、フィードフォワード ニューラル ネットワークの多層ニューラル層とマルチニューロン アーキテクチャが、ニューラル ネットワークを汎用近似器にするための鍵であることを発見しました。 最も重要なのは、この定理がニューラル ネットワークがなぜそれほどインテリジェントに動作するように見えるのかを説明していることです。これを理解することは、ニューラル ネットワークを深く理解するための重要なステップです。 より深い探求コンパクトな(有限で閉じた)集合上の任意の連続関数は、区分関数によって近似できます。 -3 から 3 までの正弦波を例に挙げます。これは、下の図に示すように、2 つの二次関数と 1 つの一次関数の 3 つの関数で近似できます。 ただし、Cybenko はこの区分関数の記述についてより具体的に説明しています。これは、関数が定数になり、基本的にステップを通じて関数を適合できるからです。十分な定数領域 (ステップ) があれば、指定された範囲内で関数を適切に推定できます。 この近似に基づいて、ニューロンをステップとして使用してネットワークを構築できます。重みとバイアスを「ゲート」として使用して、どの入力が下がり、どのニューロンがアクティブになるかを決定すると、十分な数のニューロンを持つニューラル ネットワークは、関数をいくつかの定数領域に分割して推定することができます。 ニューロンの下降部分に該当する入力信号の場合、重みをより大きな値に増幅すると、最終値は 1 に近くなります (シグモイド関数を使用して計算した場合)。そこに属さない場合、重みを負の無限大に向かって動かすと、最終結果はゼロに近くなります。ニューロンが存在する範囲を決定するためのプロセッサとしてシグモイド関数を使用すると、ニューロンの数が多い限り、任意の関数をほぼ完璧に近似できます。多次元空間では、サイベンコはこの考え方を一般化し、各ニューロンが多次元関数内の空間のハイパーキューブを制御します。 普遍近似定理の鍵となるのは、入力と出力の間に複雑な数学的関係を構築する代わりに、単純な線形演算を使用して複雑な関数を多くの小さな、それほど複雑でない部分に分割し、各部分をニューロンで処理することです。 Cybenko の最初の証明以来、さまざまな活性化関数 (ReLU など) やさまざまなアーキテクチャ (再帰型ネットワーク、畳み込みネットワークなど) に対する普遍近似定理のテストなど、多くの新しい改善が行われてきました。 いずれにせよ、これらすべての研究は、ニューラル ネットワークはニューロンの数によって強さを見出すという 1 つの考えを中心に展開しています。各ニューロンは特徴空間のパターンまたは領域を監視します。特徴空間のサイズはネットワーク内のニューロンの数によって決まります。ニューロンの数が少ないほど、各ニューロンが監視する必要があるスペースが大きくなるため、近似能力は低下します。しかし、ニューロンの数が増えると、活性化関数が何であれ、多くの小さな部分をつなぎ合わせることであらゆる関数を構築できるようになります。 一般化と外挿普遍近似定理は単純ではあるが、(少なくとも概念的には)少し単純化しすぎていると指摘する人もいるかもしれない。ニューラル ネットワークは数字を区別したり、音楽を生成したりすることができ、一般的にはインテリジェントに動作しますが、実際には洗練された近似値にすぎません。 ニューラル ネットワークは、特定のデータ ポイントに対して複雑な数学関数をモデル化するように設計されています。ニューラル ネットワークは優れた近似値ですが、入力がトレーニングされた範囲外にある場合は役に立たなくなります。これは有限テイラー級数近似に似ており、特定の範囲内では正弦波を適合させることができますが、その範囲を超えると適合できなくなります。 外挿、つまりトレーニングされた範囲外で合理的な予測を行う能力は、ニューラル ネットワークが行うように設計されたものではありません。普遍近似定理から、ニューラル ネットワークは実際にはインテリジェントなものではなく、2 次元または 3 次元では普通に見える多次元性を装った推定器であることがわかります。 定理の実際的意義もちろん、普遍近似定理は、ニューロンを無限に追加し続けることができると仮定していますが、これは実際には実現可能ではありません。さらに、ニューラル ネットワークのほぼ無限のパラメータの組み合わせを使用して、最もパフォーマンスの高い組み合わせを見つけることは非現実的です。ただし、この定理では、隠れ層が 1 つしかないことも想定されており、隠れ層が追加されるにつれて、複雑さと普遍的な近似の可能性は指数関数的に増大します。 代わりに、機械学習エンジニアは、直感と経験を活用して、与えられた問題に適したニューラル ネットワーク アーキテクチャを構築する方法を決定します。これにより、そのようなネットワークが存在することを認識しながらも、計算パフォーマンスのトレードオフも考慮して、多次元空間を適切に近似できるようになります。 |
<<: 人工知能デジタル技術の強化は現実予測において徐々にその力を発揮しつつある
>>: ゼロサンプルのパフォーマンスが小サンプルのパフォーマンスを上回り、Google の新しい 1370 億パラメータ モデルは GPT-3 よりも強力
2018年、パシフィック・ガス・アンド・エレクトリック(PG&E)の送電線の故障により発生し...
8月4日、中国北方工業集団公司、北奔重型トラック集団有限公司、渤海、松山湖材料研究所は調印式を開催し...
ソートとは、もともと無秩序だったシーケンスを、順序のあるシーケンスに並べ替えることを意味します。ソー...
[[204301]]概要: この論文では、心臓磁気共鳴画像 (MRI) データセットからの画像内の右...
人工知能は今日最も話題になっている技術の一つです。しかし、それは正確には何でしょうか?なぜ気にする必...
Siliconangleによると、Metaは生成AIの分野でOpenAIと競争することを目指してお...
最近、アメリカの一流弁護士たちが人工知能と競争したが、弁護士たちは負けたと報じられている。法律AIプ...
Leifeng.com によると、「部屋の中の象」という外国の慣用句は、「ワニの涙」と同じくらい有...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[355787]]画像ソース: https://pixabay.com/images/id-537...
9月19日、大手AIインフラ企業であるFabartaは、北京で初の製品およびユーザーカンファレンスを...
この記事では、トレーニングと検証の考えられる状況をまとめ、これらのチャートがどのような情報を提供でき...