ニューラルネットワークはなぜそれほど強力なのでしょうか?

普遍近似定理

ニューラルネットワークは非常に強力であることが知られており、ほぼすべての統計学習問題を良好な結果で解決するために使用できます。しかし、なぜそうなるのか考えたことがありますか? なぜこの方法は、ほとんどの場合、他の多くのアルゴリズムよりも強力なのでしょうか?

機械学習ではいつものことですが、これには正確な数学的理由があります。つまり、ニューラルネットワークモデルによって記述される関数のセットは非常に大きいのです。しかし、機能セットを記述するとはどういう意味でしょうか? 機能セットはどのくらいの大きさでしょうか? これらの概念は最初は理解するのが難しいように思えるかもしれませんが、適切に定義することで、一部のアルゴリズムが他のアルゴリズムよりも優れている理由が明らかになります。

関数近似としての機械学習

まず、機械学習の問題が何であるかを抽象的に見ることから始めましょう。データセットがあるとする

ここで、x⁽ᵏ⁾ はデータポイントであり、y はデータポイントに関連付けられた観測値です。観測値y⁽ᵏ⁾は実数でも確率分布（分類の場合）でもかまいません。課題は、単にf(x⁽ᵏ⁾)がy⁽ᵏ⁾を近似する関数f(x)を見つけることです。

これを実現するために、パラメータ化された機能ファミリを事前に固定し、最適なパラメータ構成を選択しました。例えば、線形回帰では関数群を使用する。

a と b をパラメータとして受け取る関数のファミリ。

x⁽ᵏ⁾とy⁽ᵏ⁾の関係を記述する真の基底関数g(x)が存在すると仮定すると、問題は関数近似問題として定式化できます。これにより、近似理論テクノロジーの素晴らしい分野に足を踏み入れることができます。

近似理論入門

おそらく、あなたは人生の中で何度も指数関数に遭遇したことがあるでしょう。その定義は

ここで、e は有名なオイラー数です。これは超越関数であり、基本的には有限回の加算と乗算ではその値を計算することができないことを意味します。ただし、それを計算機に入力すると、値が得られます。この値は近似値に過ぎませんが、通常は目的には十分です。実際、私たちは

これは多項式なので、その値を明示的に評価できます。 n が大きいほど、近似値は真の値に近くなります。

近似理論の中心的な問題は、これらの問題に数学的な枠組みを提供することです。任意の関数 g(x) と、計算の観点からより扱いやすい関数のファミリがある場合、目標は g に十分近い「単純な」関数を見つけることです。本質的に、近似理論は 3 つの中心的な質問に対する答えを探します。

「十分に近い」とはどういう意味ですか?
近似するにはどの関数ファミリを使用できますか (または使用する必要がありますか)?
与えられた近似関数の族の中で、どの正確な関数が最も適合しますか?

少し抽象的に聞こえても心配しないでください。次はニューラルネットワークの特殊なケースを見ていきます。

関数近似器としてのニューラルネットワーク

それで、質問をもう一度述べてみましょう。データと観測値の関係を記述する関数 g(x) があります。これは確実には分かっておらず、特定の値についてのみ

ここでg(x⁽ᵏ⁾)=y⁽ᵏ⁾です。私たちの仕事はf(x)を見つけることです

データから知識を一般化する
そしてそれは計算的に実現可能です。

すべてのデータポイントがサブセットXにあると仮定すると、

待ってください、私たちは最も多くの基準を持つ関数を望んでいます

できるだけ小さく。これらの関数をプロットし、グラフで囲まれた領域に色を付け、y 軸に沿って最大拡張の領域を計算することで、この量を視覚化できます。

g(x) の任意の値を評価することはできませんが、既知のデータポイント xₖ のみに f(x) を適合させるのではなく、常に広い意味でアプローチする必要があります。

そこで、質問が与えられます。問題は、近似にどの関数セットを使用すればよいかということです。

単一の隠れ層を持つニューラルネットワーク

数学的に言えば、単一の隠れ層を持つニューラルネットワークは次のように定義されます。

ここでφはシグモイド関数のような非線形関数（活性化関数と呼ばれる）である。

そして

値xはデータに対応し、wᵢ、bᵢ、vᵢはパラメータです。それは機能的な家族です

あらゆる合理的な関数を近似するのに十分でしょうか? 答えは「はい」です!

普遍近似定理

> 普遍近似定理の真骨頂 :) 出典: Cybenko, G. (1989)「シグモイド関数の重ね合わせによる近似」、Mathematics of Control, Signals, and Systems、2(4)、303–314。

1989 年の有名な結果は、普遍近似定理と呼ばれ、活性化関数がシグモイド形状で近似される関数が連続している限り、単一の隠れ層を持つニューラルネットワークはそれを望みどおりに正確に近似できるというものです。 (機械学習の用語で言えば、学習です。)

正確な定理が難しそうに思えても心配しないでください。プロセス全体を詳しく説明します。 (実際、説明をより明確にするために、密度などの概念を意図的に省略しましたが、正確さは劣ります。)

ステップ1。学習する関数が連続的なg(x)であると仮定します。小さな ε を固定し、関数の周囲に ε 幅のストライプを描きます。 ε が小さいほど、結果は良くなります。

ステップ2。（一番難しい部分です）表の機能を見つける

この定理は、そのような F(x) がストライプ内に完全に存在することを保証しており、この関数族は普遍近似関数と呼ばれます。これがニューラルネットワークの素晴らしい点であり、ニューラルネットワークに真の力を与えます。

ただし、いくつか注意点があります。たとえば、この定理では、隠れ層のニューロンの数 N については何も述べられていません。 ε が小さい場合、非常に大きくなる可能性があり、計算の観点からは不利になります。できるだけ早く予測を計算したいのですが、100億の項の合計を計算するのは絶対に楽しいことではありません。

2 番目の問題は、定理が適切な近似関数の存在を保証しているにもかかわらず、それをどのように見つけるかが示されていないことです。これは驚くかもしれませんが、数学では非常に典型的なことです。特定のオブジェクトを明示的に構築することなく、その存在を推測するための非常に強力なツールがあります。 (普遍近似定理の本来の証明のような純粋な存在証明を拒否する構成主義と呼ばれる数学の学派があります。しかし、問題は根深いものです。非構成的証明を受け入れずに無限集合上の関数について話すことさえできません。)

しかし、大きな問題は、実際には基礎となる機能を完全に理解することはなく、観察したものだけを理解することだということです。

私たちのデータにぴったり合う可能性のある構成は無数にあります。それらのほとんどは、新しいデータに対してひどく一般化されます。あなたはきっとこの現象をご存知でしょう。それは恐ろしい過剰適合です。

権利には大きな責任が伴います。

それで、問題は次の通りです。 N 個の観測値がある場合、観測値に非常によく適合する N-1 次多項式を見つけることができます。これは大したことではありません。ラグランジュ補間を使用してこの多項式を明示的に記述することもできます。ただし、新しいデータには一般化されず、実際には一般化が非常に悪くなります。下の図は、大きな多項式を小さなデータセットに当てはめようとしたときに何が起こるかを示しています。

同じ現象がニューラルネットワークでも発生します。これは大きな問題であり、普遍近似定理はそれを克服する方法について全くヒントを与えてくれません。

一般に、特徴ファミリーの表現力が豊かであればあるほど、過剰適合が発生しやすくなります。権利には大きな責任が伴います。これはバイアスと分散のトレードオフと呼ばれます。ニューラルネットワークの場合、重みの L1 正規化からドロップアウトレイヤーまで、これを軽減する方法は多数あります。しかし、ニューラルネットワークは非常に表現力に富んでいるため、この問題は常に背景に潜んでおり、常に注意を払う必要があります。

普遍近似定理を超えて

すでに述べたように、この定理はニューラルネットワークのパラメータ構成を見つけるためのツールを提供しません。実用的な観点から見ると、これは普遍近似特性とほぼ同じくらい重要です。ニューラルネットワークは、データに適合させるための計算効率の良い方法がなかったため、何十年もの間、好まれていませんでした。これらの使用を可能にした重要な進歩は、バックプロパゲーションと汎用 GPU の 2 つです。これら 2 つのツールを使用すると、大規模なニューラルネットワークのトレーニングが簡単になります。指一本動かすことなく、ノートブックを使用して最先端のモデルをトレーニングできます。普遍近似定理以来、私たちはここまで来ました!

通常、これは標準的なディープラーニングコースの開始点となります。ニューラルネットワークの理論的基礎は、数学的に複雑なため、ここでは説明しません。しかし、普遍近似定理（およびその証明に使用されるツール）は、ニューラルネットワークがなぜそれほど強力であるのかについて非常に深い洞察を提供し、新しいアーキテクチャを設計するための基礎さえ提供します。結局のところ、シグモイド関数と線形関数だけを組み合わせることができると誰が言ったのでしょうか?

<<: 2020 年のベスト AI ソフトウェア開発ツール

>>: DAMOアカデミーAIが中国科学技術博物館に展示され、AIが認識した初のCOVID-19 CTスキャンが科学技術による防疫努力の歴史的証人となる

ブログ

ニューラルネットワークはなぜそれほど強力なのでしょうか?

本物そっくりの「人工顔」は顔認識を騙せるのか？

大きな出来事がやってくる: Google Bard は Gemini に改名される予定、Ultra 1.0 は強力だが有料、Android アプリも登場

Linux の割り込み処理メカニズムを使用してシステムパフォーマンスを向上させる

模倣学習: ロボットはプログラミングなしで自然言語を理解できます!

AI.com ドメインが ChatGPT から X.ai にリダイレクトされました

AIを活用して史上最も変動の激しい資産クラスを制御する

2021年にデータセンターに起こる変化と傾向

推薦する

7,000万以上の店舗と10億以上の商品を持つWeidianは、どのようにAIシステムを構築しているのでしょうか。

EUのドローン関連法は国内メーカーにとって恩恵か、それとも災いか？

人工知能のルーツを解読する

変革は効果的であり、スマートな行動は効果的です。レノボ・エンタープライズ・テクノロジー・グループが10の業界のインテリジェントな変革に関するホワイトペーパーを発表

TS と AI が出会うと何が起こるでしょうか?

AIと5Gが次のイノベーションの波をどう推進するか

マイクロソフトは、AIチップが十分に入手できない場合、データセンターのサービスが中断される可能性があると警告している

卒業生向け: 機械学習とデータサイエンスのどちらを選ぶべきでしょうか?

Llama 2 第 2 波のハイライト: 慎重すぎるため、コード生成には改善の余地が大いにある

従来のセキュリティ手法を覆し、AIがWebセキュリティを再定義