ニューラルネットワークはなぜそれほど強力なのでしょうか?

ニューラルネットワークはなぜそれほど強力なのでしょうか?

普遍近似定理

ニューラル ネットワークは非常に強力であることが知られており、ほぼすべての統計学習問題を良好な結果で解決するために使用できます。 しかし、なぜそうなるのか考えたことがありますか? なぜこの方法は、ほとんどの場合、他の多くのアルゴリズムよりも強力なのでしょうか?

機械学習ではいつものことですが、これには正確な数学的理由があります。 つまり、ニューラル ネットワーク モデルによって記述される関数のセットは非常に大きいのです。 しかし、機能セットを記述するとはどういう意味でしょうか? 機能セットはどのくらいの大きさでしょうか? これらの概念は最初は理解するのが難しいように思えるかもしれませんが、適切に定義することで、一部のアルゴリズムが他のアルゴリズムよりも優れている理由が明らかになります。

関数近似としての機械学習

まず、機械学習の問題が何であるかを抽象的に見ることから始めましょう。 データセットがあるとする

ここで、x⁽ᵏ⁾ はデータ ポイントであり、y はデータ ポイントに関連付けられた観測値です。 観測値y⁽ᵏ⁾は実数でも確率分布(分類の場合)でもかまいません。 課題は、単にf(x⁽ᵏ⁾)がy⁽ᵏ⁾を近似する関数f(x)を見つけることです。

これを実現するために、パラメータ化された機能ファミリを事前に固定し、最適なパラメータ構成を選択しました。 例えば、線形回帰では関数群を使用する。

a と b をパラメータとして受け取る関数のファミリ。

x⁽ᵏ⁾とy⁽ᵏ⁾の関係を記述する真の基底関数g(x)が存在すると仮定すると、問題は関数近似問題として定式化できます。 これにより、近似理論テクノロジーの素晴らしい分野に足を踏み入れることができます。

近似理論入門

おそらく、あなたは人生の中で何度も指数関数に遭遇したことがあるでしょう。 その定義は

ここで、e は有名なオイラー数です。 これは超越関数であり、基本的には有限回の加算と乗算ではその値を計算することができないことを意味します。 ただし、それを計算機に入力すると、値が得られます。 この値は近似値に過ぎませんが、通常は目的には十分です。 実際、私たちは

これは多項式なので、その値を明示的に評価できます。 n が大きいほど、近似値は真の値に近くなります。

近似理論の中心的な問題は、これらの問題に数学的な枠組みを提供することです。 任意の関数 g(x) と、計算の観点からより扱いやすい関数のファミリがある場合、目標は g に十分近い「単純な」関数を見つけることです。 本質的に、近似理論は 3 つの中心的な質問に対する答えを探します。

  • 「十分に近い」とはどういう意味ですか?
  • 近似するにはどの関数ファミリを使用できますか (または使用する必要がありますか)?
  • 与えられた近似関数の族の中で、どの正確な関数が最も適合しますか?

少し抽象的に聞こえても心配しないでください。次はニューラル ネットワークの特殊なケースを見ていきます。

関数近似器としてのニューラルネットワーク

それで、質問をもう一度述べてみましょう。 データと観測値の関係を記述する関数 g(x) があります。 これは確実には分かっておらず、特定の値についてのみ

ここでg(x⁽ᵏ⁾)=y⁽ᵏ⁾です。 私たちの仕事はf(x)を見つけることです

  • データから知識を一般化する
  • そしてそれは計算的に実現可能です。

すべてのデータポイントがサブセットXにあると仮定すると、

待ってください、私たちは最も多くの基準を持つ関数を望んでいます

できるだけ小さく。 これらの関数をプロットし、グラフで囲まれた領域に色を付け、y 軸に沿って最大拡張の領域を計算することで、この量を視覚化できます。

g(x) の任意の値を評価することはできませんが、既知のデータポイント xₖ のみに f(x) を適合させるのではなく、常に広い意味でアプローチする必要があります。

そこで、質問が与えられます。 問題は、近似にどの関数セットを使用すればよいかということです。

単一の隠れ層を持つニューラルネットワーク

数学的に言えば、単一の隠れ層を持つニューラルネットワークは次のように定義されます。

ここでφはシグモイド関数のような非線形関数(活性化関数と呼ばれる)である。

そして

値xはデータに対応し、wᵢ、bᵢ、vᵢはパラメータです。 それは機能的な家族です

あらゆる合理的な関数を近似するのに十分でしょうか? 答えは「はい」です!

普遍近似定理

  • > 普遍近似定理の真骨頂 :) 出典: Cybenko, G. (1989)「シグモイド関数の重ね合わせによる近似」、Mathematics of Control, Signals, and Systems、2(4)、303–314。

1989 年の有名な結果は、普遍近似定理と呼ばれ、活性化関数がシグモイド形状で近似される関数が連続している限り、単一の隠れ層を持つニューラル ネットワークはそれを望みどおりに正確に近似できるというものです。 (機械学習の用語で言えば、学習です。)

正確な定理が難しそうに思えても心配しないでください。プロセス全体を詳しく説明します。 (実際、説明をより明確にするために、密度などの概念を意図的に省略しましたが、正確さは劣ります。)

ステップ1。 学習する関数が連続的なg(x)であると仮定します。 小さな ε を固定し、関数の周囲に ε 幅のストライプを描きます。 ε が小さいほど、結果は良くなります。

ステップ2。 (一番難しい部分です)表の機能を見つける

この定理は、そのような F(x) がストライプ内に完全に存在することを保証しており、この関数族は普遍近似関数と呼ばれます。 これがニューラル ネットワークの素晴らしい点であり、ニューラル ネットワークに真の力を与えます。

ただし、いくつか注意点があります。 たとえば、この定理では、隠れ層のニューロンの数 N については何も述べられていません。 ε が小さい場合、非常に大きくなる可能性があり、計算の観点からは不利になります。 できるだけ早く予測を計算したいのですが、100億の項の合計を計算するのは絶対に楽しいことではありません。

2 番目の問題は、定理が適切な近似関数の存在を保証しているにもかかわらず、それをどのように見つけるかが示されていないことです。 これは驚くかもしれませんが、数学では非常に典型的なことです。 特定のオブジェクトを明示的に構築することなく、その存在を推測するための非常に強力なツールがあります。 (普遍近似定理の本来の証明のような純粋な存在証明を拒否する構成主義と呼ばれる数学の学派があります。しかし、問題は根深いものです。非構成的証明を受け入れずに無限集合上の関数について話すことさえできません。)

しかし、大きな問題は、実際には基礎となる機能を完全に理解することはなく、観察したものだけを理解することだということです。

私たちのデータにぴったり合う可能性のある構成は無数にあります。 それらのほとんどは、新しいデータに対してひどく一般化されます。 あなたはきっとこの現象をご存知でしょう。それは恐ろしい過剰適合です。

権利には大きな責任が伴います。

それで、問題は次の通りです。 N 個の観測値がある場合、観測値に非常によく適合する N-1 次多項式を見つけることができます。 これは大したことではありません。ラグランジュ補間を使用してこの多項式を明示的に記述することもできます。 ただし、新しいデータには一般化されず、実際には一般化が非常に悪くなります。 下の図は、大きな多項式を小さなデータ セットに当てはめようとしたときに何が起こるかを示しています。

同じ現象がニューラルネットワークでも発生します。 これは大きな問題であり、普遍近似定理はそれを克服する方法について全くヒントを与えてくれません。

一般に、特徴ファミリーの表現力が豊かであればあるほど、過剰適合が発生しやすくなります。 権利には大きな責任が伴います。 これはバイアスと分散のトレードオフと呼ばれます。 ニューラル ネットワークの場合、重みの L1 正規化からドロップアウト レイヤーまで、これを軽減する方法は多数あります。 しかし、ニューラル ネットワークは非常に表現力に富んでいるため、この問題は常に背景に潜んでおり、常に注意を払う必要があります。

普遍近似定理を超えて

すでに述べたように、この定理はニューラル ネットワークのパラメータ構成を見つけるためのツールを提供しません。 実用的な観点から見ると、これは普遍近似特性とほぼ同じくらい重要です。 ニューラル ネットワークは、データに適合させるための計算効率の良い方法がなかったため、何十年もの間、好まれていませんでした。 これらの使用を可能にした重要な進歩は、バックプロパゲーションと汎用 GPU の 2 つです。 これら 2 つのツールを使用すると、大規模なニューラル ネットワークのトレーニングが簡単になります。 指一本動かすことなく、ノートブックを使用して最先端のモデルをトレーニングできます。 普遍近似定理以来、私たちはここまで来ました!

通常、これは標準的なディープラーニング コースの開始点となります。 ニューラル ネットワークの理論的基礎は、数学的に複雑なため、ここでは説明しません。 しかし、普遍近似定理(およびその証明に使用されるツール)は、ニューラル ネットワークがなぜそれほど強力であるのかについて非常に深い洞察を提供し、新しいアーキテクチャを設計するための基礎さえ提供します。 結局のところ、シグモイド関数と線形関数だけを組み合わせることができると誰が言ったのでしょうか?

<<:  2020 年のベスト AI ソフトウェア開発ツール

>>:  DAMOアカデミーAIが中国科学技術博物館に展示され、AIが認識した初のCOVID-19 CTスキャンが科学技術による防疫努力の歴史的証人となる

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Google、チャットボットデータ分析プラットフォーム「Chatbase」の開設を発表

[[210402]]アメリカのテクノロジーブログ「VentureBeat」によると、11月17日、G...

電子鼻のウイスキー識別精度は96%にも達する。ネットユーザー:茅台酒にも作ってみよう

国産茅台酒や一部の外国産高級ウイスキーは高価であるが、偽造品の重要なターゲットでもある。ワイン鑑定家...

信頼できるAIの基礎は、適切なタイミングで適切なデータを得ることです

私たちは人工知能の存在に慣れ始めており、生成型人工知能(GenAI)の普及により、人工知能が世界に与...

市場規模は300億に迫る! 2021年の農業用ドローンの発展の見通し

植物保護ドローンは、現在の農業分野において間違いなく新たな人気機器です。高効率、利便性、精度、環境保...

ボストンダイナミクス「人間と犬のダンス」:PK韓国ボーイズバンド、ロボットダンスの神グループが登場

[[408381]]ロボット犬とボーイズバンドが一緒に「ダンス」すると、どんな火花が散るのでしょうか...

携帯電話で AI を使用するにはどうすればいいですか?写真を撮るのは本当にハイテクです

AI、つまり人工知能は、携帯電話で長い間使用されてきました。たとえば、最も一般的な音声アシスタントは...

人工知能が人間に取って代わり、多くの人が失業することになるのでしょうか?

人工知能とは何ですか? AI と呼ばれる人工知能は、コンピュータ サイエンスの一分野です。このテクノ...

マスク氏:大胆なアイデアがあるんです!信号機にAIビジョンプラグインを追加する

オフィスワーカーにとって、大都市では 2 種類の交通手段があります。 彼らは日中は仕事に行くことも、...

AI基礎データサービス市場は新たな段階に入った

データプライバシー保護規制が継続的に改善され、国がデータ要素市場を積極的に育成し、データ流通が継続的...

...

人工知能は科学研究に革命を起こす力を持っている

人工知能 (AI) は、コンピューター サイエンス、数学、心理学、言語学などの分野が関わる学際的な分...

Hacker News のホットな話題: 利用できるパッケージが非常に多いにもかかわらず、プログラマーは依然としてアルゴリズムを学ぶ必要があるのでしょうか?

さまざまなアルゴリズムの実装やソフトウェア パッケージがオープン ソースで利用できる世界において、ア...

パンデミックの中で、これらの16の業界は技術のアップグレードを緊急に必要としている

パンデミックはビジネスを混乱させ、場合によっては世界を停止させ、ほぼすべての業界が事業運営方法を再考...

ALPHGOがイ・セドルを破ってから500日が経ち、BATは人工知能のために何をしたのか?

[[201115]] 2016年3月15日、ALPHGOが韓国の囲碁プレイヤー、イ・セドルを4対1...