ディープニューラルネットワークの数学的基礎は難しすぎますか?

ディープニューラルネットワークの数学的基礎は難しすぎますか?

ディープフィードフォワードネットワーク

統計学から始めると、自然に関数 f を定義し、データサンプルは ⟨Xi,f(Xi)⟩ で与えられます。ここで、Xi は典型的な高次元ベクトルであり、f(Xi) は {0,1} または実数の値を取ることができます。私たちの目標は、与えられたデータを(過剰適合なしで)最もよく表す関数 f∗ を見つけて、正確な予測を行うことです。

ディープラーニングでは、これは通常、パラメータ統計のサブセットです。つまり、関数のファミリ f(X;θ) があり、ここで X は入力データ、θ はパラメータ (通常は高次行列) です。目標は、与えられたデータを記述するのに最も適したf(X;θ∗)となるような最適なパラメータθ∗のセットを見つけることです。

フィードフォワードニューラルネットワークでは、θ はニューラルネットワークであり、d 個の関数で構成されます。

ほとんどのニューラル ネットワークは高次元であるため、次の構造図で表現することもできます。

ここで、 はベクトル値関数 f(i) の要素、つまりニューラルネットワークの i 番目の層の要素であり、それぞれは の関数です。上記の構造図において、各層関数f(i)の成分数はレベルiの幅とも呼ばれ、レベル間の幅は異なる場合があります。ニューラル ネットワークの層の数 d をネットワークの深さと呼びます。 d 層目のニューラル ネットワークが前の層と異なることに注意することが重要です。これは出力層です。上記の構造図では、出力層の幅は 1 です。つまり、f=f(d) はスカラー値です。通常、統計学者は線形関数を最も好みますが、ニューラル ネットワーク内の関数 f(i) が線形関数であると規定すると、全体的な組み合わせ関数 f は線形関数しか使用できず、高次元の複雑なデータにはまったく適合できなくなります。したがって、通常は活性化関数として非線形関数を使用します。

最も一般的に使用される活性化関数は、各細胞が複数の信号を受信するが、シナプスは入力に基づいて特定の電位を活性化するかしないかのみを選択できる神経科学モデルにヒントを得ています。入力は次のように特徴付けられるからです。

ある非線形関数 g に対して、サンプルによって励起される関数は次のように定義できます。

ここでg⊗は線形関数を独立変数とする非線形関数を定義します。

通常、関数 g は非線形関数である必要があり、また微分化が容易であることも必要です。したがって、一般的にはReLU(正規化線形単位)関数g(z)=max(0,z)を使用します。他の種類の活性化関数 g には、ロジスティック関数: や双曲正接関数: などがあります。

これら 2 つの活性化関数が ReLU よりも優れている点は、どちらも境界関数であることです。

前述したように、最終出力層は以前の層とは異なります。まず、これは通常スカラー値であり、次に、通常は何らかの統計的解釈があります。

これは通常、古典的な統計モデルのパラメータと見なすことができ、d-1 層の出力は出力層活性化関数の入力を構成します。出力層の活性化関数には線形関数を使用できます。

この線形関数は、ガウス分布の条件付き平均を出力します。他にはσ(wTh+b)を使うこともできる。ここでσはシグモイド関数を表し、

シグモイド関数は出力をベルヌーイ試行として扱います。ここで P(y) は exp(yz) です。より一般化されたソフトマックス関数は次のように表すことができます。

で。

ここで、z の成分は可能な出力値に対応し、softmax(z)i は出力値 i の確率を表します。たとえば、画像がニューラル ネットワークに入力され、出力 (softmax(z)1、softmax(z)2、softmax(z)1) は、さまざまなカテゴリ (猫、犬、オオカミなど) の確率として解釈できます。

畳み込みネットワーク

畳み込みネットワークは線形演算子を持つニューラル ネットワークです。つまり、いくつかの隠された幾何行列がローカル畳み込み演算子として使用されます。たとえば、ニューラル ネットワークの k 番目の層は、m*m 行列として表現できます。

k+1 層の関数を、ニューラル ネットワークの前の層で畳み込みを実行し、非線形関数 g を適用する 2*2 行列として定義します。

パラメータa(k)、b(k)、c(k)、d(k)は、特定の要素i、jではなく、さまざまなレベルのフィルタの設定にのみ依存します。この制約は広い意味では必須ではありませんが、マシンビジョンなどの一部のアプリケーションでは合理的です。このタイプのネットワークは、パラメータの共有に有利であることに加えて、関数 h の定義により、自然にスパースで優れた特性を示します。

畳み込みニューラル ネットワークのもう 1 つの一般的なコンポーネントは、プーリング操作です。畳み込みを実行し、行列インデックス関数に g を適用した後、現在の関数を周囲の関数の平均または最大値に置き換えることができます。つまり、次のように設定します。

この手法は次元削減操作にも適用できます。

モデルと最適化

次に、ニューラル ネットワーク パラメータを取得する方法、つまり、どのような θ を取るべきか、θ をどのように評価するかを理解する必要があります。この目的のために、通常は確率モデリング手法を使用します。つまり、ニューラル ネットワークのパラメーター θ によって確率分布 P(θ) が決定され、条件付き確率 Pθ(y|x) が最大値に達するように θ を見つけることが期待されます。これは関数を最小化することと同じです。

対数尤度関数は期待値に置き換えることができます。たとえば、平均 f(x;θ) と単位共分散行列を持つガウス分布に y を当てはめるとします。平均誤差を最小限に抑えることができます。

それでは、損失関数 J を最適化して最高のパフォーマンスを達成するにはどうすればよいでしょうか。まず、最適化には主に 4 つの困難があることを知っておく必要があります。

  • データと特徴の次元が高すぎる
  • データセットが大きすぎる
  • 損失関数Jは非凸関数である
  • パラメータが多すぎる(過剰適合)

これらの課題に直面した場合、自然な解決策は勾配降下法を使用することです。私たちのディープ ニューラル ネットワークの場合、より良いアプローチは、微分の連鎖律に基づくバックプロパゲーション法を使用することです。この方法では、誤差を減らすために偏微分を動的に計算し、バックプロパゲーションを行って重みを更新します。

もう一つの非常に重要な技術は正規化です。正則化はモデルの過剰適合の問題を解決できます。つまり、通常、モデルの過剰適合を防ぐために、各機能に対してペナルティ項を適用します。畳み込みニューラル ネットワークは、パラメータの共有を通じて過剰適合問題の解決策を提供します。正規化は別の解決策を提供します。J(θ)を最適化する代わりに、J(θ)=J(θ)+Ω(θ)を最適化します。

ここで、Ω は「複雑さの尺度」です。本質的に、Ω は「複雑な機能」または「巨大なパラメータ」に対してペナルティを導入します。一部の Ω 正規化項では、L2 または L1、あるいは凸関数である L0 を使用できます。ディープラーニングでは、過剰適合の問題を解決する他の方法があります。 1 つはデータ拡張で、既存のデータを使用してより多くのデータを生成することです。たとえば、写真が与えられた場合、写真に対してトリミング、変形、回転などの操作を実行して、より多くのデータを生成できます。もう 1 つはノイズです。これは、データまたはパラメータにノイズを追加して新しいデータを生成することです。

生成モデル: ディープボルツマンマシン

ディープラーニングでは多くの確率モデルが適用されます。最初に説明するモデルはグラフです。グラフィカル モデルは、重み付けされたグラフを使用して確率分布を表すモデルであり、各エッジは確率を使用してノード間の相関関係または因果関係を測定します。このようなディープ ネットワークは、各エッジに重み付けされた確率を持つグラフであるため、グラフィカル モデルとして表現するのが自然です。ディープ ボルツマン マシンは、結合分布が指数関数として表現されるグラフィカル モデルです。

ここで、構成のエネルギー E は次の式で与えられます。

一般に、中間レベルは実数値のベクトルであり、最上位レベルと最下位レベルは離散値または実数値です。

ボルツマン マシンのグラフ モデルは典型的な二部グラフであり、各層に対応する頂点は、その直上の層と直下の層にのみ接続されます。

このマルコフ特性は、h1 の下では、v 成分の分布が h2、…、hd および v の他の成分から独立していることを意味します。 v が離散的である場合:

他の条件付き確率についても同様です。

残念ながら、グラフィカル モデルでサンプリングや最適化を行う方法がわからないため、深層学習におけるボルツマン マシンの応用は大きく制限されます。

ディープビリーフネットワーク

ディープ ビリーフ ネットワークは、定義がより複雑ですが、計算的にはより単純です。これらの「ハイブリッド」ネットワークは本質的にはd層の有向グラフであるが、最初の2層は無向である。P(h(d−1),h(d))は次のように定義される。

他のレイヤーについては、

これは前とは逆方向であることに注意してください。ただし、暗黙の変数は次の条件を満たします。

式(1)で定義されるが、式(2)も満たす。

上記の式を使用して、他のレイヤーを条件として最下層を直接サンプリングする方法はわかっていますが、推論を実行するには、入力が与えられた場合の出力の条件付き分布も必要です。

最後に、ディープ ボルツマン マシンの k 番目のレイヤーは k+1 レイヤーと k-1 レイヤーに依存しますが、ディープ ビリーフ ネットワークでは、k+1 レイヤーのみを条件付けすれば、(他のレイヤーを条件付けせずに) k 番目のレイヤーを正確に生成できることを強調します。

レッスンプラン

このコースで議論する主なトピックは次のとおりです。

  • 表現の深さ
  • 計算上の問題
  • シンプルで分析可能な生成モデル

最初のトピックでは、ニューラル ネットワークの表現力、つまりニューラル ネットワークによってどのような種類の関数を近似できるかに重点を置きます。議論する予定の論文は次のとおりです。

  • Cybenko、「加法活性化関数の近似」(89)。
  • Hornik、「多層フィードフォワードネットワークの近似力」(91)。
  • テルガルスキーの「ディープフォワードネットワークの表現上の利点」(15)。
  • SafranとShamir、「ReLUネットワークの深層分離」(16)。
  • Cohen、Or、Shashua、「深層学習の表現力について:テンソル解析」(15)。

最初の 2 つの論文 (コースの後半で詳しく説明します) では、1 つのレイヤーだけで何でも表現できるという考え方を実証します。しかし、その後のいくつかの論文では、この単一の層は非常に広くなければならないことが示されており、この論文の後半でその議論を紹介します。

2 番目のトピックに関して、このコースで複雑性の結果に関して議論する内容には次のようなものが含まれます。

  • Livni、Shalev Schwartz、Shamir、「ニューラルネットワークのトレーニングの計算効率について」(14)。
  • ダニエリとシャレフ・シュワルツ、「DNF学習における複雑性理論的限界」(16)。
  • シャミア、「ニューラルネットワーク学習の分布特有の複雑性」(16)。

アルゴリズムに関して:

  • Janzamin、Sedghi、Anandkumar、「テンソル法を用いたニューラルネットワークの効率的なトレーニング」(16)。
  • ハート、レヒト、シンガー、「より速いトレーニング、より良い一般化」(16)。
  • 最後に、生成モデルに関して読む論文には以下のものがあります。
  • Arora 他 (2014)「いくつかの深層表現における証明可能な制約の学習」
  • Mossel (2016)「ディープラーニングと生成階層モデル」

今日は、最初のトピックに関する最初の 2 つの論文、Cybenko と Hornik による論文を見ていきます。

サイベンコとホルニクの理論

1989 年の論文で、サイベンコは次のことを証明しました。

[サイベンコ(89)]σをlimt→–∞σ(t)=0およびlimt→+∞σ(t)=1の極限を持つ連続関数とする。 (例えば、σは活性化関数であり、σ(t)=1/(1+e−t))この場合、f(x)=∑αjσ(wTjx+bj)の形式の関数族はCn([0,1])に稠密である。

このうち、Cn([0,1])=C([0,1]n)は[0,1]nから[0,1]までの連続関数の空間であり、d(f,g)=sup|f(x)−g(x)|が成り立ちます。

ホルニクはサイベンコの次の導関数を証明した。

[Hornik(91)] 上記の定理によって定義される関数族を考えるが、σには条件がない。

σ が有界かつ非連続である場合、関数の族は空間 Lp(μ) で稠密です。ここで、μ は Rk 上の任意の有限測度です。

σ が条件付き連続である場合、関数の族は空間 C(X) で稠密です。ここで、C(X) は X 上のすべての連続関数の空間であり、X⊂Rk は有限開被覆 (コンパクト セット) を満たす集合です。

σ∈Cm(Rk)を加えると、関数族は空間Cm(Rk)とC^{m,p}(μ)に稠密となり、任意の有限μに対して有限開被覆条件を満たします。

σのm次の追加微分が有界である場合、Rk上の任意の有限測度μに対して、関数の族はC^{m,p}(μ)において稠密です。

上記の理論では、Lp(μ)空間は、d(f,g)=(∫|f−g|pdμ)1/pで、∫|f|pdμ<∞を満たす関数fの空間です。証明を始める前に、関数解析を簡単に復習する必要があります。

ハーン・バナッハ拡張定理

Vが線型部分空間Uとz∈V∖U¯を持つ標準ベクトル空間である場合、L:V→Kが存在し、L(x) = 0、すべてのx∈Uに対してL(z) = 1、‖L‖≤d(U,z)を満たす。

この定理はなぜ役に立つのでしょうか? Cybenko と Hornik の結果は、Hahn-Bach の拡張定理を使用した背理法によって証明されました。 {Σαjσ(wTjx + bj)}によって与えられる部分空間Uを考え、矛盾によりU¯が関数空間全体ではないと仮定します。我々は、関数空間上に、U¯ 上でゼロに制限されるが、常にゼロであるとは限らない連続線型写像 L が存在すると結論付けます。言い換えれば、U 上でゼロとなる任意の連続線型写像 L は必ずゼロ写像であることを示すだけで十分であり、これによって目的の結果が証明されます。

さて、関数解析の古典的な結果によれば、Lp(μ)上の連続線型関数Lは次のように表される。

g∈Lq(μ)の場合、1/p + 1/q = 1です。 C(X)上の連続線形関数Lは次のように表される。

ここで、μ は X 上の有限の記号測度です。

Cybenko と Hornik の定理で考慮されているものと同様の線形関数表現を他の空間でも見つけることができます。

一般的な証明に進む前に、関数空間がLp(μ)でσ(x) = 1 (x ≥ 0)である(簡単な)ケースを考えます。定理によって定義された集合内のすべての f が L(f) = 0 を満たす場合、L に関連付けられた関数 g∈Lq(μ) は常にゼロになる必要があることを証明するにはどうすればよいでしょうか。変換により、σから任意の区間のインデックスを取得します。つまり、任意のa < bに対して、∫bagdμ = 0であることを示すことができます。 μ は有限なので(σ は必要に応じて有限)、g はゼロでなければなりません。この例を使用して、Cybenko の定理の一般的なケースを検討します。私たちが見せたいのは

これはμ = 0を意味します。まず、次のフーリエ解析のトリックを使って次元を1に減らします。測度μaを次のように定義します。

私たちは観察しました

さらに、任意のaに対してμa≡0ならばμ≡0(「測度はそのすべての射影によって定義される」)であることを示すことができれば、

(ここでは μ の有限性が使用されていることに注意してください)。次元を 1 に減らした後、もう 1 つの非常に便利なトリック (これも μ の有限性を使用します)、つまり畳み込みトリックを使用します。 μ を小さなガウスカーネルで畳み込むと、密度を持つ尺度、つまりルベーグ測度が得られます。それでは、残りの証明に進みます。畳み込み技術を使うと、

そして密度 h = 0 であることを証明したいと考えています。変数を変えると、条件(3)は次のように書き直される。

h = 0 であることを証明するために、フーリエ解析の次の抽象的なツールを使用します。 Iをh(wt+b)のすべての拡張線型空間の閉集合とする。 I 関数の不変性により、畳み込みに対して不変です。抽象フーリエ解析では、I は畳み込みの理想的な状態です。 Z(I)がI上で消えるすべての関数のすべてのフーリエ変換ωの集合を表すとします。すると、Z(I)は集合Rまたは{0}になります。なぜなら、g(t)が理想であれば、w≠0に対してg(tw)も理想だからです。 Z(I) = R の場合、理想的な状態ではすべての関数は定数 0 となり、これが証明となります。それ以外の場合、Z(I) = {0} のとき、フーリエ解析により、I は f^ = 0 となるすべての関数、つまりすべての非定数関数の集合になります。しかし、σ がすべての非定数関数に直交する場合、σ = 0 となります。 Z(I) = R、つまりh = 0であることが証明で完了します。

オリジナルリンク: http://elmos.scripts.mit.edu/mathofdeeplearning/2017/03/09/mathematics-of-deep-learning-lecture-1/

<<:  機械学習アルゴリズムの実践: 決定木

>>:  上位 10 の古典的なソートアルゴリズムの JS バージョン

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Xiaolin が LRU アルゴリズムを破壊!

[[411501]]この記事はWeChatの公開アカウント「Xiao Lin Coding」から転...

ガートナーレポート: 世界のカスタマーサービスセンターが会話型 AI を導入、今年の支出は 16.2% 増加

8月1日、市場調査会社ガートナーが発表した最新のレポートによると、世界中のカスタマーサービスセンター...

3大分野で需要が解放され、2021年には検査ロボットの開発が期待される

近年、人口ボーナスの継続的な減少に伴い、無人作業の需要がますます顕著になり、ロボット産業は急速な発展...

...

次世代IoTシステムにおける環境CV技術

現在、コンピューター ビジョン (CV) テクノロジは転換点を迎えており、主要なトレンドが収束して、...

アリババが世界初のAI中国語フォント「Ali Hanyi Intelligent Bold」を開発

1月22日、アリババはHanyi Fontと提携し、世界初の人工知能中国語フォント「 Ali Han...

専門家は「人工知能+教育」は慎重に扱うべきだと考えている

[[278770]]地図:李暁軍● 学校での顔認識の導入は、データセキュリティと個人のプライバシーの...

A100よりもコストパフォーマンスに優れています! FlightLLM により、大規模モデル推論でパフォーマンスとコストを同時に心配する必要がなくなりました。

端末側での大規模言語モデルの適用により、コンピューティング性能とエネルギー効率の需要が「引き出され」...

機械学習の次元削減手法で「次元の呪い」を打破する

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

中国人民大学高陵人工知能学院のネイチャーサブジャーナル:マルチモーダル基本モデルを使用して汎用人工知能への移行を試みている

最近、中国人民大学高陵人工知能学院の陸志武教授、孫昊准教授、温継栄学院長教授が共同責任著者として国際...

建設ロボット代替の流れが到来。高齢化した移民労働者はどこへ行くのか?

長年にわたり、数億人の出稼ぎ労働者が経済建設と社会発展に積極的に参加し、中国の近代化推進に多大な貢献...

Cloudera のチーフアーキテクト Doug Cutting が Hadoop と人工知能について語る

[51CTO.com オリジナル記事] Doug Cutting 氏はオープンソース コミュニティに...

ロボットが石油・ガス生産をより安全にする方法

石油とガスの生産は世界で最も危険な仕事の一つです。石油掘削、掘削作業、保守テストなどの作業により、毎...

米国は、中国のAIチップ量子の3つの主要分野への投資を制限する最新の大統領令に署名しました。大手メーカーが50億ドル相当のA800を緊急発注

水曜日、ホワイトハウスは大統領令に署名した。米国は、中国の半導体設計ソフトウェアや製造ハードウェアへ...

...