なぜディープラーニングには局所最小値がないのでしょうか?

なぜディープラーニングには局所最小値がないのでしょうか?

この記事では主に定量的な質問に答えます。定量的な問題には主に次のような状況が含まれます。

「私の知る限り、各方向で 0 から導出される確率は非常に低いです。これ以外に何か理由があるのでしょうか?」

理論的には、この疑問は検証可能であり、過去数十年にわたって多くの研究者がその検証に取り組んできました。

まず第一に、この問題は実際に検証されているということを指摘したいと思います。この考えは、ルカンが初期の著作の中で初めて提案しました。これについては、David G. Stork、Peter E. Hart、Richard O. Duda が共著した「小さな赤い本」『Graphic Classification』で説明されています。

この問題は、20年前のスピングラス研究による凝縮物質物理学で大部分が説明されました。

最も基本的なプロジェクトは、同様の非現実的な形式の研究を通じてパリシによって開発されました。

TAPの自由エネルギーは静的観点から表現される

その後、ランダム行列理論の正確かつ実行可能な方法が経験的実証に使用されました。 LeCun 氏が話した結果は次のとおりです。

高次元ランドスケープの要点

パリシ氏のアプローチを要約すると次のようになります。

彼はランダムハミルトニアン関数の一種である平均場スピングラス(P スピン球状スピングラスとも呼ばれる)を研究しています。彼は次のことを発見しました:

1. TAP 自由エネルギーの解析式を導出する (T>0 の場合) TAP (Tholis Anderson Palmer) 理論はスピン グラスを研究するための一般的な方法であり、RBM に適用できます (「物理化学を使用して RMB を改善する」を参照)

2. 構成の平均情報量を計算できます。さらに、統計理論の方法を使用してキーポイントの数を計算する複雑さの尺度もあります。

3. エネルギーレベル E におけるキーポイントの数を計算するために、この結論を T = 0 におけるエネルギーランドスケープに拡張することができます。パリスが到達した普遍的な結果は、すべての局所最小化エネルギーが地球の表面からわずかに上の小さな領域に「(静的に)集中している」というものである。

これがスピングラスの研究においてなぜ重要な問題なのか、そしてなぜ P 字型の球状スピングラスが研究対象なのかは、それが実証済みのモデルであり、多くのディープラーニング研究者が参考にできる確固たる仮説であるということ以外には説明されていません。

さらに、ディープラーニングの研究では、RBM や VAE などの従来の方法では T = 1 が想定されていますが、T = 0 エネルギー ビューと T > 0 エネルギー ビューを区別していません。

最近、ディープラーニング研究に直接適用できる結論が増えています。

局所最小値のないディープラーニング

この結論はさらに、ヘッセ定理の仮定に非常に問題があるために、SGD ソルバーは実際には鞍点と局所最小値の違いを区別できないことを前提としています。 LeCun の最近の数値計算研究はこれを裏付けています。彼の研究により、ヘッセ理論では多くのゼロ値が想定されていることが分かりました。

偏った勾配は下に向かって下降する

私個人としては、この結論は不完全であり、ワリニス・ピーターのような物理化学者にとって、この分野ではまだ多くの研究作業が残されていると考えます。このテーマは、「アダムの肋骨」現象として知られる極低温ガラスの理論と、実際の構造ガラスにおける関連するエントロピー危機において特に不可解な現象です。これはかなり奥深いトピックですが、P スピン球状スピン グラスが非常に興味深い理由は、実エネルギーを多く見ることができるシンプルなスピン グラス モデルであるという点にあると言えば十分でしょう。それはエントロピー危機を表しています。実際、ディープ ネットもエントロピー危機を示すと私は考えています。つまり、ディープ ネットが過剰にトレーニングされると、多くの仮想エントロピーが示されることになります。

過剰トレーニングによるエントロピー危機は、LeCun がエントロピー SGD に関する論文で述べたように、仮想エントロピーから逸脱するにつれて高いピークとして現れます。そして、この現象は最近 RBM でも観察されています。

[1612.01.1717] バイナリシナプスを持つ制限付きボルツマンマシンの非監視特徴の統計力学

これらの漏斗状の構造は、タンパク質の折り畳みで観察できます。

では、ディープラーニングはなぜ機能するのでしょうか?

私は、カリフォルニア大学バークレー校で開催された 2016 年夏の MDDS ディスカッションでこれらの問題について議論しました (元の記事を読んでビデオを見るには、ここをクリックしてください)。

<<:  MITは、ニューラルネットワークトレーニングのブラックボックスを自動的に覗くネットワーク解剖フレームワークを提案

>>:  AESアルゴリズムを簡単に説明すると

ブログ    
ブログ    
ブログ    

推薦する

科学者たちは指紋の水分調節メカニズムを研究しており、これはロボットや義肢の開発に役立つだろう。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

自動運転技術アーキテクチャ:安全でインテリジェントな交通システムの構築

人工知能分野における重要なイノベーションとして、自動運転技術は将来の交通の様相を徐々に変えつつありま...

孫玄、Zhuanzhuan 社アーキテクチャアルゴリズム部門: AI によるマイクロサービスアーキテクチャ

[51CTO.com からのオリジナル記事] 2014 年頃から、マイクロサービス アーキテクチャの...

...

ついに!この強力な「オープンソース画像認識システム」がオンラインになりました!

[[407147]]画像認識といえば、皆さんすでによくご存知だと思います。この技術は、顔認証、決済...

...

人工知能統計調査:AIの普及により1億2000万人の労働者が再訓練を必要とする

AI の健全性と進歩に関する最近の調査、研究、予測、その他の定量的評価では、労働力の再訓練の必要性、...

...

信頼性の高い人工知能システムのルールをどのように定義し構築するのでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

人工知能はディープラーニング技術を使用して先進運転支援システム(ADAS)を強化します

翻訳者 |李睿レビュー | Chonglou人工知能と機械学習は、ディープラーニング技術の力を活用し...

OpenAI DALL·E 3が登場、ChatGPTと統合、生画像の効果は素晴らしい

ついにOpenAIの画像処理AIツール「DALL-Eシリーズ」が最新バージョン「DALL・E 3」に...

よく使われる4つの推奨アルゴリズムの一覧

[[416976]]この記事はWeChatの公開アカウント「Big Data DT」から転載したもの...

人工知能は依然として人気があり、大学入試では3年連続で最も人気のある選択肢となっている。

百度がこのほど発表した「百度人気検索・2022年大学入試ビッグデータ」レポートによると、人工知能は3...

人工知能学習: 人工ニューラル ネットワークとは何ですか?

[51CTO.com クイック翻訳] 多くの人工知能コンピュータシステムの中核技術は、人間の脳の生...

これらの6つのヒントを活用してAIガバナンスの問題を解決しましょう

AI ガバナンスは、データ プライバシー、アルゴリズムのバイアス、コンプライアンス、倫理など、企業内...