ディープラーニングの難しさ:ニューラルネットワークが深くなるほど、最適化の問題は難しくなる

ディープラーニングの難しさ:ニューラルネットワークが深くなるほど、最適化の問題は難しくなる

[[192056]]

ディープラーニングの中心的な問題は非常に難しい最適化問題です。そのため、ニューラル ネットワークが導入されてから数十年にわたり、ディープ ニューラル ネットワークの最適化問題の難しさは、ディープ ニューラル ネットワークが主流になるのを妨げる重要な要因となっていました。これにより、1990 年代から 2000 年代初頭にかけて衰退が進みました。しかし、今ではこの問題は基本的に解決されています。このブログ記事では、ニューラル ネットワークの最適化の「難しさ」と、この問題を理論的にどのように説明できるかについて説明します。つまり、ニューラル ネットワークが深くなるほど、最適化の問題は難しくなります。

最も単純なニューラル ネットワークは単一ノード パーセプトロンであり、最適化問題は凸型です。凸最適化問題の良いところは、すべての局所最小値は大域最小値でもあることです。凸最適化問題を解決するためのさまざまな最適化アルゴリズムが存在し、数年ごとに凸最適化のためのより優れた多項式時間アルゴリズムが発見されています。単一ニューロンの重みは、凸最適化アルゴリズムを使用して簡単に最適化できます (下の図を参照)。単一のニューロンを拡大すると何が起こるか見てみましょう。

図1 左: 凸関数。右: 非凸関数。凸関数の底を見つけるのは非凸関数よりも簡単です (出典: Reza Zadeh)

自然な次のステップは、ニューラル ネットワークを単一層のままにしたまま、ニューロンをさらに追加することです。単層 n ノード パーセプトロン ニューラル ネットワークの場合、ニューラル ネットワークがトレーニング セットを正しく分類できるようにするエッジ ウェイトがある場合、そのようなエッジ ウェイトは線形計画法を使用して多項式時間 O(n) で見つけることができます。線形計画法も凸最適化の特殊なケースです。これにより、次のような疑問が生じます。より深い多層ニューラル ネットワークに対しても同様の保証を行うことができるでしょうか?残念ながら、いいえ。

2 層以上の一般的なニューラル ネットワークの最適化問題を証明可能に解決するには、コンピューター サイエンスにおける最も未解決の問題のいくつかに対処するアルゴリズムが必要です。したがって、ディープニューラルネットワークの最適化問題を証明可能に解決するアルゴリズムを見つけようとしている機械学習研究者にはあまり期待していません。この最適化問題は NP 困難であるため、多項式時間で解決できることが証明できれば、何十年も未解決のまま残っていた他の何千もの問題も解決できることになります。実際、J. Stephen Judd は 1988 年に次の問題が NP 困難であることを発見しました。

一般的なニューラル ネットワークと一連のトレーニング例が与えられた場合、ニューラル ネットワークがすべてのトレーニング例に対して正しい出力を生成するようなネットワーク エッジ重みのセットが存在するでしょうか。

ジャッド氏の研究では、ニューラル ネットワークにトレーニング サンプルの 3 分の 2 のみに対して正しい出力を生成するよう要求しても、NP 困難な問題であることも示されました。これは、最悪の場合でも、ニューラル ネットワークを近似的にトレーニングすることが本質的に困難であることを意味します。 1993 年に Blum と Rivest によって発見された事実はさらに悪いもので、2 つの層と 3 つのノードのみを持つ単純なニューラル ネットワークのトレーニング最適化問題でさえ、依然として NP 困難な問題です。

理論的には、ディープラーニングと機械学習における多くの比較的単純なモデル (サポート ベクター マシンやロジスティック回帰モデルなど) との違いは、これらの単純なモデルではモデルの最適化が多項式時間で完了することが数学的に証明できることです。これらの比較的単純なモデルの場合、多項式時間よりも長く実行される最適化アルゴリズムであっても、より優れたモデルを見つけることができないことが保証されます。しかし、ディープニューラルネットワークの既存の最適化アルゴリズムでは、そのような保証を提供することはできません。ディープ ニューラル ネットワーク モデルをトレーニングした後、このネットワーク モデルが現在の構成で見つけられる最適なモデルであるかどうかはわかりません。したがって、モデルのトレーニングを継続すると、より優れたモデルが得られるのではないかと疑問に思うかもしれません。

幸いなことに、実際には、これらの最先端の結果に非常に効率的にアプローチできます。古典的な勾配降下法の最適化手法を実行することで、十分に優れた局所最小値に到達し、画像認識、音声認識、機械翻訳などの多くの一般的な問題で大きな進歩を遂げることができます。 *** の結果は無視し、時間の許す限り勾配降下法の反復を実行します。

従来の最適化理論の結果は残酷であるように思われますが、ヒューリスティックな方法、マシンの追加、新しいハードウェア (GPU など) の使用などのエンジニアリング手法と数学的なトリックを通じて、これらの問題を回避することができます。一部の研究では、理論的な結果が非常に厳しいにもかかわらず、これらの古典的な最適化アルゴリズムが非常にうまく機能する理由を積極的に調査しています。

<<:  Google の最も強力なチップアップグレード、第 2 世代 TPU はディープラーニングの未来となるか?

>>:  DeepMap COO 羅偉氏との独占インタビュー:自動運転の時代に、スタートアップは高精度地図の分野でどのように躍進できるのか?

ブログ    
ブログ    

推薦する

小井ロボットの華蔵エコシステムの出現は、大型モデルの商業化の始まりを示しています

10月26日、「人工知能分野での中国初の上場企業」であるXiaoi RobotがHuazang Un...

自動運転車は「交通渋滞をさらに悪化させる可能性がある」

西オーストラリア大学の研究者らは、交通渋滞を緩和するために設計された無人運転車が逆の効果をもたらして...

...

神州太悦:インテリジェントセマンティック産業プラットフォームが正式に開始、無料かつオープンなセマンティック基本サービス

諺にあるように、森の中で目立ち、評判の良い木は、多くの貪欲な人々を引き付けます。認知知能は、業界では...

AI によるマインドリーディング: コンピューターはどのようにして脳波を復元するのか?

[[255490]]画像出典: Visual China 「私の体は潜水鐘のように重いが、私の心は...

マイクロソフトのAI研究者が、クラウドストレージリンクの設定ミスにより、大量の内部データを誤って公開した。

9月19日、サイバーセキュリティ企業の最新調査によると、マイクロソフトの人工知能研究チームがソフト...

サイバーセキュリティにおける AI と機械学習の 7 つのプラスとマイナスの影響

人工知能 (AI) と機械学習 (ML) のテクノロジーは、サイバーセキュリティを含め、今や私たちの...

最も偽のGANモデル! Facebook、史上最強の移行機能を備えたIC-GANをリリース

[[425904]] GAN モデルは優れていますが、トレーニング データに対する要件が高すぎるため...

人工知能が下水道を清掃、清掃員はようやく休憩できる

2016年以来、人工知能は研究室から出て正式に人々の生活に入りました。これは人工知能技術の発展におけ...

準備はできたか? GNN グラフ ニューラル ネットワーク 2021 年の主要なアプリケーション ホットスポット 5 つ

[[378224]]今年から始めます。グラフニューラルネットワークは研究者の間で話題になっており、こ...

...

ドローンは緊急通信の発展に役立ちますが、この3つのポイントが重要です。

近年、インターネットの急速な発展に伴い、通信ニーズが継続的に高まり始めており、通信保証能力がますます...

AIが「軍事顧問」に?まずはRedditユーザーを獲得しよう

[[322491]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

AI を活用したソーシャル メディア マーケティングの 10 大ルール

マーケティング担当者は、ブランド認知度を高め、顧客にとって適切なターゲット ユーザーを見つけるために...