ディープニューラルネットワークのトレーニングが難しいのはなぜですか?

ディープニューラルネットワークのトレーニングが難しいのはなぜですか?

あなたがエンジニアであり、コンピューターをゼロから設計する任務を負っていると想像してください。ある日、あなたはスタジオで論理回路を設計し、AND ゲートや OR ゲートなどを構築しているときに、上司が悪い知らせを持ってやって来ました。クライアントが奇妙な設計要件を追加したのです。コンピューター全体の回路は 2 層の深さだけでなければならない、というものです。

あなたはショックを受けて上司にこう言います。「この男は気が狂った!」

上司は「彼らは頭がおかしいと思うが、顧客の需要は大きく、それに応えなければならない」と語った。

実際のところ、ある意味では、彼らの顧客はそれほどクレイジーではありません。任意の数の入力に対して AND 演算を実行できる特殊な論理ゲートにアクセスできるとします。マルチ入力 NAND ゲート (複数の入力を AND 演算してから否定演算できるゲート) を使用することもできます。これらの特殊なゲートを使用すると、2 レベルの深さの回路を構築して任意の関数を計算できます。

しかし、理論的に可能であるからといって、それが良いアイデアであるとは限りません。実際には、回路設計問題(または他のほとんどのアルゴリズム問題)を解決するときは、通常、サブ問題を解決する方法を考え、それらのサブ問題に対する解決策を徐々に統合していきます。言い換えれば、最終的な解決策に到達するまでに、複数の抽象化レイヤーを経ることになります。

たとえば、2 つの数値を乗算する論理回路を設計するとします。 2 つの数値の加算を計算する既存のサブ回路に基づいて、この論理回路を作成します。 2 つの数値の合計を計算するサブ回路も、2 ビットを加算するサブ回路上に構築されます。大まかに言うと、私たちの回路は次のようになります。

最終的な回路には、少なくとも 3 層の回路要素が含まれます。実際には、サブタスクを上記よりも小さな単位に分割できるため、この回路には 3 つ以上のレベルが含まれる可能性が高くなります。しかし、それが基本的な考え方です。

したがって、深い回路により、この設計プロセスははるかに簡単になります。しかし、これはデザイン自体にはあまり役立ちません。実際、数学的な証明によれば、一部の機能では、非常に浅い回路を計算するために指数関数的な数の回路ユニットが必要になる場合があります。たとえば、1980 年代初頭の一連の有名な論文では、ビットの集合のパリティを計算するには、浅い回路上で指数関数的な数のゲートが必要であることが示されました。一方、より深い回路を使用する場合は、はるかに小さな回路を使用してパリティを計算できます。つまり、ビットのペアのパリティを計算し、その結果を使用してビットのペアのパリティを計算し、これを繰り返して合計パリティを構築します。したがって、深い回路は浅い回路よりも本質的に大きな機能を獲得します。

私たちが目にするほとんどすべてのネットワークは、入力層と出力層に加えて、1 つの隠しニューロン層のみで構成されています。

これらのシンプルなネットワークはすでに非常に便利です。前の章では、このようなネットワークを使用して、手書きの数字を最大 98% の精度で認識しました。さらに、直感的には、隠れ層が多いニューラル ネットワークの方が強力になると予想されます。

このようなネットワークは、ブール回路の場合と同様に、中間層を使用して抽象化の層を構築できます。たとえば、視覚パターン認識を行う場合、第 1 層のニューロンはエッジを認識することを学習し、第 2 層のニューロンはエッジに基づいて三角形や長方形などのより複雑な形状を認識することを学習する可能性があります。 3 番目のレイヤーでは、より複雑な形状を認識できるようになります。等々。これらの複数の抽象化レイヤーにより、ディープ ネットワークは複雑なパターン認識の問題を解決する方法を学習できるようになるようです。しかし、回路の例で見たように、深いネットワークは浅いネットワークよりも本質的に強力であるという理論的な発見があります。

<<:  MySQL などの従来のリレーショナル データベースは弱すぎます。 GPU データベースは将来のトレンドです!

>>:  APICloud CEO 劉欣: モバイルアプリケーションは人工知能の実装にとって最も直接的な媒体である

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

あなたの脳と音楽ストリーミングは直接つながっているのでしょうか?ニューラリンクの脳コンピューターインターフェースが来月発売予定

ヘッドホンは必要なく、脳コンピューターインターフェースを通じて直接音楽を聴くことができ、体内のホルモ...

武有雄が人工知能について語る

7月9日、世界人工知能会議クラウドサミットが正式に開幕しました!アマゾン ウェブ サービスは、202...

人工知能の台頭でIT業界やその他の分野は失業の波に直面するかもしれない

[[237676]]画像ソース @Visual China以前、「AI従業員の最初の一団が解雇された...

必読 | AI 変革のための開発者ガイド

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

OpenAI CEO: GPT-4 は週当たり 1 億人のアクティブ ユーザーを抱え、依然として世界で最も強力な AI モデルです

米国現地時間11月7日月曜日に開催された第1回OpenAI開発者会議で、同社CEOのサム・アルトマン...

人工知能は人間の精神的健康を評価できる

学際的な共同プロジェクトによる研究によると、人工知能は専門家の評価を必要とせずに、アンケートや脳スキ...

低速自動運転と高速自動運転に関する議論

前回の記事「自動運転車に「道路を認識」させる方法」では、主に自動運転車における高精度地図の重要性につ...

DNS 負荷分散ランキングアルゴリズムの理解

先ほど、DNS 負荷分散の概念をいくつか紹介しました。次に、この負荷分散テクノロジに関連するアルゴリ...

協働ロボットは従来のロボットとどう違うのでしょうか?

協働ロボットは従来のロボットとどう違うのでしょうか? [[418520]]本質的には、協働ロボットと...

統計と機械学習の違いは何ですか?

[[263249]]ビッグデータダイジェスト制作出典: medium編纂者:周嘉楽、郭小白、蒋宝尚...

人工知能における計算能力、アルゴリズム、データに関する簡単な説明

ラボガイド科学技術の急速な発展により、人工知能(AI)は今日最もホットな話題の1つになりました。人工...

...

簡単なアルゴリズムからアセンブリ言語の予備的研究

コンパイルを無視しないでくださいC、C++、Javaなど、日常生活で慣れ親しんでいる高級言語と比較す...

アルコールで動く88mgのマイクロロボットは2時間連続稼働可能

マイクロロボットは極めて狭い空間でも移動できますが、これは人間や従来のロボットでは不可能なことです。...