深度はディープニューラルネットワークに具体的に何をもたらすのでしょうか?

[[186161]]

起源

近年、人工知能は爆発的な成長を遂げており、ディープラーニングはその主な原動力であると言えます。 Microsoft Research は常にこの分野をリードしており、その優れた人材と強力なコンピューティングリソースはこの分野の研究に非常に適しているため、Microsoft でインターンシップを行い、ディープラーニングの研究を行うことができることを非常に光栄に思います。

コンピュータービジョンの分野では、ほとんどの問題がディープニューラルネットワークを使用して解決され始めており、実際に幅広い成功を収めています。画像認識、セマンティックセグメンテーション、ターゲット検出と追跡、画像検索などの多くの視覚タスクでは、CNN ネットワークモデルが特徴抽出モデルとして重要な役割を果たすことがよくあります。多くの場合、最善の方法は基本ネットワークを交換することであり、パフォーマンスが大幅に向上します。したがって、より優れたネットワークモデルを研究し、設計することが重要になります。

基本ネットワークモデルの構造の例

***研究の進捗

古典的なニューラルネットワークモデルは、主に「幅」と「深さ」の点でさまざまな程度に拡張されます。大規模データトレーニングの助けを借りて、AlexNet、VGG-16、VGG-19 などの従来のネットワークは、幅や深さのパラメータを増やすことでモデルの表現力を効果的に向上させることができます。しかし、ネットワークが深くなるにつれて、トレーニングの難易度もそれに応じて増加し、パフォーマンスの低下につながります。 ResNet や Highway Networks などの最近の手法では、Skip 構造を導入することで、非常に深いネットワークによって生じる最適化の問題を解決しようとしています。

ResNet と Highway Networks の構造の簡単な図

いくつかの研究では、Highway、ResNet、GoogLeNet などのネットワーク構造の優れたパフォーマンスを他の観点から説明しようと試みています。その中で、マイクロソフトでのインターンシップの時の指導者である研究員 Jingdong Wang、インターンの Wei Zhen と Zhang Ting、研究員 Wenjun Zeng が、Deep Fusion の概念を提唱しました (Jingdong Wang、Zhen Wei、Ting Zhang、Wenjun Zeng: Deeply-Fused Nets. CoRR abs/1605.07716 (2016))。彼らは、中間層で異なるブランチを持つネットワークを融合 (追加やスプライシングなど) すると、(1) 潜在的な共有パラメータを持つ基本ネットワークを多数生成できる、(2) 同時に情報の流れを最適化できる、(3) ディープネットワークのトレーニングプロセスを支援できる、と考えています。

最もシンプルな形のDeep Fusionの概念図

多くの代表的なネットワーク構造は、基本的にディープフュージョンの概念に従って理解できることがわかります。 LeNet、AlexNet、VGGNet などのシングルブランチネットワークに加えて、過去 2 年間に提案された ResNet、Highway Networks、GoogLeNet シリーズなどのネットワークはすべて、程度の差はあれディープフュージョンネットワークと見なすことができます。このコンセプトのもと、今年の新しいInception-v4、FractalNet、DenseNet、ResNeXt、そして私たちが新たに提案したMerge-and-Runネットワーク構造は、融合方法においてより多くの設計と探究を行い、結果として融合回数と中間の分岐が増え、それによってより多くの基本ネットワークとより優れた情報フローが得られ、最終的により優れたパフォーマンスが達成されることが分かりました。

最近のディープニューラルネットワークモデルの基本構造の概略図

コーネル大学のセルジュ・ベロンジーのチームも同様の観察と発見を行いました。彼らは、ResNet は実際には多くの比較的浅い潜在的ネットワークの統合であると説明しました。モデルのテスト段階では、ネットワークからいくつかのモジュールを削除した後でも、残りのネットワークモデルのパフォーマンスが依然として良好であることがわかりました。

ResNetからいくつかのモジュールを削除する実験的なデモンストレーション

最近提案されたいくつかの新しいディープニューラルネットワーク手法も、この研究を間接的に裏付けています。たとえば、ResNet with Stochastic Depth、FractalNet、Swapout などの Drop-path 手法は、残差モジュールの削除に関する上記の研究と同じ効果があります。 ResNet、ResNeXt、Multi-Residual Networks、DenseNetなど、ブランチやパスの数を増やす手法はいずれもパフォーマンスの向上を実現しており、基本ネットワークの数を増やすことがネットワークモデル全体に与える影響をある程度検証しています。

私たちの仕事

ディープフュージョンのアイデアに従って、ResNet、Highway、Inceptionに似た構造を持つディープフュージョンネットワークをさらに研究し、「深さ」がニューラルネットワークに何をもたらすかを探りました。研究観察と分析に基づいて、さまざまなデータセットで優れたパフォーマンスを実現する新しいネットワークモデルを提案しました。

Liming Zhao、Jingdong Wang、Xi Li、Zhuowen Tu、Wenjun Zeng。「ディープフュージョンとアンサンブルのつながりについて」arXiv プレプリント arXiv:1611.07718 (2016)。

1. ディープフュージョンネットワークの分析

まず、ネットワーク構造と実験分析の観点から、このマルチブランチ融合ネットワークと複数の潜在的ネットワークの統合との関係を示します。

マルチブランチ融合ネットワークの構造は、統合ネットワークの構造に似ています。

上図から、多分岐融合ネットワーク形式は、多くの潜在的ネットワークの統合プロセスを近似できることがわかります。違いは、中間情報の相互作用はありませんが、対応する層のネットワークパラメータを共有することです。深さの異なる 10 グループのネットワーク構造に関する実験を通じて、共有パラメータを持つこのような統合ネットワークのパフォーマンスは、情報相互作用を持つディープフュージョンネットワークのパフォーマンスと非常に似ていることがわかりました。

ディープフュージョンネットワークはアンサンブルネットワークと同様に動作する

2. 深さはネットワークにより多くのコンポーネントをもたらす

次のステップでは、統合学習のいくつかのアイデアを使用して、このタイプのディープフュージョンネットワークを分析することができます。最初のステップは、基本ネットワークの潜在的な数を調べることです。上の図で 3 回融合されたネットワークは、8 つの基本ネットワーク、つまり 2^3 を組み合わせることができることは明らかです。すると、融合の数を増やすと、基本ネットワークの組み合わせの数が増えることがわかります。 ResNet、Highway、Inception などのネットワークの場合、「深さ」を増やすことによる効果の 1 つは、潜在的な基本ネットワークの組み合わせの数 (アンサンブルサイズ) が増加することです。

融合時間が異なると、結合されたネットワーク（パス）の数が異なります。

また、異なる深さのネットワーク構造での実験を通じて、従来のアンサンブル理論でアンサンブルサイズを増やすのと同じように、組み合わせの数を増やすと全体的なパフォーマンスが向上することも確認しました。

より多くのネットワークを組み合わせることで、より良い結果が得られます

また、異なる深さのネットワーク構造での実験を通じて、結合ネットワークの数を増やすと全体的なパフォーマンスが向上することも検証しました。これは、アンサンブルサイズを増やすとパフォーマンスが向上するという従来のアンサンブル理論の結論と一致しています。 ResNet は深さを増やすにつれて組み合わせの数が大幅に増加していることがわかります。これが、優れたパフォーマンスの理由の 1 つです。

3. 深さは全体的なパフォーマンスに影響する

それぞれの基本的な組み合わせネットワークを研究し、ディープフュージョンプロセス中にそれらが互いにどのように影響するかを調べます。各ネットワークを個別にトレーニングして得られたモデルを比較すると、ディープフュージョンネットワーク内のより深い結合ネットワークのパフォーマンスは向上しましたが、より浅い結合ネットワークのパフォーマンスは低下していることがわかりました。トレーニング中は、浅いネットワークの方が収束しやすいため、より深いネットワークの最適化に役立つのではないかと仮説を立てています。しかし、ディープフュージョンネットワークのさまざまな潜在的なコンポーネントネットワークはパラメータを共有しており、非常に深いネットワークは、より浅いネットワークのソリューション空間と難易度に影響を与える可能性があり、その結果、ネットワークのパフォーマンスが互いに影響し合い、中間に向かって移動する現象が発生します。

各コンポーネントのネットワーク動作の分析

最終的なパフォーマンスは統合された近似値であると考えているため、全体的なパフォーマンスを向上させるために、より優れた組み合わせネットワークを探し始めることはできますか? 上記の組み合わせネットワーク間の相互影響から、非常に深いネットワークは「ドラッグ」効果を持ち、より深いが特に深くはない「中間」ネットワークは結果に大きな影響を与えると考えています。上図の実験結果も私たちの考えを検証しています。(a) は共有パラメータによる各コンポーネントネットワークのパフォーマンスの変化を示し、(b) は各コンポーネントネットワークの全体ネットワーク (アンサンブル) に対する相対的な貢献を示しています。

より深いネットワークをトレーニングするには、依然として浅いネットワークが必要であり、実際にニューラルネットワークを設計するときに、中程度の深さのネットワーク構造のみを保持することは困難です。妥協案としては、最も深いコンポーネントネットワークを削除し、それが結果にどのような影響を与えるかを確認することです。

最も深いコンポーネントネットワークを削除します (再トレーニングするか、テスト時に削除するだけです)

上図の 3 つの方法の実験結果は、非常に深いコンポーネントネットワークを削除しても全体的なパフォーマンスに大きな影響はなく、場合によっては最終結果が改善されることを示しています。

非常に深いコンポーネントネットワークを削除しても大きな影響はなく、ほとんどの場合パフォーマンスが向上します。

4番目に、新しい方法を提案する

上記の観察に基づいて、優れたネットワーク構造には、十分な数の潜在的なネットワークと十分に優れた構成ネットワークという 2 つの特性が含まれている必要があると考えます。最も単純な戦略は、「ドラッグ」の極端に深いネットワークを削除し、「中間」の深いコンポーネントネットワークに変換することです。私たちが提案したアプローチは次のとおりです。

ResNetの形式に基づいて、新しいネットワーク構造(b)と(c)を提案する。

ResNet 形式に基づいて、私たちが提案した Inception-Like 構造と Merge-and-Run 構造はどちらも極端に深い線を取り除きますが、Inception-Like の組み合わせの数は、同じパラメータを持つ ResNet よりも少なくなります。したがって、Merge-and-Run 形式の方が私たちの分析と観察に一致していると考えています。最終的な実験結果は確かにこの考えを検証し、上記の実験観察と一致していました。Inception-Like は極端に深いネットワークの影響を受けず、トレーニングや収束が容易で、ResNet よりもわずかに優れており、これは上記の Ensemble-7 と Ensemble-8 の実験結果と同様です。 Merge-and-Run 構造には Inception-Like よりも多くの潜在的なネットワークがあり、最終結果も Inception-Like よりも優れています。

異なるデータセットでの ResNet、Inception-Like、Merge-and-Run の比較

ImageNet の結果は、以前の議論を裏付けるものでもあります (私たちの方法は DFN-MR で表されます)。

ImageNetデータセットにおける提案DFN-MRとResNetの比較

V. 結論

現在、研究のホットスポットとなっているのは、ディープニューラルネットワークに新しい次元、つまり潜在的な構成ネットワークの数 (アンサンブルサイズ) を導入することです。 ResNet、Highway、Inception などのネットワークでは「深さ」が増しますが、実際にはネットワークの数も増えることがわかります。さらに、私たちの研究では、潜在的なネットワークの数が増えるだけでなく、非常に深いネットワークが全体的なパフォーマンスに与える寄与は絶対的ではないことがわかりました。代わりに、ネットワークの他のコンポーネントに影響を与え、最終結果に影響を及ぼします。私たちは、「構成ネットワークの数を減らさない」と「極端に深い構成ネットワークを避ける」という 2 つの原則に基づいて新しいネットワーク構造を設計し、さまざまなデータセットで常に優れたパフォーマンスを発揮することを発見しました。以降の作業では、現在の分析内容に焦点を当て、提案された設計指標と原則を最適化し、トレーニングが容易でパフォーマンスの優れたネットワークモデルを取得できます。

<<: AIのブラックボックス問題をどう解決するか？ニューラルネットワークモデルアルゴリズムが答えを導きます

>>: 人工知能は「新たな生産要素」である

室温超伝導を再現できない？北京航空航天大学は超伝導磁気浮上を発見できなかった論文を2本続けて発表したが、米国国立研究所の計算により理論的には存在することが確認された。

深度はディープニューラルネットワークに具体的に何をもたらすのでしょうか?

室温超伝導を再現できない？北京航空航天大学は超伝導磁気浮上を発見できなかった論文を2本続けて発表したが、米国国立研究所の計算により理論的には存在することが確認された。

自動化が医療にもたらす革命

自動運転のためのマルチモーダルセンサーフュージョンの簡単な分析

JDロジスティクスは知能を高めつつ、宅配業者から仕事を奪っている

インテリジェントな排便・排尿ケアロボットが4400万人の障害を持つ高齢者の介護問題を解決

デジタルテクノロジーは小売業界をどのように変えているのでしょうか?

究極の「公開」: GPT-4 モデルのアーキテクチャ、トレーニングコスト、データセット情報がすべて公開されます

ベルギー国会議員は、携帯電話を使用しているとAIによって公に名指しされたため、議会で「気を散らされる」ことはできなくなった。

推薦する

51CTO副社長ヤン・ウェンフェイ氏：ChatGPTは非常に人気があり、将来的にはさらに強力なアプリケーションが登場するでしょう。

TCP/IPトランスポート層におけるTCP BBRアルゴリズムについての簡単な説明

第 4 次小売革命を経て、WOT の 3 人の専門家が真のスマート小売とは何かを語ります。

実践 | 人工知能が小売体験を向上させる 20 の例

金融業界は AI を活用してデータを強化する準備ができているでしょうか?

ベイズの定理から確率分布へ:確率論の基本定義の復習

人材獲得におけるAIの台頭

人工知能は飛躍の準備ができており、セキュリティは機会と課題に直面している

国連は、国際社会がガバナンスを強化するための支援を提供するためにAI諮問機関を設立した。

機械学習サーバーの利用率とスケーラビリティを最大化するにはどうすればよいでしょうか?