深度はディープニューラルネットワークに具体的に何をもたらすのでしょうか?

深度はディープニューラルネットワークに具体的に何をもたらすのでしょうか?

[[186161]]

起源

近年、人工知能は爆発的な成長を遂げており、ディープラーニングはその主な原動力であると言えます。 Microsoft Research は常にこの分野をリードしており、その優れた人材と強力なコンピューティング リソースはこの分野の研究に非常に適しているため、Microsoft でインターンシップを行い、ディープラーニングの研究を行うことができることを非常に光栄に思います。

コンピューター ビジョンの分野では、ほとんどの問題がディープ ニューラル ネットワークを使用して解決され始めており、実際に幅広い成功を収めています。画像認識、セマンティックセグメンテーション、ターゲット検出と追跡、画像検索などの多くの視覚タスクでは、CNN ネットワーク モデルが特徴抽出モデルとして重要な役割を果たすことがよくあります。多くの場合、最善の方法は基本ネットワークを交換することであり、パフォーマンスが大幅に向上します。したがって、より優れたネットワーク モデルを研究し、設計することが重要になります。

基本ネットワークモデルの構造の例

***研究の進捗

古典的なニューラル ネットワーク モデルは、主に「幅」と「深さ」の点でさまざまな程度に拡張されます。大規模データトレーニングの助けを借りて、AlexNet、VGG-16、VGG-19 などの従来のネットワークは、幅や深さのパラメータを増やすことでモデルの表現力を効果的に向上させることができます。しかし、ネットワークが深くなるにつれて、トレーニングの難易度もそれに応じて増加し、パフォーマンスの低下につながります。 ResNet や Highway Networks などの最近の手法では、Skip 構造を導入することで、非常に深いネットワークによって生じる最適化の問題を解決しようとしています。

ResNet と Highway Networks の構造の簡単な図

いくつかの研究では、Highway、ResNet、GoogLeNet などのネットワーク構造の優れたパフォーマンスを他の観点から説明しようと試みています。その中で、マイクロソフトでのインターンシップの時の指導者である研究員 Jingdong Wang、インターンの Wei Zhen と Zhang Ting、研究員 Wenjun Zeng が、Deep Fusion の概念を提唱しました (Jingdong Wang、Zhen Wei、Ting Zhang、Wenjun Zeng: Deeply-Fused Nets. CoRR abs/1605.07716 (2016))。彼らは、中間層で異なるブランチを持つネットワークを融合 (追加やスプライシングなど) すると、(1) 潜在的な共有パラメータを持つ基本ネットワークを多数生成できる、(2) 同時に情報の流れを最適化できる、(3) ディープ ネットワークのトレーニング プロセスを支援できる、と考えています。

最もシンプルな形のDeep Fusionの概念図

多くの代表的なネットワーク構造は、基本的にディープフュージョンの概念に従って理解できることがわかります。 LeNet、AlexNet、VGGNet などのシングルブランチ ネットワークに加えて、過去 2 年間に提案された ResNet、Highway Networks、GoogLeNet シリーズなどのネットワークはすべて、程度の差はあれディープ フュージョン ネットワークと見なすことができます。このコンセプトのもと、今年の新しいInception-v4、FractalNet、DenseNet、ResNeXt、そして私たちが新たに提案したMerge-and-Runネットワーク構造は、融合方法においてより多くの設計と探究を行い、結果として融合回数と中間の分岐が増え、それによってより多くの基本ネットワークとより優れた情報フローが得られ、最終的により優れたパフォーマンスが達成されることが分かりました。

最近のディープニューラルネットワークモデルの基本構造の概略図

コーネル大学のセルジュ・ベロンジーのチームも同様の観察と発見を行いました。彼らは、ResNet は実際には多くの比較的浅い潜在的ネットワークの統合であると説明しました。モデルのテスト段階では、ネットワークからいくつかのモジュールを削除した後でも、残りのネットワーク モデルのパフォーマンスが依然として良好であることがわかりました。

ResNetからいくつかのモジュールを削除する実験的なデモンストレーション

最近提案されたいくつかの新しいディープ ニューラル ネットワーク手法も、この研究を間接的に裏付けています。たとえば、ResNet with Stochastic Depth、FractalNet、Swapout などの Drop-path 手法は、残差モジュールの削除に関する上記の研究と同じ効果があります。 ResNet、ResNeXt、Multi-Residual Networks、DenseNetなど、ブランチやパスの数を増やす手法はいずれもパフォーマンスの向上を実現しており、基本ネットワークの数を増やすことがネットワークモデル全体に​​与える影響をある程度検証しています。

私たちの仕事

ディープフュージョンのアイデアに従って、ResNet、Highway、Inceptionに似た構造を持つディープフュージョンネットワークをさらに研究し、「深さ」がニューラルネットワークに何をもたらすかを探りました。研究観察と分析に基づいて、さまざまなデータ セットで優れたパフォーマンスを実現する新しいネットワーク モデルを提案しました。

Liming Zhao、Jingdong Wang、Xi Li、Zhuowen Tu、Wenjun Zeng。「ディープフュージョンとアンサンブルのつながりについて」arXiv プレプリント arXiv:1611.07718 (2016)。

1. ディープフュージョンネットワークの分析

まず、ネットワーク構造と実験分析の観点から、このマルチブランチ融合ネットワークと複数の潜在的ネットワークの統合との関係を示します。

マルチブランチ融合ネットワークの構造は、統合ネットワークの構造に似ています。

上図から、多分岐融合ネットワーク形式は、多くの潜在的ネットワークの統合プロセスを近似できることがわかります。違いは、中間情報の相互作用はありませんが、対応する層のネットワークパラメータを共有することです。深さの異なる 10 グループのネットワーク構造に関する実験を通じて、共有パラメータを持つこのような統合ネットワークのパフォーマンスは、情報相互作用を持つディープ フュージョン ネットワークのパフォーマンスと非常に似ていることがわかりました。

ディープフュージョンネットワークはアンサンブルネットワークと同様に動作する

2. 深さはネットワークにより多くのコンポーネントをもたらす

次のステップでは、統合学習のいくつかのアイデアを使用して、このタイプのディープフュージョンネットワークを分析することができます。最初のステップは、基本ネットワークの潜在的な数を調べることです。上の図で 3 回融合されたネットワークは、8 つの基本ネットワーク、つまり 2^3 を組み合わせることができることは明らかです。すると、融合の数を増やすと、基本ネットワークの組み合わせの数が増えることがわかります。 ResNet、Highway、Inception などのネットワークの場合、「深さ」を増やすことによる効果の 1 つは、潜在的な基本ネットワークの組み合わせの数 (アンサンブル サイズ) が増加することです。

融合時間が異なると、結合されたネットワーク(パス)の数が異なります。

また、異なる深さのネットワーク構造での実験を通じて、従来のアンサンブル理論でアンサンブルサイズを増やすのと同じように、組み合わせの数を増やすと全体的なパフォーマンスが向上することも確認しました。

より多くのネットワークを組み合わせることで、より良い結果が得られます

また、異なる深さのネットワーク構造での実験を通じて、結合ネットワークの数を増やすと全体的なパフォーマンスが向上することも検証しました。これは、アンサンブル サイズを増やすとパフォーマンスが向上するという従来のアンサンブル理論の結論と一致しています。 ResNet は深さを増やすにつれて組み合わせの数が大幅に増加していることがわかります。これが、優れたパフォーマンスの理由の 1 つです。

3. 深さは全体的なパフォーマンスに影響する

それぞれの基本的な組み合わせネットワークを研究し、ディープフュージョンプロセス中にそれらが互いにどのように影響するかを調べます。各ネットワークを個別にトレーニングして得られたモデルを比較すると、ディープフュージョンネットワーク内のより深い結合ネットワークのパフォーマンスは向上しましたが、より浅い結合ネットワークのパフォーマンスは低下していることがわかりました。トレーニング中は、浅いネットワークの方が収束しやすいため、より深いネットワークの最適化に役立つのではないかと仮説を立てています。しかし、ディープフュージョンネットワークのさまざまな潜在的なコンポーネントネットワークはパラメータを共有しており、非常に深いネットワークは、より浅いネットワークのソリューション空間と難易度に影響を与える可能性があり、その結果、ネットワークのパフォーマンスが互いに影響し合い、中間に向かって移動する現象が発生します。

各コンポーネントのネットワーク動作の分析

最終的なパフォーマンスは統合された近似値であると考えているため、全体的なパフォーマンスを向上させるために、より優れた組み合わせネットワークを探し始めることはできますか? 上記の組み合わせネットワーク間の相互影響から、非常に深いネットワークは「ドラッグ」効果を持ち、より深いが特に深くはない「中間」ネットワークは結果に大きな影響を与えると考えています。上図の実験結果も私たちの考えを検証しています。(a) は共有パラメータによる各コンポーネント ネットワークのパフォーマンスの変化を示し、(b) は各コンポーネント ネットワークの全体ネットワーク (アンサンブル) に対する相対的な貢献を示しています。

より深いネットワークをトレーニングするには、依然として浅いネットワークが必要であり、実際にニューラル ネットワークを設計するときに、中程度の深さのネットワーク構造のみを保持することは困難です。妥協案としては、最も深いコンポーネント ネットワークを削除し、それが結果にどのような影響を与えるかを確認することです。

最も深いコンポーネント ネットワークを削除します (再トレーニングするか、テスト時に削除するだけです)

上図の 3 つの方法の実験結果は、非常に深いコンポーネント ネットワークを削除しても全体的なパフォーマンスに大きな影響はなく、場合によっては最終結果が改善されることを示しています。

非常に深いコンポーネントネットワークを削除しても大きな影響はなく、ほとんどの場合パフォーマンスが向上します。

4番目に、新しい方法を提案する

上記の観察に基づいて、優れたネットワーク構造には、十分な数の潜在的なネットワークと十分に優れた構成ネットワークという 2 つの特性が含まれている必要があると考えます。最も単純な戦略は、「ドラッグ」の極端に深いネットワークを削除し、「中間」の深いコンポーネント ネットワークに変換することです。私たちが提案したアプローチは次のとおりです。

ResNetの形式に基づいて、新しいネットワーク構造(b)と(c)を提案する。

ResNet 形式に基づいて、私たちが提案した Inception-Like 構造と Merge-and-Run 構造はどちらも極端に深い線を取り除きますが、Inception-Like の組み合わせの数は、同じパラメータを持つ ResNet よりも少なくなります。したがって、Merge-and-Run 形式の方が私たちの分析と観察に一致していると考えています。最終的な実験結果は確かにこの考えを検証し、上記の実験観察と一致していました。Inception-Like は極端に深いネットワークの影響を受けず、トレーニングや収束が容易で、ResNet よりもわずかに優れており、これは上記の Ensemble-7 と Ensemble-8 の実験結果と同様です。 Merge-and-Run 構造には Inception-Like よりも多くの潜在的なネットワークがあり、最終結果も Inception-Like よりも優れています。

異なるデータセットでの ResNet、Inception-Like、Merge-and-Run の比較

ImageNet の結果は、以前の議論を裏付けるものでもあります (私たちの方法は DFN-MR で表されます)。

ImageNetデータセットにおける提案DFN-MRとResNetの比較

V. 結論

現在、研究のホットスポットとなっているのは、ディープ ニューラル ネットワークに新しい次元、つまり潜在的な構成ネットワークの数 (アンサンブル サイズ) を導入することです。 ResNet、Highway、Inception などのネットワークでは「深さ」が増しますが、実際にはネットワークの数も増えることがわかります。さらに、私たちの研究では、潜在的なネットワークの数が増えるだけでなく、非常に深いネットワークが全体的なパフォーマンスに与える寄与は絶対的ではないことがわかりました。代わりに、ネットワークの他のコンポーネントに影響を与え、最終結果に影響を及ぼします。私たちは、「構成ネットワークの数を減らさない」と「極端に深い構成ネットワークを避ける」という 2 つの原則に基づいて新しいネットワーク構造を設計し、さまざまなデータ セットで常に優れたパフォーマンスを発揮することを発見しました。以降の作業では、現在の分析内容に焦点を当て、提案された設計指標と原則を最適化し、トレーニングが容易でパフォーマンスの優れたネットワーク モデルを取得できます。

<<:  AIのブラックボックス問題をどう解決するか?ニューラルネットワークモデルアルゴリズムが答えを導きます

>>:  人工知能は「新たな生産要素」である

ブログ    
ブログ    

推薦する

医療機器製造における3つの大きなトレンド

医療製造にロボット工学と自動化を導入したダヴィンチ ロボット手術システムが発売されてから 20 年が...

ゲームAIの課題が進み、リアルタイム戦略ゲームや不完全情報ゲームがホットスポットに

前回の 2 つの記事では、ゲーム AI の歴史におけるいくつかの古典的なアルゴリズムと画期的なイベン...

何か効率的な「錬金術」アーティファクトをお勧めいただけますか? Fudan fastNLPチームが内部パラメータ調整ツールfitlogをリリース

このパラメータ調整ツールは、実験結果の表形式表示、カスタムメモ、フロントエンド操作の記録の削除/非表...

私たちは人工知能の第4世代に突入しているのでしょうか?

人工知能はあらゆる社会的立場を変えるイノベーションです。これは、データを統合し、情報を分析し、その後...

「AI as a Service」は、業界における人工知能の応用シナリオです。

「AI as a Service」は、多次元統合と3次元浸透を備えたプラットフォームです。人工知能...

...

...

劉烈宏:中国の中核人工知能産業の規模は今年上半期に770億元に達した

[[354052]] 11月24日、工業情報化部の劉烈宏副部長は人工知能サブフォーラム「人工知能:新...

2021年、多くのAI企業が株式公開に向けて競争を始めました。どの企業がより有望だと思いますか?

[[382172]]人工知能企業が株式を公開すると、株主は成長の配当を分け合えるようになるのでしょ...

Google検索は非常に勤勉で、そのコアアルゴリズムは毎日変化しています

Googleの検索事業責任者アミット・シンガル氏は最近、Google+に記事を掲載し、過去1年だけで...

視覚的な「脳の読み取り」:脳の活動から見える世界を再構築する

人間の知覚は客観的な刺激だけでなく過去の経験によっても形成され、それらが組み合わさって脳内で複雑な活...

次世代の AI 人材をどう育成するか?

AI 人材とプロジェクト パイプラインを構築するには、教育的価値だけでなく技術的価値も必要です。そ...

AIと自動化がプロセスマイニングを改善する6つの方法

企業のデジタル ツインを作成し、ロボティック プロセス オートメーション (RPA) などの自動化テ...

Huggingfaceによる大規模モデル進化ガイド:GPT-4を完全に再現する必要はない

ビッグデータダイジェスト制作ChatGPTが人気を博した後、AIコミュニティは「百式戦争」を開始しま...