ResNet仮説は覆されたか? Redditの人:長年誰もその原理を理解していなかった

ResNet仮説は覆されたか? Redditの人:長年誰もその原理を理解していなかった

  [[429626]]

2015 年に、画期的なニューラル ネットワーク モデル ResNet がリリースされました。深すぎるネットワークをトレーニングすると、勾配消失や勾配爆発が発生し、深すぎるネットワークの精度が低下します。RestNet は残差接続を使用するため、研究者は数百、数千のレイヤーを持つネットワークを簡単にトレーニングできます。

ResNet の論文で観察された劣化の問題は、トレーニング プロセス全体を通じて 34 層ネットワークのトレーニング エラーが 18 層ネットワークよりも高いが、18 層ネットワークのソリューション空間は明らかに 34 層ネットワークのサブ空間であるということです。

この問題は、RNN ネットワークで観察される勾配消失問題と同じであるというのが自然な仮定であり、これは Long-Short Term Memory Networks (LSTM) の主な改善点でもあります。

しかし、論文の著者であるKaiming氏は当時はそうは考えていなかった。彼は論文の中でこう書いている。

「これらのバニラ ニューラル ネットワークは BN を使用してトレーニングされており、前方伝播信号の分散がゼロでないことを確認することでこの問題を軽減できるため、この最適化の難しさは勾配消失によって引き起こされる可能性は低いと考えています。また、バックプロパゲーションの勾配も検証しましたが、結果は BN を示す結果も正常であることを示しています。したがって、前方信号も後方信号も消えません。34 層のバニラ ネットワークが依然として競争力のある精度を達成できるという事実は、このソリューションがある程度有効であることを示しています。バニラ ニューラル ネットワークの収束速度は指数関数的に遅く、トレーニング エラーの削減に影響している可能性があると推測しています。この最適化の難しさの原因は、今後調査される予定です。」

この議論はネットユーザーから「ResNet仮説」とも呼ばれており、ResNet仮説の正しさは最近Redditで白熱した議論を引き起こしています。

質問者は、最近の多くの論文やチュートリアルでは ResNet の仮定が間違っていると想定しているようであり、論文の著者は主に「勾配伝播フローを改善する」ためにスキップ接続を追加し、この主張を裏付けるために元の ResNet 論文を引用していると主張しています。スキップ接続を追加すると勾配フローが改善されるのは当然ですが、そもそも何が劣化の原因となるのかという疑問は未だに解決されていません。

スキップ接続が勾配フローを改善することで劣化問題を解決するという考えは、ResNet 仮説と明らかに矛盾しているように思われますが、この考えはどこから来たのでしょうか? ResNet仮説は誤りであると証明されたのでしょうか?

一部のネットユーザーは、技術的な観点から完全な分析は存在しないと考えています。ResNet の動作については 3 つの競合する仮説があり、関連する論文が示されています。

1. 反復的な改良

この論文では、ResNet を分析的および実証的に研究します。研究者らは、残差接続が残差ブロックの特徴を、あるブロックから次のブロックに進むにつれて損失の負の勾配に沿って移動するように自然に促すことを示して、ResNet における反復改良の概念を形式化しました。

さらに、経験的分析により、ResNet は表現学習と反復最適化が可能であることが実証されています。通常、Resnet ブロックは最初の数層に表現学習動作を集中させる傾向があり、上位層では機能の反復的な改良を実行します。

最後に、研究者らは、残差層を共有すると表現爆発と直感に反する過剰適合につながる可能性があることを観察し、この問題を軽減するための簡単な戦略を提案しました。

2. 指数アンサンブルモデル

この研究では、残差ネットワークの新しい解釈が提案されています。このモデルは、長さの異なる多数のパスのモデルの集合として見ることができます。さらに、残差ネットワークは、トレーニング中に短いパスのみを利用することで、非常に深いネットワークを可能にするようです。この観察を裏付けるために、研究者らは残差ネットワークを明示的なパスの集合として書き換えます。

結果は、これらの経路がアンサンブルのような動作を示し、強い相互依存性がないことを示しています。また、ほとんどのパスは予想よりも短く、長いパスは勾配に寄与しないため、トレーニング中は短いパスのみが必要になります。

たとえば、110 層の残差ネットワークの勾配のほとんどは、深さが 10 ~ 34 層のパスから生成されます。この論文の結果は、非常に深いネットワークのトレーニングを可能にする Resnet の重要な機能の 1 つは、残差ネットワークが、非常に深いネットワーク内で勾配を伝達できる短いパスを導入することによって勾配消失問題を回避することであると示唆しています。

3. 勾配伝播プロセスは元の論文で述べられているように改良された。

ニューラル タンジェント カーネルについてもいくつか見たことがありますが、なぜそれが機能するのかまだ理解できていません。また、実際に腰を据えて本当の説明を考えようとした人はいないと思います。

しかし、彼は、アンサンブル論文で定義されている最大多重度を持つ、重複するスキップ接続を持つネットワークを検討することによって、アンサンブル理論をテストするというアイデアを思いつきました。多重度を一定に保ちながらスキップ接続の長さを変えることも可能ですが、これに関する実験はまだ誰も行っていません。

他に試すことができるのは、スキップ接続なしで Resnet の勾配フローを完璧にすることですが、これらのほとんどは、ユーザーが残差接続を追加すると完璧ではなくなるため、完璧な勾配伝播を実現する新しい方法を考えなければなりません。

もう一人の高く評価されているネットユーザーは、ショートカット接続により損失状況が改善され、最適化が容易になり、これを裏付ける研究結果が多数あると述べました。

「崩壊した勾配問題: ResNet が答えなら、問題は何か?」(ICML 2017) では、ResNet の方が勾配が安定していることを示しています。

ニューラル ネットの損失ランドスケープの視覚化 (NeurIPS 2018) では、ResNet の損失表面がより滑らかであることが再び示されています。

近道を使わずに効果的な表現を学習することは可能であるが、最適化はより困難になることを示す研究もあります。たとえば、「Fixup Initialization: Residual Learning without Normalization (ICLR 2019)」では、初期化を数回微調整すると、残差接続なしで ResNet をトレーニングして適切な結果を得ることができることが示されています。

RepVGG: Making VGG-style ConvNets Great Again (CVPR 2021) では、トレーニング後にショートカットを削除しても、パフォーマンスの高いネットワークを維持できることが示されています。

しかし、これは依然として ResNet の本来の考え方と一致しています。つまり、各ブロックを識別関数に初期化し、最初はパラメーターが実際には存在せず、ネットワークのトレーニングに影響を与えないように見えますが、その後、徐々にブロックの効果が有効になります。

一部のネットユーザーは、タイトルの文言は本当に不正確だと考えている。なぜなら、debunkedはResnetを直接エラーと判断することと同じだからだ。質問者も、確かにクリックベイトだが、タイトルは変えられないと述べた。

<<:  スタートアップ企業がAIと患者チップを組み合わせて医薬品開発を加速

>>:  偽3Dシーンがリアルすぎるとネット上で人気に!死角ゼロの1億画素超え、AIレンダリングの新たな高みと称賛

ブログ    
ブログ    

推薦する

SFから現実へ:人工知能の歴史と将来の可能性

人工知能は、SFで概念化されて以来、長い道のりを歩んできました。かつては想像上のものだったアイデアが...

人工知能の時代、どう生き残るのか?

[[355352]] 1 この時代、誰もがまだ新人ですが、世界が3つの部分に分かれていることはすで...

...

IoT、AI、デジタルツインをどのように統合するのか?

デジタル ツインは、物理世界とデジタル世界をつなぐため、常に興味深いものです。将来的には、すべてのも...

生成 AI が流行する中、コンプライアンス計画にはどのような変化が見られるのでしょうか?

消費者のショッピング嗜好を予測したり、軍事上の意思決定を導いたり、金融犯罪に関する独自の洞察を提供し...

とても早いですね!わずか数分で、10行未満のコードでビデオ音声をテキストに変換します。

みなさんこんにちは。私はFeng Kiteですオーディオおよびビデオ ファイル内のオーディオをテキス...

グラフを考慮した対照学習により多変量時系列分類が改善

本日は、シンガポール科学技術研究庁 (A*STAR) と南洋理工大学 (シンガポール) が AAAI...

人工知能の発展の潮流の中で、数学教育はどこに向かうべきでしょうか?

[[228737]] 「人工知能(AI)」という言葉は、誰もがよく知っていると思います。この業界で...

Baidu Brain の「EasyDL Classic Edition」はあなたを魅了しました。実際の業界アプリケーションを手に入れましたか?

既存のビジネスやソリューションをベースに、企業は AI 機能を導入することで、どのようにすれば効率性...

Pythonを使用して独自の音声認識システムをトレーニングします。この操作の波は安定しています

近年、音声認識技術は急速に発展しており、携帯電話のSiri音声インテリジェントアシスタント、Micr...

Google、開発者の効率向上を支援するAIコード支援ツール「Duet AI for Developers」をリリース

IT Homeは12月14日、GoogleがAI駆動型コード補完・生成ツール「Duet AI for...

...

世界に革命をもたらす新たなテクノロジートレンド

急速な技術進歩により、私たちの知る世界は変化し続け、変革の可能性を秘めた新たな時代が到来しています。...

ラブライブ!AI論文発表:生成モデルが楽譜を自動生成

有名アイドルプロジェクト「ラブライブ!」がAI論文を発表しました。そうです。最近、プレプリント論文プ...