ResNet仮説は覆されたか？ Redditの人：長年誰もその原理を理解していなかった

[[429626]]

2015 年に、画期的なニューラルネットワークモデル ResNet がリリースされました。深すぎるネットワークをトレーニングすると、勾配消失や勾配爆発が発生し、深すぎるネットワークの精度が低下します。RestNet は残差接続を使用するため、研究者は数百、数千のレイヤーを持つネットワークを簡単にトレーニングできます。

ResNet の論文で観察された劣化の問題は、トレーニングプロセス全体を通じて 34 層ネットワークのトレーニングエラーが 18 層ネットワークよりも高いが、18 層ネットワークのソリューション空間は明らかに 34 層ネットワークのサブ空間であるということです。

この問題は、RNN ネットワークで観察される勾配消失問題と同じであるというのが自然な仮定であり、これは Long-Short Term Memory Networks (LSTM) の主な改善点でもあります。

しかし、論文の著者であるKaiming氏は当時はそうは考えていなかった。彼は論文の中でこう書いている。

「これらのバニラニューラルネットワークは BN を使用してトレーニングされており、前方伝播信号の分散がゼロでないことを確認することでこの問題を軽減できるため、この最適化の難しさは勾配消失によって引き起こされる可能性は低いと考えています。また、バックプロパゲーションの勾配も検証しましたが、結果は BN を示す結果も正常であることを示しています。したがって、前方信号も後方信号も消えません。34 層のバニラネットワークが依然として競争力のある精度を達成できるという事実は、このソリューションがある程度有効であることを示しています。バニラニューラルネットワークの収束速度は指数関数的に遅く、トレーニングエラーの削減に影響している可能性があると推測しています。この最適化の難しさの原因は、今後調査される予定です。」

この議論はネットユーザーから「ResNet仮説」とも呼ばれており、ResNet仮説の正しさは最近Redditで白熱した議論を引き起こしています。

質問者は、最近の多くの論文やチュートリアルでは ResNet の仮定が間違っていると想定しているようであり、論文の著者は主に「勾配伝播フローを改善する」ためにスキップ接続を追加し、この主張を裏付けるために元の ResNet 論文を引用していると主張しています。スキップ接続を追加すると勾配フローが改善されるのは当然ですが、そもそも何が劣化の原因となるのかという疑問は未だに解決されていません。

スキップ接続が勾配フローを改善することで劣化問題を解決するという考えは、ResNet 仮説と明らかに矛盾しているように思われますが、この考えはどこから来たのでしょうか? ResNet仮説は誤りであると証明されたのでしょうか?

一部のネットユーザーは、技術的な観点から完全な分析は存在しないと考えています。ResNet の動作については 3 つの競合する仮説があり、関連する論文が示されています。

1. 反復的な改良

この論文では、ResNet を分析的および実証的に研究します。研究者らは、残差接続が残差ブロックの特徴を、あるブロックから次のブロックに進むにつれて損失の負の勾配に沿って移動するように自然に促すことを示して、ResNet における反復改良の概念を形式化しました。

さらに、経験的分析により、ResNet は表現学習と反復最適化が可能であることが実証されています。通常、Resnet ブロックは最初の数層に表現学習動作を集中させる傾向があり、上位層では機能の反復的な改良を実行します。

最後に、研究者らは、残差層を共有すると表現爆発と直感に反する過剰適合につながる可能性があることを観察し、この問題を軽減するための簡単な戦略を提案しました。

2. 指数アンサンブルモデル

この研究では、残差ネットワークの新しい解釈が提案されています。このモデルは、長さの異なる多数のパスのモデルの集合として見ることができます。さらに、残差ネットワークは、トレーニング中に短いパスのみを利用することで、非常に深いネットワークを可能にするようです。この観察を裏付けるために、研究者らは残差ネットワークを明示的なパスの集合として書き換えます。

結果は、これらの経路がアンサンブルのような動作を示し、強い相互依存性がないことを示しています。また、ほとんどのパスは予想よりも短く、長いパスは勾配に寄与しないため、トレーニング中は短いパスのみが必要になります。

たとえば、110 層の残差ネットワークの勾配のほとんどは、深さが 10 ～ 34 層のパスから生成されます。この論文の結果は、非常に深いネットワークのトレーニングを可能にする Resnet の重要な機能の 1 つは、残差ネットワークが、非常に深いネットワーク内で勾配を伝達できる短いパスを導入することによって勾配消失問題を回避することであると示唆しています。

3. 勾配伝播プロセスは元の論文で述べられているように改良された。

ニューラルタンジェントカーネルについてもいくつか見たことがありますが、なぜそれが機能するのかまだ理解できていません。また、実際に腰を据えて本当の説明を考えようとした人はいないと思います。

しかし、彼は、アンサンブル論文で定義されている最大多重度を持つ、重複するスキップ接続を持つネットワークを検討することによって、アンサンブル理論をテストするというアイデアを思いつきました。多重度を一定に保ちながらスキップ接続の長さを変えることも可能ですが、これに関する実験はまだ誰も行っていません。

他に試すことができるのは、スキップ接続なしで Resnet の勾配フローを完璧にすることですが、これらのほとんどは、ユーザーが残差接続を追加すると完璧ではなくなるため、完璧な勾配伝播を実現する新しい方法を考えなければなりません。

もう一人の高く評価されているネットユーザーは、ショートカット接続により損失状況が改善され、最適化が容易になり、これを裏付ける研究結果が多数あると述べました。

「崩壊した勾配問題: ResNet が答えなら、問題は何か?」(ICML 2017) では、ResNet の方が勾配が安定していることを示しています。

ニューラルネットの損失ランドスケープの視覚化 (NeurIPS 2018) では、ResNet の損失表面がより滑らかであることが再び示されています。

近道を使わずに効果的な表現を学習することは可能であるが、最適化はより困難になることを示す研究もあります。たとえば、「Fixup Initialization: Residual Learning without Normalization (ICLR 2019)」では、初期化を数回微調整すると、残差接続なしで ResNet をトレーニングして適切な結果を得ることができることが示されています。

RepVGG: Making VGG-style ConvNets Great Again (CVPR 2021) では、トレーニング後にショートカットを削除しても、パフォーマンスの高いネットワークを維持できることが示されています。

しかし、これは依然として ResNet の本来の考え方と一致しています。つまり、各ブロックを識別関数に初期化し、最初はパラメーターが実際には存在せず、ネットワークのトレーニングに影響を与えないように見えますが、その後、徐々にブロックの効果が有効になります。

一部のネットユーザーは、タイトルの文言は本当に不正確だと考えている。なぜなら、debunkedはResnetを直接エラーと判断することと同じだからだ。質問者も、確かにクリックベイトだが、タイトルは変えられないと述べた。

<<: スタートアップ企業がAIと患者チップを組み合わせて医薬品開発を加速

>>: 偽3Dシーンがリアルすぎるとネット上で人気に！死角ゼロの1億画素超え、AIレンダリングの新たな高みと称賛

ブログ

DeepMindがAIツールGNoMEをリリース、220万個の新しい結晶材料を発見したと主張

ブログ

新しい人工ニューロンデバイスは、非常に少ないエネルギーでニューラルネットワークの計算を実行できる

ResNet仮説は覆されたか？ Redditの人：長年誰もその原理を理解していなかった

DeepMindがAIツールGNoMEをリリース、220万個の新しい結晶材料を発見したと主張

AIの失敗例と今後の課題と機会

単一のGPUではGPT-3をトレーニングすることはできませんが、これを使用するとハイパーパラメータを調整できます。

2016年の音声認識の発展を技術的な観点から振り返る

新しい人工ニューロンデバイスは、非常に少ないエネルギーでニューラルネットワークの計算を実行できる

マイクロソフトのAI画像ジェネレーターが自社の従業員から報告：有害な画像を生成する可能性がある

データセットを正しく分割するにはどうすればいいでしょうか? 3つの一般的な方法の概要

推薦する

モデル入力は目に頼りません！中国人著者：強化学習は人間と同じ知覚能力を持つ

Baidu AIの新インフラが2020 CIFTISでデビュー、最新の人工知能成果をパノラマ展示

人工知能は寒い冬を迎え、自動運転車の開発は妨げられている

建設業界における人工知能のメリット

ザッカーバーグがAlpaca 2をベースにしたChatGPTのMetaバージョンを正式にリリース。Appleに先駆けて初のMRヘッドセットをリリース、価格は1/7以下

人工知能は社会統治の近代化を効果的に促進できる

企業は今年AIに500億ドルを費やすが、成果はあまり出ないだろう

AI + データサイエンス: スポーツ業界を変える6つの方法

人工知能と機械学習の違いは何ですか?

テクノロジー大手が自動運転市場への参入を急いでいる背景に、あなたが知らないことは何でしょうか?

2020年のIEEEフェローリストが発表：約30％が中国人で、葉潔平、張同、周博文、熊慧などのAI専門家が選出