正規化を放棄することで、ディープラーニングモデルの精度は前例のないレベルに到達しました

データを機械学習モデルに渡すときには、データを正規化する必要があることはわかっています。

データの正規化後、データは均一な間隔に「平坦化」され、出力範囲は 0 から 1 の間に縮小されます。一般的に、このような操作を行うと、最適なソリューションを見つけるプロセスが大幅にスムーズになり、モデルが最適レベルに正しく収束しやすくなると考えられています。

しかし、この「ステレオタイプ」は最近になって挑戦を受けています。DeepMind の研究者は、正規化を必要としないディープラーニングモデル NFNet を提案しましたが、これは大規模な画像分類タスクで業界最高レベル (SOTA) を達成しています。

前例のないレベル">

このモデル (赤) と他のモデルの ImageNet 分類精度およびトレーニング時間の比較。

「私たちは、迅速にトレーニングできる高性能アーキテクチャの開発に注力し、シンプルな手法（適応型勾配クリッピング、AGC）によって、最先端のパフォーマンスを達成しながら、大規模なバッチと大規模なデータ拡張でトレーニングできることを実証しました」と、DeepMindの研究科学者で論文の筆頭著者であるアンドリュー・ブロック氏は述べた。

この研究は提出されるとすぐに人々の注目を集めました。

前例のないレベル">

論文リンク: https://arxiv.org/abs/2102.06171
DeepMind はモデルの実装もリリースしました: https://github.com/deepmind/deepmind-research/tree/master/nfnets

NFNet は正規化されていない ResNet ネットワークです。具体的には、この研究は以下の点に貢献します。

適応勾配クリッピング (AGC) 法は、勾配ノルムとパラメータノルムの単位比に基づいて勾配をクリップするものとして提案されています。研究者らは、AGC がより大きなバッチと大規模なデータ拡張を使用して非正規化ネットワークをトレーニングできることを証明しました。
私たちは、ImageNet 検証セットの幅広いトレーニング遅延にわたって最先端のパフォーマンスを実現する、Normalizer-Free ResNet と呼ばれる新しいネットワークを設計しました。 NFNet-F1 モデルは、8.7 倍の速度でトレーニングしながら EfficientNet-B7 と同等の精度を達成し、NFNet モデルの最大バージョンは新しい SOTA の最先端技術を設定し、追加データなしで 86.5% のトップ 1 精度を達成します。
3 億枚のラベル付き画像からなる大規模なプライベートデータセットで事前トレーニングし、ImageNet で微調整すると、NFNet はバッチ正規化モデルよりも高い Top-1 精度 (最大 89.2%) を達成できます。

研究方法

正規化がない場合、多くの研究者がバッチ正規化の利点を回復することで、deep ResNet の精度を向上させようと試みてきました。これらの研究のほとんどは、小さな定数または学習可能なスカラーを導入することで、初期化中に残差ブランチの活性化スケールを抑制します。

この DeepMind の研究では、正規化レイヤーなしでトレーニングとテストの精度が得られるようにトレーニングできる事前アクティベーション ResNet のクラスである Normalizer-Free ResNet (NF-ResNet) を採用し、それを基に構築しています。

NF-ResNet は次の残差ブロックを使用します。

前例のないレベル">

このうち、h_iはi番目の残差ブロックの入力を表し、f_iはi番目の残差ブランチで計算される関数を表します。

効率的な大規模バッチトレーニングのための適応勾配クリッピング

NF-ResNet をより大きなバッチサイズに拡張するために、研究者は一連の勾配クリッピング戦略を検討しました。勾配クリッピングは、言語モデリングにおいてトレーニングを安定させるためによく使用されます。最近のいくつかの研究では、勾配クリッピングにより勾配降下法に比べて高い学習率でトレーニングが可能になり、収束が加速されることが示されています。これは、条件付けの少ない損失ランドスケープや、バッチサイズが大きいトレーニングの場合に特に重要です。このような場合、最適な学習率は最大安定学習率によって制約されるためです。したがって、勾配クリッピングは NF-ResNet を大規模バッチ設定に効率的に拡張するのに役立つはずだと仮定します。

この研究では、AGC と呼ばれる勾配クリッピング法を利用して、SOTA の精度とトレーニング速度を実現するノーマライザーフリーアーキテクチャを調査し、設計しました。

画像分類タスクの現在の SOTA は、主に EfficientNet シリーズのモデル (Tan & Le、2019) によって達成されています。これらのモデルは、パラメータ数と FLOP 数を最小限に抑えながらテスト精度を最大化するように最適化されていますが、理論的な計算の複雑さが低いため、トレーニング速度が向上しません。

前例のないレベル">

この研究では、デバイス上の実際のトレーニング遅延と比較して、ImageNet 上のホールドアウトトップ 1 のパレートフロンティアの改善につながる設計ガイドを手動で検索することで、モデル設計の空間を調査します。ホールドアウト精度への影響は表 2 に示されています。

前例のないレベル">

実験

表 3 は、モデルサイズ、トレーニングレイテンシ、ImageNet 検証精度の観点から、6 つの異なる NFNet (F0 ～ F5) と他のモデルの比較を示しています。 NFNets-F5 は SOTA トップ 1 精度 86.0% を達成し、これは EfficientNet-B8 より確実に向上しています。NFNet-F1 のテスト精度は EfficientNet-B7 に匹敵し、トレーニング速度は 8.7 倍向上しています。NFNet-F6+SAM はトップ 1 精度 86.5% を達成しました。

前例のないレベル">

ImageNet データセットにおける NFNet と他のモデルの精度の比較。レイテンシは、TPU または GPU (V100) で 1 つの完全なトレーニングステップを実行するのにかかる時間をミリ秒単位で測定します。

さらに、研究者らは 3 億枚の注釈付き画像のデータセットを使用して NFNet の亜種を事前トレーニングし、ImageNet 用に微調整しました。最終的に、NFNet-F4+ は ImageNet で 89.2% のトップ 1 精度を達成しました。これは、追加のトレーニングデータを使用してこれまでに達成された検証精度としては 2 番目に高いものであり、現在の最強の半教師あり学習ベースライン (Pham ら、2020 年) と転移学習によって達成された最高の精度に次ぐものです。

前例のないレベル">

表 5: 追加データを使用した大規模な事前トレーニング後の ImageNet モデル転送パフォーマンスの比較。

アンドリュー・ブロック氏は、ニューラルネットワークの信号伝達とトレーニング規則の理解にはまだ多くの探求の余地があるものの、非正規化法は人々に強力な参考資料を提供し、この深い理解能力を開発することで生産環境の効率を効果的に向上できることを証明したと述べた。

<<: IBMがWatson Healthの売却を計画しているが、AI医療はまだ手つかずのままか？

>>: 中国の博士課程の学生が、2つのトランスフォーマーを使ってGANを構築しようとした。