正規化を放棄することで、ディープラーニングモデルの精度は前例のないレベルに到達しました

正規化を放棄することで、ディープラーニングモデルの精度は前例のないレベルに到達しました

データを機械学習モデルに渡すときには、データを正規化する必要があることはわかっています。

データの正規化後、データは均一な間隔に「平坦化」され、出力範囲は 0 から 1 の間に縮小されます。一般的に、このような操作を行うと、最適なソリューションを見つけるプロセスが大幅にスムーズになり、モデルが最適レベルに正しく収束しやすくなると考えられています。

しかし、この「ステレオタイプ」は最近になって挑戦を受けています。DeepMind の研究者は、正規化を必要としないディープラーニング モデル NFNet を提案しましたが、これは大規模な画像分類タスクで業界最高レベル (SOTA) を達成しています。

前例のないレベル">

このモデル (赤) と他のモデルの ImageNet 分類精度およびトレーニング時間の比較。

「私たちは、迅速にトレーニングできる高性能アーキテクチャの開発に注力し、シンプルな手法(適応型勾配クリッピング、AGC)によって、最先端のパフォーマンスを達成しながら、大規模なバッチと大規模なデータ拡張でトレーニングできることを実証しました」と、DeepMindの研究科学者で論文の筆頭著者であるアンドリュー・ブロック氏は述べた。

この研究は提出されるとすぐに人々の注目を集めました。

前例のないレベル">
  • 論文リンク: https://arxiv.org/abs/2102.06171
  • DeepMind はモデルの実装もリリースしました: https://github.com/deepmind/deepmind-research/tree/master/nfnets

NFNet は正規化されていない ResNet ネットワークです。具体的には、この研究は以下の点に貢献します。

  • 適応勾配クリッピング (AGC) 法は、勾配ノルムとパラメータノルムの単位比に基づいて勾配をクリップするものとして提案されています。研究者らは、AGC がより大きなバッチと大規模なデータ拡張を使用して非正規化ネットワークをトレーニングできることを証明しました。
  • 私たちは、ImageNet 検証セットの幅広いトレーニング遅延にわたって最先端のパフォーマンスを実現する、Normalizer-Free ResNet と呼ばれる新しいネットワークを設計しました。 NFNet-F1 モデルは、8.7 倍の速度でトレーニングしながら EfficientNet-B7 と同等の精度を達成し、NFNet モデルの最大バージョンは新しい SOTA の最先端技術を設定し、追加データなしで 86.5% のトップ 1 精度を達成します。
  • 3 億枚のラベル付き画像からなる大規模なプライベート データセットで事前トレーニングし、ImageNet で微調整すると、NFNet はバッチ正規化モデルよりも高い Top-1 精度 (最大 89.2%) を達成できます。

研究方法

正規化がない場合、多くの研究者がバッチ正規化の利点を回復することで、deep ResNet の精度を向上させようと試みてきました。これらの研究のほとんどは、小さな定数または学習可能なスカラーを導入することで、初期化中に残差ブランチの活性化スケールを抑制します。

この DeepMind の研究では、正規化レイヤーなしでトレーニングとテストの精度が得られるようにトレーニングできる事前アクティベーション ResNet のクラスである Normalizer-Free ResNet (NF-ResNet) を採用し、それを基に構築しています。

NF-ResNet は次の残差ブロックを使用します。

前例のないレベル">

このうち、h_iはi番目の残差ブロックの入力を表し、f_iはi番目の残差ブランチで計算される関数を表します。

効率的な大規模バッチトレーニングのための適応勾配クリッピング

NF-ResNet をより大きなバッチサイズに拡張するために、研究者は一連の勾配クリッピング戦略を検討しました。勾配クリッピングは、言語モデリングにおいてトレーニングを安定させるためによく使用されます。最近のいくつかの研究では、勾配クリッピングにより勾配降下法に比べて高い学習率でトレーニングが可能になり、収束が加速されることが示されています。これは、条件付けの少ない損失ランドスケープや、バッチ サイズが大きいトレーニングの場合に特に重要です。このような場合、最適な学習率は最大安定学習率によって制約されるためです。したがって、勾配クリッピングは NF-ResNet を大規模バッチ設定に効率的に拡張するのに役立つはずだと仮定します。

この研究では、AGC と呼ばれる勾配クリッピング法を利用して、SOTA の精度とトレーニング速度を実現するノーマライザーフリー アーキテクチャを調査し、設計しました。

画像分類タスクの現在の SOTA は、主に EfficientNet シリーズのモデル (Tan & Le、2019) によって達成されています。これらのモデルは、パラメータ数と FLOP 数を最小限に抑えながらテスト精度を最大化するように最適化されていますが、理論的な計算の複雑さが低いため、トレーニング速度が向上しません。

前例のないレベル">

この研究では、デバイス上の実際のトレーニング遅延と比較して、ImageNet 上のホールドアウト トップ 1 のパレート フロンティアの改善につながる設計ガイドを手動で検索することで、モデル設計の空間を調査します。ホールドアウト精度への影響は表 2 に示されています。

前例のないレベル">

実験

表 3 は、モデル サイズ、トレーニング レイテンシ、ImageNet 検証精度の観点から、6 つの異なる NFNet (F0 ~ F5) と他のモデルの比較を示しています。 NFNets-F5 は SOTA トップ 1 精度 86.0% を達成し、これは EfficientNet-B8 より確実に向上しています。NFNet-F1 のテスト精度は EfficientNet-B7 に匹敵し、トレーニング速度は 8.7 倍向上しています。NFNet-F6+SAM はトップ 1 精度 86.5% を達成しました。

前例のないレベル">

ImageNet データセットにおける NFNet と他のモデルの精度の比較。レイテンシは、TPU または GPU (V100) で 1 つの完全なトレーニング ステップを実行するのにかかる時間をミリ秒単位で測定します。

さらに、研究者らは 3 億枚の注釈付き画像のデータセットを使用して NFNet の亜種を事前トレーニングし、ImageNet 用に微調整しました。最終的に、NFNet-F4+ は ImageNet で 89.2% のトップ 1 精度を達成しました。これは、追加のトレーニング データを使用してこれまでに達成された検証精度としては 2 番目に高いものであり、現在の最強の半教師あり学習ベースライン (Pham ら、2020 年) と転移学習によって達成された最高の精度に次ぐものです。

前例のないレベル">

表 5: 追加データを使用した大規模な事前トレーニング後の ImageNet モデル転送パフォーマンスの比較。

アンドリュー・ブロック氏は、ニューラルネットワークの信号伝達とトレーニング規則の理解にはまだ多くの探求の余地があるものの、非正規化法は人々に強力な参考資料を提供し、この深い理解能力を開発することで生産環境の効率を効果的に向上できることを証明したと述べた。

<<:  IBMがWatson Healthの売却を計画しているが、AI医療はまだ手つかずのままか?

>>:  中国の博士課程の学生が、2つのトランスフォーマーを使ってGANを構築しようとした。

ブログ    
ブログ    

推薦する

スマートネットワークとスマート製造を備えた新エネルギーインテリジェントコネクテッドビークルがデジタル変革への道を開く

重慶には「マスター、急いでいます!」というスピードがあります。シートベルトを締めると、地面に近いとこ...

...

DataVault ソフトウェアの AES-1024 暗号化アルゴリズムに対する実際の攻撃

研究者らは、DataVault ソフトウェアで使用されている AES-1024 が破られる可能性があ...

...

強化学習はアプリケーションにおける戦略の「最適解」を見つける

現在、AI システムは、さまざまなパターン認識や予測分析タスクを実行するために業界で一般的に使用され...

PHP 再帰アルゴリズムとアプリケーションの紹介

PHP は動的な Web ページを開発するための最適なテクノロジーです。プログラミングに役立つ基本的...

人工知能によりデータの痕跡を監視できるようになりました。このとき、ユーザーのプライバシーとセキュリティをどのように維持できるのでしょうか?

近年、ソーシャル ネットワーキング プラットフォームのユーザー数は飛躍的に増加しています。これらのプ...

FMI2017----人工知能とビッグデータが時代を力づける

2017年8月5日、ペガサスが主催する「FMI人工知能&ビッグデータサミットフォーラム」が北京国家会...

マイクロソフトのAI画像ジェネレーターが自社の従業員から報告:有害な画像を生成する可能性がある

CNBCによると、3月7日、マイクロソフトのエンジニアが米連邦取引委員会(FTC)に、同社の人工知能...

2万本の論文が過去5年間の機械学習の変遷を物語る

[[188225]] arXiv.org は、物理学、数学、コンピューターサイエンス、生物学の論文の...

...

AgentGPT: ブラウザ上の自律型 AI エージェント

翻訳者 |ブガッティレビュー | Chonglou AgentGPT Web は、ユーザーがカスタマ...

人工知能の台頭は難しく、普通のAI開発者が普及する

[[241542]] Forbes によれば、FORTRAN のパンチカードから Go を使用した分...

音声認識の専門家が奇妙な学生事件によりジョンズ・ホプキンス大学から解雇され、怒ってFacebookを拒否し、中国に移住した

[[274404]] 8月16日、物議を醸していたジョンズ・ホプキンス大学の元教授ダニエル・ポービー...

四足歩行ロボットが二足歩行で階段を降りることを学びます。脚型システムより83%効率が高い

テスラと競争したロボットを覚えていますか? これは、チューリッヒにあるスイス連邦工科大学のスピンオフ...