データを機械学習モデルに渡すときには、データを正規化する必要があることはわかっています。 データの正規化後、データは均一な間隔に「平坦化」され、出力範囲は 0 から 1 の間に縮小されます。一般的に、このような操作を行うと、最適なソリューションを見つけるプロセスが大幅にスムーズになり、モデルが最適レベルに正しく収束しやすくなると考えられています。 しかし、この「ステレオタイプ」は最近になって挑戦を受けています。DeepMind の研究者は、正規化を必要としないディープラーニング モデル NFNet を提案しましたが、これは大規模な画像分類タスクで業界最高レベル (SOTA) を達成しています。 前例のないレベル">このモデル (赤) と他のモデルの ImageNet 分類精度およびトレーニング時間の比較。 「私たちは、迅速にトレーニングできる高性能アーキテクチャの開発に注力し、シンプルな手法(適応型勾配クリッピング、AGC)によって、最先端のパフォーマンスを達成しながら、大規模なバッチと大規模なデータ拡張でトレーニングできることを実証しました」と、DeepMindの研究科学者で論文の筆頭著者であるアンドリュー・ブロック氏は述べた。 この研究は提出されるとすぐに人々の注目を集めました。 前例のないレベル">
NFNet は正規化されていない ResNet ネットワークです。具体的には、この研究は以下の点に貢献します。
研究方法 正規化がない場合、多くの研究者がバッチ正規化の利点を回復することで、deep ResNet の精度を向上させようと試みてきました。これらの研究のほとんどは、小さな定数または学習可能なスカラーを導入することで、初期化中に残差ブランチの活性化スケールを抑制します。 この DeepMind の研究では、正規化レイヤーなしでトレーニングとテストの精度が得られるようにトレーニングできる事前アクティベーション ResNet のクラスである Normalizer-Free ResNet (NF-ResNet) を採用し、それを基に構築しています。 NF-ResNet は次の残差ブロックを使用します。 前例のないレベル">このうち、h_iはi番目の残差ブロックの入力を表し、f_iはi番目の残差ブランチで計算される関数を表します。 効率的な大規模バッチトレーニングのための適応勾配クリッピング NF-ResNet をより大きなバッチサイズに拡張するために、研究者は一連の勾配クリッピング戦略を検討しました。勾配クリッピングは、言語モデリングにおいてトレーニングを安定させるためによく使用されます。最近のいくつかの研究では、勾配クリッピングにより勾配降下法に比べて高い学習率でトレーニングが可能になり、収束が加速されることが示されています。これは、条件付けの少ない損失ランドスケープや、バッチ サイズが大きいトレーニングの場合に特に重要です。このような場合、最適な学習率は最大安定学習率によって制約されるためです。したがって、勾配クリッピングは NF-ResNet を大規模バッチ設定に効率的に拡張するのに役立つはずだと仮定します。 この研究では、AGC と呼ばれる勾配クリッピング法を利用して、SOTA の精度とトレーニング速度を実現するノーマライザーフリー アーキテクチャを調査し、設計しました。 画像分類タスクの現在の SOTA は、主に EfficientNet シリーズのモデル (Tan & Le、2019) によって達成されています。これらのモデルは、パラメータ数と FLOP 数を最小限に抑えながらテスト精度を最大化するように最適化されていますが、理論的な計算の複雑さが低いため、トレーニング速度が向上しません。 前例のないレベル">この研究では、デバイス上の実際のトレーニング遅延と比較して、ImageNet 上のホールドアウト トップ 1 のパレート フロンティアの改善につながる設計ガイドを手動で検索することで、モデル設計の空間を調査します。ホールドアウト精度への影響は表 2 に示されています。 前例のないレベル">実験 表 3 は、モデル サイズ、トレーニング レイテンシ、ImageNet 検証精度の観点から、6 つの異なる NFNet (F0 ~ F5) と他のモデルの比較を示しています。 NFNets-F5 は SOTA トップ 1 精度 86.0% を達成し、これは EfficientNet-B8 より確実に向上しています。NFNet-F1 のテスト精度は EfficientNet-B7 に匹敵し、トレーニング速度は 8.7 倍向上しています。NFNet-F6+SAM はトップ 1 精度 86.5% を達成しました。 前例のないレベル">ImageNet データセットにおける NFNet と他のモデルの精度の比較。レイテンシは、TPU または GPU (V100) で 1 つの完全なトレーニング ステップを実行するのにかかる時間をミリ秒単位で測定します。 さらに、研究者らは 3 億枚の注釈付き画像のデータセットを使用して NFNet の亜種を事前トレーニングし、ImageNet 用に微調整しました。最終的に、NFNet-F4+ は ImageNet で 89.2% のトップ 1 精度を達成しました。これは、追加のトレーニング データを使用してこれまでに達成された検証精度としては 2 番目に高いものであり、現在の最強の半教師あり学習ベースライン (Pham ら、2020 年) と転移学習によって達成された最高の精度に次ぐものです。 前例のないレベル">表 5: 追加データを使用した大規模な事前トレーニング後の ImageNet モデル転送パフォーマンスの比較。 アンドリュー・ブロック氏は、ニューラルネットワークの信号伝達とトレーニング規則の理解にはまだ多くの探求の余地があるものの、非正規化法は人々に強力な参考資料を提供し、この深い理解能力を開発することで生産環境の効率を効果的に向上できることを証明したと述べた。 |
<<: IBMがWatson Healthの売却を計画しているが、AI医療はまだ手つかずのままか?
>>: 中国の博士課程の学生が、2つのトランスフォーマーを使ってGANを構築しようとした。
重慶には「マスター、急いでいます!」というスピードがあります。シートベルトを締めると、地面に近いとこ...
研究者らは、DataVault ソフトウェアで使用されている AES-1024 が破られる可能性があ...
現在、AI システムは、さまざまなパターン認識や予測分析タスクを実行するために業界で一般的に使用され...
PHP は動的な Web ページを開発するための最適なテクノロジーです。プログラミングに役立つ基本的...
近年、ソーシャル ネットワーキング プラットフォームのユーザー数は飛躍的に増加しています。これらのプ...
2017年8月5日、ペガサスが主催する「FMI人工知能&ビッグデータサミットフォーラム」が北京国家会...
CNBCによると、3月7日、マイクロソフトのエンジニアが米連邦取引委員会(FTC)に、同社の人工知能...
[[188225]] arXiv.org は、物理学、数学、コンピューターサイエンス、生物学の論文の...
翻訳者 |ブガッティレビュー | Chonglou AgentGPT Web は、ユーザーがカスタマ...
[[241542]] Forbes によれば、FORTRAN のパンチカードから Go を使用した分...
[[274404]] 8月16日、物議を醸していたジョンズ・ホプキンス大学の元教授ダニエル・ポービー...
テスラと競争したロボットを覚えていますか? これは、チューリッヒにあるスイス連邦工科大学のスピンオフ...