ニューラル ネットワーク モデルとトレーニング データのサイズが大きくなるにつれて、トレーニング効率がディープラーニングの重要な焦点になりつつあります。 GPT-3 は、少量学習において優れた能力を発揮しますが、数千の GPU を使用して数週間のトレーニングを必要とするため、再トレーニングや改善が困難です。 代わりに、より小型で高速でありながら、より正確なニューラル ネットワークを設計できるとしたらどうなるでしょうか? Google は、モデル容量と一般化に基づくニューラル アーキテクチャと原理的な設計方法論を通じて得られる、画像認識用の 2 種類のニューラル ネットワーク モデルを提案しました。 1つ目はICML 2021で提案されたEfficientNetV2で、主に畳み込みニューラルネットワークで構成されており、比較的小さなデータセット(128万枚の画像を持つImageNet1kなど)のトレーニング速度を向上させることを目的としています。 EfficientNet V2 は、以前の EfficientNet アーキテクチャに基づいています。元の方法を改善するために、Google の研究チームは、最新モデルの TPU/GPU におけるトレーニング速度のボトルネックを体系的に研究し、いくつかの発見をしました。 1. トレーニングに非常に大きな画像を使用すると、メモリ使用量が増加し、TPU/GPU でのトレーニングが一般的に遅くなります。 2. 広く使用されている深さ方向の畳み込みは、ハードウェアの使用率が低いため、TPU/GPU では非効率的です。 3. 一般的に使用される均一複合スケーリングは、畳み込みネットワークの各ステージを均等に増幅しますが、これは最良の方法ではありません。 これらの問題に対処するため、研究者らはトレーニングを考慮したニューラル アーキテクチャ検索 (トレーニングを考慮した NAS) を提案しました。この検索では、トレーニング速度も最適化の目的に含まれ、さまざまな段階で非均一なスケーリングが使用されます。モデル コードもオープン ソース化されています。 論文の第一著者はMingxing Tan氏です。 トレーニング対応 NAS のアーキテクチャは、以前のプラットフォーム対応 NAS に基づいていますが、推論速度に主に焦点を当てた元の方法とは異なり、トレーニング対応 NAS はモデルの精度、モデル サイズ、トレーニング速度を同時に最適化します。 このモデルは、元の検索空間を拡張して、FusedMBConv などのアクセラレータに適した操作も含めます。これにより、平均プーリングや最大プーリングなどの不要な操作を削除して、検索空間を簡素化できます。 結果として得られた EfficientNetV2 ネットワークは、以前のすべてのモデルよりも高い精度を実現すると同時に、より高速で 6.8 倍小型化されています。 トレーニングプロセスをさらに高速化するために、研究者らは、トレーニング中に画像のサイズと正規化の振幅を徐々に変更する、強化された漸進的学習法も提案しました。 プログレッシブトレーニングは、画像分類、GAN、言語モデルに使用され、有望な結果が得られています。この方法は画像分類に重点を置いていますが、精度を犠牲にしてトレーニング速度を上げることが多い従来の方法とは異なり、トレーニング時間を大幅に短縮しながら精度をわずかに向上させることができます。 改良された方法の重要なアイデアは、画像サイズに応じて、ドロップアウトの確率やデータ拡張の度合いなどの正規化の強度を適応的に変更することです。同じネットワークの場合、画像サイズが小さいとネットワーク容量が低下するため、より弱い正規化が必要になります。逆に、画像サイズが大きい場合は、過剰適合を防ぐためにより強い正規化が必要になります。 EfficientNetV2 モデルは、ImageNet および CIFAR-10/100、Flowers、Cars などのいくつかの転移学習データセットで評価されます。 ImageNet では、EfficientNetV2 は以前のモデルを大幅に上回り、精度を損なうことなく、トレーニング速度が約 5 ~ 11 倍高速化し、モデル サイズが 6.8 倍小さくなりました。 2 番目のカテゴリは CoAtNet です。これは畳み込みと自己注意を組み合わせたハイブリッド モデルであり、ImageNet21 (1,300 万枚の画像) や JFT (数十億枚の画像) などの大規模データセットでより高い精度を実現することを目的としています。 EfficientNetV2 は依然として典型的な畳み込みニューラル ネットワークですが、Visual Transformer (ViT) に関する最近の研究では、注意ベースの Transformer モデルが JFT-300M などの大規模データセット上で畳み込みニューラル ネットワークよりも優れていることが示されています。 この観察に触発され、研究者たちは畳み込みニューラルネットワークを超えて研究をさらに拡大し、より高速で正確な視覚モデルを見つける努力をしました。 私たちは、畳み込みと自己注意を組み合わせて、大規模な画像認識のための高速で正確なニューラル ネットワークを開発する方法を体系的に研究しています。この研究は、畳み込みは一般にその帰納的バイアスにより一般化能力(つまり、トレーニングと評価の間のパフォーマンスギャップ)が優れているのに対し、自己注意トランスフォーマーは世界をモデル化する能力が強いため、一般化能力(つまり、大規模なトレーニングに適応する能力)が強い傾向があるという観察に基づいています。 畳み込みと自己注意を組み合わせることで、結果として得られるハイブリッド モデルは、より優れた一般化とより大きな容量を実現できます。 深い畳み込みと自己注意は、単純な相対的注意を通じて自然に統合することができ、畳み込み層と注意層を垂直に積み重ねることで、各段階で必要な容量と計算能力を同時に考慮できるため、一般化、容量、効率が向上します。 CoAtNet アーキテクチャでは、サイズが HxW の入力画像が与えられると、最初のステム ステージ (S0) で最初に畳み込みが適用され、サイズが H/2 x W/2 に縮小されます。サイズは段階ごとに小さくなり続けます。 Ln はレイヤーの数を表します。最初の 2 つのステージ (S1 と S2) では、主に深さ方向の畳み込みで構成された MBConv ビルディング ブロックを採用します。最後の 2 つのステージ (S3 と S4) では、主に相対的な自己注意を備えた Transformer ブロックを採用します。 ViT の以前の Transformer ブロックとは異なり、Funnel Transformer と同様に、ここではステージ間のプーリングが使用されます。最後に、分類ヘッドを使用してクラス予測確率を生成します。 CoAtNet モデルは、ImageNet1K、ImageNet21K、JFT などの多くのデータセットで、ViT モデルとそのバリアントよりも一貫して優れています。畳み込みネットワークと比較すると、CoAtNet は小規模データセット (ImageNet1K) では同等のパフォーマンスを示し、データ サイズが増加すると (ImageNet21K や JFT など) 大幅なパフォーマンス向上を実現します。 研究者らは、大規模な JFT データセットでも CoAtNet を評価しました。同様の精度目標を達成するために、CoAtNet は以前の ViT モデルよりも 4 倍速くトレーニングし、さらに重要なことに、ImageNet で 90.88% という新しい最先端のトップ 1 精度を達成しました。 以前の結果と比較すると、提案されたモデルは 4 ~ 10 倍高速であり、よく知られている ImageNet データセットで最先端の 90.88% のトップ 1 精度を達成しています。 |
<<: ガートナー:今後2年間で、テクノロジープロバイダーの3分の1がAIに100万ドル以上を投資する
>>: 2457億のパラメータ!世界最大のAIモデル「Source 1.0」がリリース、中国が独自のGPT-3を製作
[51CTO.com クイック翻訳]職場における支援/拡張現実 (AR) と人工知能 (AI) の潜...
[51CTO.com からのオリジナル記事] スマートカーといえば、真っ先に思い浮かぶのは自動運転で...
トヨタ・リサーチ・インスティテュートは、この新しい革新的な生成AIツールにより、デザイナーは効率的か...
[[388162]]画像ソース: https://pixabay.com/images/id-158...
米国特許商標庁は最近、Microsoft の「Language Style Matching Age...
著者 | イー・リアン1. はじめに唯一不変なのは変化です。変化を受け入れる前に、調査し、属性を特定...
人工知能と機械学習が人間の世界を完全に変える運命にあることは疑いようがありません。これは軍事分野にも...
数日前、Stack Overflow コミュニティのトラフィックが大幅に減少したというニュースがあり...
C++ プログラミング言語でのテンプレートの適用は、比較的複雑な適用技術です。今日は、C++ kmp...
最近、NIST は、人工知能システムに対するサイバー攻撃に関する、おそらくこれまでで最も詳細な分類ガ...
[[217643]]現在、アルゴリズムの配布は、情報プラットフォーム、検索エンジン、ブラウザ、ソーシ...
[[397251]]画像ソース: https://pixabay.com/images/id-610...