小さなモデル、大きなトレンド! Googleは2つのモデルを提案した。音量は7倍に減少し、速度は10倍に増加する。

小さなモデル、大きなトレンド! Googleは2つのモデルを提案した。音量は7倍に減少し、速度は10倍に増加する。

[[426899]]

ニューラル ネットワーク モデルとトレーニング データのサイズが大きくなるにつれて、トレーニング効率がディープラーニングの重要な焦点になりつつあります。

GPT-3 は、少量学習において優れた能力を発揮しますが、数千の GPU を使用して数週間のトレーニングを必要とするため、再トレーニングや改善が困難です。

代わりに、より小型で高速でありながら、より正確なニューラル ネットワークを設計できるとしたらどうなるでしょうか?

Google は、モデル容量と一般化に基づくニューラル アーキテクチャと原理的な設計方法論を通じて得られる、画像認識用の 2 種類のニューラル ネットワーク モデルを提案しました。

1つ目はICML 2021で提案されたEfficientNetV2で、主に畳み込みニューラルネットワークで構成されており、比較的小さなデータセット(128万枚の画像を持つImageNet1kなど)のトレーニング速度を向上させることを目的としています。

EfficientNet V2 は、以前の EfficientNet アーキテクチャに基づいています。元の方法を改善するために、Google の研究チームは、最新モデルの TPU/GPU におけるトレーニング速度のボトルネックを体系的に研究し、いくつかの発見をしました。

1. トレーニングに非常に大きな画像を使用すると、メモリ使用量が増加し、TPU/GPU でのトレーニングが一般的に遅くなります。

2. 広く使用されている深さ方向の畳み込みは、ハードウェアの使用率が低いため、TPU/GPU では非効率的です。

3. 一般的に使用される均一複合スケーリングは、畳み込みネットワークの各ステージを均等に増幅しますが、これは最良の方法ではありません。

これらの問題に対処するため、研究者らはトレーニングを考慮したニューラル アーキテクチャ検索 (トレーニングを考慮した NAS) を提案しました。この検索で​​は、トレーニング速度も最適化の目的に含まれ、さまざまな段階で非均一なスケーリングが使用されます。モデル コードもオープン ソース化されています。

論文の第一著者はMingxing Tan氏です。

トレーニング対応 NAS のアーキテクチャは、以前のプラットフォーム対応 NAS に基づいていますが、推論速度に主に焦点を当てた元の方法とは異なり、トレーニング対応 NAS はモデルの精度、モデル サイズ、トレーニング速度を同時に最適化します。

このモデルは、元の検索空間を拡張して、FusedMBConv などのアクセラレータに適した操作も含めます。これにより、平均プーリングや最大プーリングなどの不要な操作を削除して、検索空間を簡素化できます。

結果として得られた EfficientNetV2 ネットワークは、以前のすべてのモデルよりも高い精度を実現すると同時に、より高速で 6.8 倍小型化されています。

トレーニングプロセスをさらに高速化するために、研究者らは、トレーニング中に画像のサイズと正規化の振幅を徐々に変更する、強化された漸進的学習法も提案しました。

プログレッシブトレーニングは、画像分類、GAN、言語モデルに使用され、有望な結果が得られています。この方法は画像分類に重点を置いていますが、精度を犠牲にしてトレーニング速度を上げることが多い従来の方法とは異なり、トレーニング時間を大幅に短縮しながら精度をわずかに向上させることができます。

改良された方法の重要なアイデアは、画像サイズに応じて、ドロップアウトの確率やデータ拡張の度合いなどの正規化の強度を適応的に変更することです。同じネットワークの場合、画像サイズが小さいとネットワーク容量が低下するため、より弱い正規化が必要になります。逆に、画像サイズが大きい場合は、過剰適合を防ぐためにより強い正規化が必要になります。

EfficientNetV2 モデルは、ImageNet および CIFAR-10/100、Flowers、Cars などのいくつかの転移学習データセットで評価されます。 ImageNet では、EfficientNetV2 は以前のモデルを大幅に上回り、精度を損なうことなく、トレーニング速度が約 5 ~ 11 倍高速化し、モデル サイズが 6.8 倍小さくなりました。

2 番目のカテゴリは CoAtNet です。これは畳み込みと自己注意を組み合わせたハイブリッド モデルであり、ImageNet21 (1,300 万枚の画像) や JFT (数十億枚の画像) などの大規模データセットでより高い精度を実現することを目的としています。

EfficientNetV2 は依然として典型的な畳み込みニューラル ネットワークですが、Visual Transformer (ViT) に関する最近の研究では、注意ベースの Transformer モデルが JFT-300M などの大規模データセット上で畳み込みニューラル ネットワークよりも優れていることが示されています。

この観察に触発され、研究者たちは畳み込みニューラルネットワークを超えて研究をさらに拡大し、より高速で正確な視覚モデルを見つける努力をしました。

私たちは、畳み込みと自己注意を組み合わせて、大規模な画像認識のための高速で正確なニューラル ネットワークを開発する方法を体系的に研究しています。この研究は、畳み込みは一般にその帰納的バイアスにより一般化能力(つまり、トレーニングと評価の間のパフォーマンスギャップ)が優れているのに対し、自己注意トランスフォーマーは世界をモデル化する能力が強いため、一般化能力(つまり、大規模なトレーニングに適応する能力)が強い傾向があるという観察に基づいています。

畳み込みと自己注意を組み合わせることで、結果として得られるハイブリッド モデルは、より優れた一般化とより大きな容量を実現できます。

深い畳み込みと自己注意は、単純な相対的注意を通じて自然に統合することができ、畳み込み層と注意層を垂直に積み重ねることで、各段階で必要な容量と計算能力を同時に考慮できるため、一般化、容量、効率が向上します。

CoAtNet アーキテクチャでは、サイズが HxW の入力画像が与えられると、最初のステム ステージ (S0) で最初に畳み込みが適用され、サイズが H/2 x W/2 に縮小されます。サイズは段階ごとに小さくなり続けます。 Ln はレイヤーの数を表します。最初の 2 つのステージ (S1 と S2) では、主に深さ方向の畳み込みで構成された MBConv ビルディング ブロックを採用します。最後の 2 つのステージ (S3 と S4) では、主に相対的な自己注意を備えた Transformer ブロックを採用します。 ViT の以前の Transformer ブロックとは異なり、Funnel Transformer と同様に、ここではステージ間のプーリングが使用されます。最後に、分類ヘッドを使用してクラス予測確率を生成します。

CoAtNet モデルは、ImageNet1K、ImageNet21K、JFT などの多くのデータセットで、ViT モデルとそのバリアントよりも一貫して優れています。畳み込みネットワークと比較すると、CoAtNet は小規模データセット (ImageNet1K) では同等のパフォーマンスを示し、データ サイズが増加すると (ImageNet21K や JFT など) 大幅なパフォーマンス向上を実現します。

研究者らは、大規模な JFT データセットでも CoAtNet を評価しました。同様の精度目標を達成するために、CoAtNet は以前の ViT モデルよりも 4 倍速くトレーニングし、さらに重要なことに、ImageNet で 90.88% という新しい最先端のトップ 1 精度を達成しました。

以前の結果と比較すると、提案されたモデルは 4 ~ 10 倍高速であり、よく知られている ImageNet データセットで最先端の 90.88% のトップ 1 精度を達成しています。

<<:  ガートナー:今後2年間で、テクノロジープロバイダーの3分の1がAIに100万ドル以上を投資する

>>:  2457億のパラメータ!世界最大のAIモデル「Source 1.0」がリリース、中国が独自のGPT-3を製作

ブログ    
ブログ    

推薦する

人工知能の発展は、人間社会が現実から仮想へと向かう傾向を反映している。

人類は遊牧から農耕へ、そして農耕から工業化へと移行しました。工業化の後半は情報化であり、情報化の究極...

AIが写真を見て場所を推測、その精度は90%以上!スタンフォードの最新のPIGEONモデル:予測誤差の40%は25キロメートル未満

インターネット上に何気なく投稿された写真から、どれほどの情報が漏れてしまうのでしょうか?外国人ブロガ...

粒子ロボットの出現はロボットの自己認識覚醒の危機をもたらすかもしれない

11月3日、2019年テンセントサイエンスWEカンファレンスで、世界中の科学者が細胞治療、脳チップ、...

...

機械学習モデルの仕組み

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

284日間の急成長の後、ChatGPTを「模倣」したスタートアップ企業が倒産する可能性

最近、ウォール・ストリート・ジャーナルの記事によると、一部のベンチャーキャピタリストは、生成型人工知...

Python の例を使用して TensorFlow を始めるにはどうすればよいでしょうか?

[[223516]]この記事に付属するコードは、ここからダウンロードできます。 https://g...

これは私が今まで読んだ TensorFlow を説明する最も徹底的な記事です。

はじめに: 「私の名前はジェイコブです。Google AI Residency プログラムの奨学生で...

...

大型模型シリーズ - RAGの解釈

RAG は、2023 年に最も人気のある LLM ベースのアプリケーション システム アーキテクチャ...

...

...

究極の「公開」: GPT-4 モデルのアーキテクチャ、トレーニング コスト、データセット情報がすべて公開されます

GPT-4 のモデルアーキテクチャ、インフラストラクチャ、トレーニングデータセット、コストなどの情報...

...