DeepMind: 畳み込みネットワークは ViT ほど優れていないと誰が言ったのですか?

DeepMind: 畳み込みネットワークは ViT ほど優れていないと誰が言ったのですか?

ディープラーニングの初期の成功は、畳み込みニューラル ネットワーク (ConvNet) の開発によるものです。ほぼ 10 年にわたって、ConvNet はコンピューター ビジョンのベンチマークを支配してきました。しかし、近年ではViT(ビジョントランスフォーマー)に置き換えられるケースが増えています。

多くの人は、ConvNet は小規模または中規模のデータセットでは優れたパフォーマンスを発揮しますが、ネットワーク サイズが大きいデータセットでは ViT に匹敵できないと考えています。

同時に、CV コミュニティは、ImageNet などの特定のデータセットでランダムに初期化されたネットワークのパフォーマンスを評価することから、Web から収集された大規模な一般データセットで事前トレーニングされたネットワークのパフォーマンスを評価することに移行しました。これにより、重要な疑問が生じます。Vision Transformers は、同様の計算予算で、事前トレーニング済みの ConvNets アーキテクチャよりも優れたパフォーマンスを発揮するのでしょうか?

この論文では、Google DeepMind の研究者がこの問題を調査しました。研究者らは、さまざまなスケールの JFT-4B データセット (基本モデルのトレーニングに使用される大規模なラベル付き画像データセット) で複数の NFNet モデルを事前トレーニングし、ImageNet で ViTs と同様のパフォーマンスを達成しました。

論文アドレス: https://arxiv.org/pdf/2310.16764.pdf

0.4k から 110k TPU-v4 コア時間の範囲のコンピューティング バジェットで事前トレーニングを検討し、NFNet モデル ファミリの深さと幅を増やすことでさまざまなネットワークをトレーニングします。この論文では、保留損失と計算予算の間には対数対数スケーリング則があることが観察されています。

たとえば、この論文では、JFT-4B で事前トレーニングされた NFNet を 0.4k から 110k TPU-v4 コア時間に拡張しています。微調整後、最大のモデルは 90.4% の ImageNet Top-1 を達成し、同様の計算予算で事前トレーニング済みの ViT と競合できるようになりました。

おそらく、この論文は、スケールアップされた NFNet を評価することによって、大規模なデータセットでは ConvNet のパフォーマンスが ViT よりも劣るという見解に異議を唱えています。さらに、十分なデータとコンピューティングがあれば、ConvNet は競争力を維持し、モデル設計とリソースがアーキテクチャよりも重要になります。

この研究を見たチューリング賞受賞者のヤン・ルカン氏は次のように語っています。「必要なのは計算であり、ViT と ConvNet は計算量が一定であれば同等です。コンピューター ビジョンにおける ViT の成功は印象的ですが、公平に評価した場合、事前トレーニング済みの ViT が事前トレーニング済みの ConvNet よりも優れているという確固たる証拠は、私の意見では存在しません。」

しかし、あるネットユーザーは、マルチモーダルモデルでのViTの使用は研究において依然として有利になる可能性があるとLeCunにコメントした。

Google DeepMind の研究者は、ConvNet が消滅することは決してないと述べています。

次に、論文の具体的な内容を見ていきましょう。

事前学習されたNFNetはスケーリング則に従う

この論文では、JFT-4B 上でさまざまな深さと幅を持つ一連の NFNet モデルをトレーニングします。

下の図 2 に示すように、検証損失はモデルのトレーニングの計算予算と線形であり、これは言語モデリングにトランスフォーマーを使用した場合に観察される log-log スケーリング則と一致します (Brown ら、2020 年、Hoffmann ら、2022 年)。最適なモデル サイズと最適なエポック バジェット (検証損失が最小になる) は、コンピューティング バジェットの増加とともに増加します。

下の図 3 は、さまざまなエポック バジェットにわたって 3 つのモデルで観測された最良の学習率 (検証損失を最小化) をプロットしたものです。研究チームは、より低いエポック バジェットの場合、NFNet シリーズのモデルはすべて同様の最適学習率 𝛼 ≈ 1.6 を示すことを発見しました。ただし、エポック バジェットが増加すると、最適な学習率は低下し、大規模なモデルでは、最適な学習率はより速く低下します。研究チームは、モデルのサイズとエポック予算の増加に伴って最適な学習率がゆっくりと単調に減少すると仮定し、2回の試行内で学習率を効果的に調整できると述べています。

図 2 の事前トレーニング済みモデルの一部は期待どおりに動作しないことに注目する価値があります。研究チームは、トレーニング実行がプリエンプト/再開された場合、データ読み込みパイプラインは各トレーニング サンプルが各エポックで 1 回サンプリングされることを保証できないため、この問題が発生すると考えています。トレーニング実行が複数回再開された場合、一部のトレーニング サンプルが十分な回数サンプリングされない可能性があります。

NFNet 対 ViT

ImageNet での実験では、微調整された NFNet が Vision Transformer と同等のパフォーマンスを発揮することが示されました。

具体的には、この研究では、ImageNet 上で事前トレーニング済みの NFNet を微調整し、上記の図 1 に示すように、事前トレーニングの計算と Top-1 エラーの関係をプロットしました。

ImageNet Top-1 の精度は、計算予算が増加するにつれて向上し続けます。最も高価な事前トレーニング済みモデルは NFNet-F7+ です。これは 8 エポックの事前トレーニング済みで、ImageNet Top-1 精度の 90.3% を達成しており、事前トレーニングには約 110k TPU-v4 コア時間、微調整には 1.6k TPU-v4 コア時間が必要です。さらに、微調整中に繰り返し拡張を追加導入すると、Top-1 精度 90.4% を達成できます。 NFNet は大規模な事前トレーニングから大きな恩恵を受けます。

2 つのモデル アーキテクチャには大きな違いがあるにもかかわらず、事前トレーニング済みの NFNet と事前トレーニング済みの ViT のパフォーマンスは同等です。たとえば、ViT-g/14 は、JFT-3B で 210k TPU-v3 コア時間の事前トレーニングを行った後、ImageNet で 90.2% の Top-1 精度を達成し、ViT-G/14 は、JFT-3B で 500k TPU-v3 コア時間以上の事前トレーニングを行った後、90.45% の Top-1 精度を達成します。

この論文では、TPU-v4 上でのこれらのモデルの事前トレーニング速度を評価し、事前トレーニングには ViT-g/14 では 12 万 TPU-v4 コア時間、ViTG/14 では 28 万 TPU-v4 コア時間、SoViT-400m/14 では 13 万 TPU-v4 コア時間が必要であると推定しています。これらの推定値を使用して、図 1 で ViT と NFNet の事前トレーニング効率を比較します。調査では、NFNet は TPU-v4 向けに最適化されており、他のデバイスで評価するとパフォーマンスが悪かったことが指摘されています。

最後に、事前トレーニング済みのチェックポイントは JFT-4B で検証損失が最も低くなりますが、微調整によって ImageNet で最高の Top-1 精度が常に達成されるわけではないことに注意してください。特に、事前トレーニングの計算予算が固定されている場合、微調整メカニズムは一貫してわずかに大きいモデルとわずかに小さいエポック予算を優先することがわかります。直感的に言えば、モデルが大きいほど容量が大きくなり、新しいタスクに適応しやすくなります。場合によっては、学習率を少し高くすると(事前トレーニング中)、微調整後のパフォーマンスが向上することもあります。

<<: 

>>:  ソフトウェアテストが再び進化、Testinクラウドテストリモート実機サービスには明らかな利点がある

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

20200202 千年に一度の対称性の日、すべての「回文アルゴリズム」をキャッチする時が来ました!

[[313923]]今日は2020年2月2日、「千年に一度の対称の日」として知られています。202...

産業用人工知能の未来について語る

AI はこれらの分野で大きな進歩を遂げており、世界がネットゼロの未来を目指す中でのエネルギー効率と持...

Yixue EducationのCui Wei氏:将来、教育分野での授業はロボットに置き換えられるでしょう

[原文は51CTO.comより] 教育業界と人工知能が出会うと、どんな火花が散るでしょうか?国内外の...

...

ミストラルAIの新モデルはGPT-4をベンチマークしており、オープンソースではなくマイクロソフトと協力、ネットユーザー:当初の意図を忘れた

生成AIの分野で、新たな重量級の製品が登場しました。月曜日の夜、ミストラルAIは「フラッグシップ」の...

AIに「擬人化技術」を使う?人工知能による認識への道は長く困難である

人工知能アルゴリズムやディープラーニングなどのさまざまな技術の徹底的な発展により、人工知能(AI)は...

...

なぜ中国はアメリカや日本を抜いて人工知能で世界をリードしているのでしょうか?

[[279809]]北京は世界で最も人工知能企業が集中している都市であり、中国の人工知能分野は世界...

マスク氏とクック氏は秘密協定を結んだのか?アップルは「アップル税」でテスラに数百万ドルの節約をもたらす

ビッグデータダイジェスト制作著者: カレブ周知のとおり、Apple の App Store のポリシ...

...

2027年のAIはどのようになっているでしょうか?ヒントは、あなたの脳の中にあります。

やっていることをやめて、窓の外の鳥やリス、昆虫などを眺めてみましょう。これらの生物は、食物を見つけた...

プログラマーから見たChatGPT

著者 |ブライト・リャオ私はもともとAI技術に興味があったソフトウェア開発エンジニアで、ディープラー...

...

...