DeepMind: 畳み込みネットワークは ViT ほど優れていないと誰が言ったのですか?

DeepMind: 畳み込みネットワークは ViT ほど優れていないと誰が言ったのですか?

ディープラーニングの初期の成功は、畳み込みニューラル ネットワーク (ConvNet) の開発によるものです。ほぼ 10 年にわたって、ConvNet はコンピューター ビジョンのベンチマークを支配してきました。しかし、近年ではViT(ビジョントランスフォーマー)に置き換えられるケースが増えています。

多くの人は、ConvNet は小規模または中規模のデータセットでは優れたパフォーマンスを発揮しますが、ネットワーク サイズが大きいデータセットでは ViT に匹敵できないと考えています。

同時に、CV コミュニティは、ImageNet などの特定のデータセットでランダムに初期化されたネットワークのパフォーマンスを評価することから、Web から収集された大規模な一般データセットで事前トレーニングされたネットワークのパフォーマンスを評価することに移行しました。これにより、重要な疑問が生じます。Vision Transformers は、同様の計算予算で、事前トレーニング済みの ConvNets アーキテクチャよりも優れたパフォーマンスを発揮するのでしょうか?

この論文では、Google DeepMind の研究者がこの問題を調査しました。研究者らは、さまざまなスケールの JFT-4B データセット (基本モデルのトレーニングに使用される大規模なラベル付き画像データセット) で複数の NFNet モデルを事前トレーニングし、ImageNet で ViTs と同様のパフォーマンスを達成しました。

論文アドレス: https://arxiv.org/pdf/2310.16764.pdf

0.4k から 110k TPU-v4 コア時間の範囲のコンピューティング バジェットで事前トレーニングを検討し、NFNet モデル ファミリの深さと幅を増やすことでさまざまなネットワークをトレーニングします。この論文では、保留損失と計算予算の間には対数対数スケーリング則があることが観察されています。

たとえば、この論文では、JFT-4B で事前トレーニングされた NFNet を 0.4k から 110k TPU-v4 コア時間に拡張しています。微調整後、最大のモデルは 90.4% の ImageNet Top-1 を達成し、同様の計算予算で事前トレーニング済みの ViT と競合できるようになりました。

おそらく、この論文は、スケールアップされた NFNet を評価することによって、大規模なデータセットでは ConvNet のパフォーマンスが ViT よりも劣るという見解に異議を唱えています。さらに、十分なデータとコンピューティングがあれば、ConvNet は競争力を維持し、モデル設計とリソースがアーキテクチャよりも重要になります。

この研究を見たチューリング賞受賞者のヤン・ルカン氏は次のように語っています。「必要なのは計算であり、ViT と ConvNet は計算量が一定であれば同等です。コンピューター ビジョンにおける ViT の成功は印象的ですが、公平に評価した場合、事前トレーニング済みの ViT が事前トレーニング済みの ConvNet よりも優れているという確固たる証拠は、私の意見では存在しません。」

しかし、あるネットユーザーは、マルチモーダルモデルでのViTの使用は研究において依然として有利になる可能性があるとLeCunにコメントした。

Google DeepMind の研究者は、ConvNet が消滅することは決してないと述べています。

次に、論文の具体的な内容を見ていきましょう。

事前学習されたNFNetはスケーリング則に従う

この論文では、JFT-4B 上でさまざまな深さと幅を持つ一連の NFNet モデルをトレーニングします。

下の図 2 に示すように、検証損失はモデルのトレーニングの計算予算と線形であり、これは言語モデリングにトランスフォーマーを使用した場合に観察される log-log スケーリング則と一致します (Brown ら、2020 年、Hoffmann ら、2022 年)。最適なモデル サイズと最適なエポック バジェット (検証損失が最小になる) は、コンピューティング バジェットの増加とともに増加します。

下の図 3 は、さまざまなエポック バジェットにわたって 3 つのモデルで観測された最良の学習率 (検証損失を最小化) をプロットしたものです。研究チームは、より低いエポック バジェットの場合、NFNet シリーズのモデルはすべて同様の最適学習率 𝛼 ≈ 1.6 を示すことを発見しました。ただし、エポック バジェットが増加すると、最適な学習率は低下し、大規模なモデルでは、最適な学習率はより速く低下します。研究チームは、モデルのサイズとエポック予算の増加に伴って最適な学習率がゆっくりと単調に減少すると仮定し、2回の試行内で学習率を効果的に調整できると述べています。

図 2 の事前トレーニング済みモデルの一部は期待どおりに動作しないことに注目する価値があります。研究チームは、トレーニング実行がプリエンプト/再開された場合、データ読み込みパイプラインは各トレーニング サンプルが各エポックで 1 回サンプリングされることを保証できないため、この問題が発生すると考えています。トレーニング実行が複数回再開された場合、一部のトレーニング サンプルが十分な回数サンプリングされない可能性があります。

NFNet 対 ViT

ImageNet での実験では、微調整された NFNet が Vision Transformer と同等のパフォーマンスを発揮することが示されました。

具体的には、この研究では、ImageNet 上で事前トレーニング済みの NFNet を微調整し、上記の図 1 に示すように、事前トレーニングの計算と Top-1 エラーの関係をプロットしました。

ImageNet Top-1 の精度は、計算予算が増加するにつれて向上し続けます。最も高価な事前トレーニング済みモデルは NFNet-F7+ です。これは 8 エポックの事前トレーニング済みで、ImageNet Top-1 精度の 90.3% を達成しており、事前トレーニングには約 110k TPU-v4 コア時間、微調整には 1.6k TPU-v4 コア時間が必要です。さらに、微調整中に繰り返し拡張を追加導入すると、Top-1 精度 90.4% を達成できます。 NFNet は大規模な事前トレーニングから大きな恩恵を受けます。

2 つのモデル アーキテクチャには大きな違いがあるにもかかわらず、事前トレーニング済みの NFNet と事前トレーニング済みの ViT のパフォーマンスは同等です。たとえば、ViT-g/14 は、JFT-3B で 210k TPU-v3 コア時間の事前トレーニングを行った後、ImageNet で 90.2% の Top-1 精度を達成し、ViT-G/14 は、JFT-3B で 500k TPU-v3 コア時間以上の事前トレーニングを行った後、90.45% の Top-1 精度を達成します。

この論文では、TPU-v4 上でのこれらのモデルの事前トレーニング速度を評価し、事前トレーニングには ViT-g/14 では 12 万 TPU-v4 コア時間、ViTG/14 では 28 万 TPU-v4 コア時間、SoViT-400m/14 では 13 万 TPU-v4 コア時間が必要であると推定しています。これらの推定値を使用して、図 1 で ViT と NFNet の事前トレーニング効率を比較します。調査では、NFNet は TPU-v4 向けに最適化されており、他のデバイスで評価するとパフォーマンスが悪かったことが指摘されています。

最後に、事前トレーニング済みのチェックポイントは JFT-4B で検証損失が最も低くなりますが、微調整によって ImageNet で最高の Top-1 精度が常に達成されるわけではないことに注意してください。特に、事前トレーニングの計算予算が固定されている場合、微調整メカニズムは一貫してわずかに大きいモデルとわずかに小さいエポック予算を優先することがわかります。直感的に言えば、モデルが大きいほど容量が大きくなり、新しいタスクに適応しやすくなります。場合によっては、学習率を少し高くすると(事前トレーニング中)、微調整後のパフォーマンスが向上することもあります。

<<: 

>>:  ソフトウェアテストが再び進化、Testinクラウドテストリモート実機サービスには明らかな利点がある

ブログ    
ブログ    

推薦する

これら4つの業界は今後5年間で大きな利益を得るだろう

[[261735]] [51CTO.com クイック翻訳] アイリーン・リーはカウボーイ・ベンチャー...

砂漠植林ロボットとフィットネス洗濯機:00年代以降の「あの同級生」が心を開いた

少し前、ビリビリのトップUP司会者「こんにちは先生、私の名前は何童雪です」が「Airdesk」を開発...

年末総括:2020 年の人工知能の注目イベント一覧

スマート製造ネットワークニュース:2020年、「人工知能」は産業発展における高頻度のホットワードとな...

...

PHP 5 におけるガベージコレクションアルゴリズムの進化についての簡単な説明

PHP はマネージド言語です。PHP プログラミングでは、プログラマーがメモリ リソースの割り当てと...

スマートビルディングのためのビルディングオートメーションと IoT

[[350210]]今日、私たちが建物について語るとき、それは単なる外殻を意味するのではなく、さま...

...

反論: AIに急いで取り組むべきではない5つの理由

[51CTO.com クイック翻訳] 今日、人工知能はもはやSFの中の漠然とした概念ではなく、私たち...

設計原則、テスト指標...顔アルゴリズムテストのハードコアスキルを体系的に整理

ビジュアル AI 分野の開発者にとって、適切なアルゴリズムを選択することはプロジェクトの戦いの半分を...

ディープラーニングは私たちの生活に革命をもたらした

【51CTO.com クイック翻訳】ディープラーニングが泡のようなものだとしたら、それを真に制御する...

...

...