ポストSORA時代において、CV実践者はどのようにモデルを選択するのでしょうか?畳み込みまたはViT、教師あり学習またはCLIPパラダイム

ポストSORA時代において、CV実践者はどのようにモデルを選択するのでしょうか?畳み込みまたはViT、教師あり学習またはCLIPパラダイム

ImageNet の精度は常にモデルのパフォーマンスを評価するための主要な指標であり、ディープラーニング革命のきっかけでもありました。しかし、今日のコンピューター ビジョンの分野では、この指標はますます「十分」ではなくなってきています。

初期の ConvNet から Vision Transformers まで、コンピューター ビジョン モデルがますます複雑になるにつれて、利用可能なモデルの種類が劇的に増加しました。同様に、トレーニング パラダイムは、ImageNet の教師ありトレーニングから自己教師あり学習や CLIP のような画像とテキストのペアのトレーニングへと進化しました。

ImageNet は、異なるアーキテクチャ、トレーニング パラダイム、およびデータから生じる微妙な違いをキャプチャしません。異なるプロパティを持つモデルは、ImageNet の精度のみで判断すると、同じように見える場合があります。この制限は、モデルが ImageNet の特異性に過剰適合し始め、精度が飽和状態に達したときに、より顕著になります。

CLIP は注目すべき例です。CLIP の ImageNet 精度は ResNet と似ていますが、そのビジュアル エンコーダーははるかに堅牢で転送可能です。これにより、当時 ImageNet メトリックだけを見ても明らかではなかった CLIP 独自の利点の調査と研究が促進されました。これは、他の特性を分析することで有用なモデルを発見できる可能性があることを示唆しています。

さらに、従来のベンチマークでは、さまざまなカメラのポーズ、照明条件、遮蔽など、現実世界の視覚の課題を処理するモデルの能力が完全に反映されていません。たとえば、ImageNet などのデータセットでトレーニングされたモデルは、条件やシナリオがはるかに多様な実際のアプリケーションにパフォーマンスを反映させることが難しいことがよくあります。

これらの問題は、この分野の専門家に新たな混乱をもたらしました。視覚モデルをどのように測定すればよいのでしょうか?ニーズに合ったビジュアル モデルをどのように選択しますか?

最近の論文では、MBZUAIとMetaの研究者がこの件について詳細に議論しました。


  • 論文タイトル: ConvNet vs Transformer、Supervised vs CLIP: ImageNet の精度を超えて
  • 論文リンク: https://arxiv.org/pdf/2311.09215.pdf

この論文では、ImageNet の精度を超えたモデルの動作に焦点を当て、コンピューター ビジョンの分野における 4 つの主要モデル (それぞれ、教師ありトレーニング パラダイムと CLIP トレーニング パラダイムでの ConvNeXt (ConvNet の代表) と Vision Transformer (ViT)) を分析します。

選択されたモデルは同様の数のパラメータを持ち、各トレーニングパラダイムで ImageNet-1K に対してほぼ同一の精度を達成し、公平な比較を保証します。研究者らは、予測誤差の種類、一般化能力、学習した表現の不変性、キャリブレーションなど、一連のモデル特性を詳細に調査し、追加のトレーニングや微調整を行わずにモデルが示す特性に焦点を当て、事前トレーニング済みモデルを直接使用したい実務者に参考資料を提供しました。

研究者らは分析の結果、モデルの動作はアーキテクチャやトレーニングパラダイムによって大きく異なることを発見した。たとえば、CLIP パラダイムでトレーニングされたモデルは、ImageNet でトレーニングされたモデルよりも分類エラーが少なくなります。ただし、教師ありモデルはより適切に調整されており、一般的に ImageNet 堅牢性ベンチマークで優れたパフォーマンスを発揮します。 ConvNeXt は合成データに有利ですが、ViT よりもテクスチャ指向です。一方、教師あり ConvNeXt は多くのベンチマークで優れたパフォーマンスを発揮し、その転送パフォーマンスは CLIP モデルに匹敵します。

さまざまなモデルが独自の方法でその利点を発揮しており、それを単一の指標で捉えることはできないことがわかります。研究者らは、特定の状況に合わせてモデルを正確に選択し、ImageNet とは関係のない新しいベンチマークを作成するには、より詳細な評価指標が必要であると強調しています。

これらの観察に基づいて、Meta AI の主任科学者 Yann LeCun 氏はこの研究をリツイートし、賛成の意を示しました。

モデルの選択

研究者らは、教師ありモデルとして、ViT-Base/16 と同じアーキテクチャを持ちながらトレーニング方法が改善された、ViT の事前トレーニング済み DeiT3-Base/16 を使用しました。また、ConvNeXt-Base も使用されました。 CLIP モデルの場合、研究者は OpenCLIP の ViT-Base/16 と ConvNeXt-Base のビジュアル エンコーダーを使用しました。

これらのモデルのパフォーマンスは、元の OpenAI モデルとは若干異なることに注意してください。すべてのモデル チェックポイントは、GitHub プロジェクトのホームページにあります。詳細なモデル比較は表 1 に示されています。

研究者らはモデル選択のプロセスを詳細に説明した。

1. 事前トレーニング済みのモデルを使用しているため、トレーニング中に表示されるデータ サンプルの量と品質を制御することはできません。

2. ConvNet と Transformer を分析するために、多くのこれまでの研究で ResNet と ViT が比較されてきました。 ViT は通常、より高度な定式化でトレーニングされ、より高い ImageNet 精度を達成するため、この比較は通常 ConvNet にとって不利です。 ViT には、LayerNorm など、ResNet が何年も前に発明されたときには含まれていなかったアーキテクチャ設計要素もいくつかあります。そのため、よりバランスのとれた評価を行うために、研究者らは ViT を、Transformer と同等のパフォーマンスを持ち、設計の多くを共有する ConvNets の最新の代表である ConvNeXt と比較しました。

3. トレーニングモードに関しては、研究者らは教師ありモードと CLIP モードを比較しました。教師ありモデルは、コンピューター ビジョンの分野で一貫して最先端のパフォーマンスを維持しています。一方、CLIP モデルは一般化と転送可能性の点で優れたパフォーマンスを発揮し、視覚表現と言語表現を結び付ける機能を提供します。

4. 自己教師ありモデルは予備テストで教師ありモデルと同様の動作を示したため、結果には含まれませんでした。これは、最終的に ImageNet-1K で教師あり方式で微調整され、多くの機能の研究に影響を与えるためと考えられます。

次に、研究者がさまざまな属性をどのように分析したかを見てみましょう。

分析する

モデルエラー

ImageNet-X は ImageNet-1K の拡張機能であり、16 の変動要因に関する詳細な人間による注釈が含まれており、画像分類におけるモデル エラーの詳細な分析を可能にします。これは、エラー比率メトリック (低いほど良い) を使用して、モデルが特定の要素に対して全体的な精度と比較してどの程度のパフォーマンスを発揮するかを定量化し、モデル エラーの微妙な分析を提供します。 ImageNet-X の結果は次のことを示しています。

1. CLIP モデルは、教師ありモデルに比べて ImageNet の精度においてミスが少なくなります。

2. すべてのモデルは、主に閉塞などの複雑な要因の影響を受けます。

3. テクスチャはすべてのモデルの中で最も難しい要素です。

形状/テクスチャの偏差

形状テクスチャ バイアスは、モデルが高レベルの形状キューではなく脆弱なテクスチャ ショートカットに依存しているかどうかを検出します。このバイアスは、さまざまな形状や質感のカテゴリからの手がかりの矛盾する画像を組み合わせることによって研究できます。このアプローチは、モデルの決定がテクスチャと比較して形状にどの程度基づいているかを理解するのに役立ちます。研究者らは、Cue Conflict データセットの形状テクスチャバイアスを評価し、CLIP モデルのテクスチャバイアスは教師ありモデルよりも小さいが、ViT モデルの形状バイアスは ConvNets よりも高いことを発見しました。

モデルのキャリブレーション

キャリブレーションは、モデルの予測の信頼性が実際の精度と一致しているかどうかを定量化します。これは、期待キャリブレーション エラー (ECE) などのメトリックや、信頼性プロットや信頼性ヒストグラムなどの視覚化ツールを通じて評価できます。研究者らは、ImageNet-1K と ImageNet-R のキャリブレーションを評価し、予測を 15 クラスに分類しました。研究者たちは実験で次のことを観察しました。

1. CLIP モデルは自信過剰ですが、教師ありモデルは若干自信不足です。

2. 教師ありConvNeXtは教師ありViTキャリブレーションよりもパフォーマンスが優れています。

堅牢性と携帯性

モデルの堅牢性と移植性は、データ分布の変化や新しいタスクに適応するために不可欠です。研究者らは、さまざまな ImageNet バリアントを使用して堅牢性を評価した結果、ViT モデルと ConvNeXt モデルの平均パフォーマンスは同等であったものの、ImageNet-R と ImageNet-Sketch を除き、堅牢性の点では一般に教師ありモデルが CLIP を上回っていることを発見しました。転移可能性の点では、19 のデータセットを使用した VTAB ベンチマークで評価したところ、教師あり ConvNeXt は ViT よりも優れており、CLIP モデルのパフォーマンスとほぼ同等でした。

合成データ

PUG-ImageNet などの合成データセットは、カメラの角度やテクスチャなどの要素を正確に制御できるため、有望な研究方法であるため、研究者は合成データでのモデルのパフォーマンスを分析しました。 PUG-ImageNet には、ポーズや照明などの要素が体系的に変化したリアルな ImageNet 画像が含まれており、パフォーマンスは絶対的なトップ 1 精度で測定されます。研究者らは、PUG-ImageNet のさまざまな要素について結果を提供し、ConvNeXt がほぼすべての要素で ViT を上回っていることを発見しました。これは、合成データでは ConvNeXt が ViT よりも優れていることを示していますが、CLIP モデルの精度は教師ありモデルの精度よりも低いため、CLIP モデルの差は小さくなっています。これは、元の ImageNet の精度が低いことに関係している可能性があります。

変換不変性

変換不変性とは、スケーリングや変換などの入力変換に関係なく、セマンティクスを保持する一貫した表現を生成するモデルの能力を指します。この特性により、モデルは異なるが意味的に類似した入力全体にわたって適切に一般化できるようになります。研究者が使用した方法には、スケール不変性を実現するために画像のサイズを変更すること、位置不変性を実現するために切り抜きを移動すること、補間された位置埋め込みを使用して ViT モデルの解像度を調整することなどが含まれます。

彼らは、切り抜きスケール/位置と画像解像度を変化させることで、ImageNet-1K のスケール、動き、解像度の不変性を評価します。教師ありトレーニングでは、ConvNeXt は ViT よりも優れたパフォーマンスを発揮します。一般に、モデルは動きよりもスケール/解像度の変化に対して堅牢です。スケール、変位、解像度に対して高い堅牢性を必要とするアプリケーションの場合、結果は、教師あり ConvNeXt が最適な選択肢である可能性があることを示唆しています。

要約する

一般的に、各モデルには独自の利点があります。これは、標準的なパフォーマンス メトリックでは特定のタスクの重要なニュアンスが見落とされる可能性があるため、モデルの選択は対象のユース ケースに応じて行う必要があることを示唆しています。さらに、既存のベンチマークの多くは ImageNet から派生したもので、これも評価に偏りをもたらす可能性があります。現実世界をよりよく表す設定でモデルを評価するには、異なるデータ分布を持つ新しいベンチマークを開発することが重要です。

この記事の結論の要約は次のとおりです。

ConvNet と Transformer

1. 教師あり ConvNeXt は、多くのベンチマークで教師あり ViT よりも優れています。より適切に調整され、データ変換に対してより不変であり、より優れた転送性と堅牢性を示します。

2. 合成データでは、ConvNeXt は ViT よりも優れたパフォーマンスを発揮します。

3. ViT は形状偏差が大きくなります。

監督とCLIP

1. CLIP モデルは転送性に優れていますが、このタスクでは教師あり ConvNeXt が競争力を発揮します。これは教師ありモデルの可能性を示しています。

2. 教師ありモデルは堅牢性ベンチマークで優れたパフォーマンスを発揮しますが、これはこれらのモデルがすべて ImageNet のバリアントであるためと考えられます。

3. CLIP モデルは、ImageNet の精度と比較して、形状バイアスが大きく、分類エラーが少なくなります。

<<:  Googleがまた新しいことを始める: 視覚言語モデルに空間推論をさせる

>>:  GPT-4を使用すると、成績の悪い生徒は成績の良い生徒よりも有利になる

ブログ    
ブログ    
ブログ    

推薦する

...

...

GPU 価格の急激な下落はチップ不足が終わった兆候でしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

Python+AIで静止画像を動かす

こんにちは、みんな。短い動画を見ているときに、こんな動画を見たことはありませんか?動画の中で、人物の...

チャットボットのテスト: フレームワーク、ツール、テクニックの詳細

【51CTO.com クイック翻訳】 [[425095]]ビジネス マーケティングの原動力と、顧客体...

...

中国人がさらに7,360万ドルの資金調達を実施した!天才プログラマーが共同設立したLeCunの重鎮たちが全員サポート

Perplexity AIは本日、シリーズBの資金調達で7,360万ドルを調達し、評価額は5億2,0...

...

...

ガートナー:2026年までに30%の企業がAI生成ディープフェイクのせいで信頼を失うと予測

ガートナーによると、2026年までに、人工知能(AI)によって生成された顔認証のディープフェイク攻撃...

人工知能の市場推進要因、制約、機会

今日、ますます多くの企業が、事業運営に人工知能技術を活用しています。このテクノロジーは非常に建設的で...

...

GPT-4 が「Who is the Undercover」ボードゲームに大混乱を引き起こします。会話はリアルだが、人間らしさにはまだ改善の余地がある

生成 AI 研究が新たな活力を得ています。韓国チームは、GPT に「Spyfall」と呼ばれるギャン...

海底撈のIPOは1000億元規模:将来、厨房に必要なのはエンジニア2人だけ

[[245580]] 2018年9月26日、海底撈国際ホールディングス株式会社(06862.HK)が...

...