ポストSORA時代において、CV実践者はどのようにモデルを選択するのでしょうか?畳み込みまたはViT、教師あり学習またはCLIPパラダイム

ImageNet の精度は常にモデルのパフォーマンスを評価するための主要な指標であり、ディープラーニング革命のきっかけでもありました。しかし、今日のコンピュータービジョンの分野では、この指標はますます「十分」ではなくなってきています。

初期の ConvNet から Vision Transformers まで、コンピュータービジョンモデルがますます複雑になるにつれて、利用可能なモデルの種類が劇的に増加しました。同様に、トレーニングパラダイムは、ImageNet の教師ありトレーニングから自己教師あり学習や CLIP のような画像とテキストのペアのトレーニングへと進化しました。

ImageNet は、異なるアーキテクチャ、トレーニングパラダイム、およびデータから生じる微妙な違いをキャプチャしません。異なるプロパティを持つモデルは、ImageNet の精度のみで判断すると、同じように見える場合があります。この制限は、モデルが ImageNet の特異性に過剰適合し始め、精度が飽和状態に達したときに、より顕著になります。

CLIP は注目すべき例です。CLIP の ImageNet 精度は ResNet と似ていますが、そのビジュアルエンコーダーははるかに堅牢で転送可能です。これにより、当時 ImageNet メトリックだけを見ても明らかではなかった CLIP 独自の利点の調査と研究が促進されました。これは、他の特性を分析することで有用なモデルを発見できる可能性があることを示唆しています。

さらに、従来のベンチマークでは、さまざまなカメラのポーズ、照明条件、遮蔽など、現実世界の視覚の課題を処理するモデルの能力が完全に反映されていません。たとえば、ImageNet などのデータセットでトレーニングされたモデルは、条件やシナリオがはるかに多様な実際のアプリケーションにパフォーマンスを反映させることが難しいことがよくあります。

これらの問題は、この分野の専門家に新たな混乱をもたらしました。視覚モデルをどのように測定すればよいのでしょうか?ニーズに合ったビジュアルモデルをどのように選択しますか?

最近の論文では、MBZUAIとMetaの研究者がこの件について詳細に議論しました。

論文タイトル: ConvNet vs Transformer、Supervised vs CLIP: ImageNet の精度を超えて
論文リンク: https://arxiv.org/pdf/2311.09215.pdf

この論文では、ImageNet の精度を超えたモデルの動作に焦点を当て、コンピュータービジョンの分野における 4 つの主要モデル (それぞれ、教師ありトレーニングパラダイムと CLIP トレーニングパラダイムでの ConvNeXt (ConvNet の代表) と Vision Transformer (ViT)) を分析します。

選択されたモデルは同様の数のパラメータを持ち、各トレーニングパラダイムで ImageNet-1K に対してほぼ同一の精度を達成し、公平な比較を保証します。研究者らは、予測誤差の種類、一般化能力、学習した表現の不変性、キャリブレーションなど、一連のモデル特性を詳細に調査し、追加のトレーニングや微調整を行わずにモデルが示す特性に焦点を当て、事前トレーニング済みモデルを直接使用したい実務者に参考資料を提供しました。

研究者らは分析の結果、モデルの動作はアーキテクチャやトレーニングパラダイムによって大きく異なることを発見した。たとえば、CLIP パラダイムでトレーニングされたモデルは、ImageNet でトレーニングされたモデルよりも分類エラーが少なくなります。ただし、教師ありモデルはより適切に調整されており、一般的に ImageNet 堅牢性ベンチマークで優れたパフォーマンスを発揮します。 ConvNeXt は合成データに有利ですが、ViT よりもテクスチャ指向です。一方、教師あり ConvNeXt は多くのベンチマークで優れたパフォーマンスを発揮し、その転送パフォーマンスは CLIP モデルに匹敵します。

さまざまなモデルが独自の方法でその利点を発揮しており、それを単一の指標で捉えることはできないことがわかります。研究者らは、特定の状況に合わせてモデルを正確に選択し、ImageNet とは関係のない新しいベンチマークを作成するには、より詳細な評価指標が必要であると強調しています。

これらの観察に基づいて、Meta AI の主任科学者 Yann LeCun 氏はこの研究をリツイートし、賛成の意を示しました。

モデルの選択

研究者らは、教師ありモデルとして、ViT-Base/16 と同じアーキテクチャを持ちながらトレーニング方法が改善された、ViT の事前トレーニング済み DeiT3-Base/16 を使用しました。また、ConvNeXt-Base も使用されました。 CLIP モデルの場合、研究者は OpenCLIP の ViT-Base/16 と ConvNeXt-Base のビジュアルエンコーダーを使用しました。

これらのモデルのパフォーマンスは、元の OpenAI モデルとは若干異なることに注意してください。すべてのモデルチェックポイントは、GitHub プロジェクトのホームページにあります。詳細なモデル比較は表 1 に示されています。

研究者らはモデル選択のプロセスを詳細に説明した。

1. 事前トレーニング済みのモデルを使用しているため、トレーニング中に表示されるデータサンプルの量と品質を制御することはできません。

2. ConvNet と Transformer を分析するために、多くのこれまでの研究で ResNet と ViT が比較されてきました。 ViT は通常、より高度な定式化でトレーニングされ、より高い ImageNet 精度を達成するため、この比較は通常 ConvNet にとって不利です。 ViT には、LayerNorm など、ResNet が何年も前に発明されたときには含まれていなかったアーキテクチャ設計要素もいくつかあります。そのため、よりバランスのとれた評価を行うために、研究者らは ViT を、Transformer と同等のパフォーマンスを持ち、設計の多くを共有する ConvNets の最新の代表である ConvNeXt と比較しました。

3. トレーニングモードに関しては、研究者らは教師ありモードと CLIP モードを比較しました。教師ありモデルは、コンピュータービジョンの分野で一貫して最先端のパフォーマンスを維持しています。一方、CLIP モデルは一般化と転送可能性の点で優れたパフォーマンスを発揮し、視覚表現と言語表現を結び付ける機能を提供します。

4. 自己教師ありモデルは予備テストで教師ありモデルと同様の動作を示したため、結果には含まれませんでした。これは、最終的に ImageNet-1K で教師あり方式で微調整され、多くの機能の研究に影響を与えるためと考えられます。

次に、研究者がさまざまな属性をどのように分析したかを見てみましょう。

分析する

モデルエラー

ImageNet-X は ImageNet-1K の拡張機能であり、16 の変動要因に関する詳細な人間による注釈が含まれており、画像分類におけるモデルエラーの詳細な分析を可能にします。これは、エラー比率メトリック (低いほど良い) を使用して、モデルが特定の要素に対して全体的な精度と比較してどの程度のパフォーマンスを発揮するかを定量化し、モデルエラーの微妙な分析を提供します。 ImageNet-X の結果は次のことを示しています。

1. CLIP モデルは、教師ありモデルに比べて ImageNet の精度においてミスが少なくなります。

2. すべてのモデルは、主に閉塞などの複雑な要因の影響を受けます。

3. テクスチャはすべてのモデルの中で最も難しい要素です。

形状/テクスチャの偏差

形状テクスチャバイアスは、モデルが高レベルの形状キューではなく脆弱なテクスチャショートカットに依存しているかどうかを検出します。このバイアスは、さまざまな形状や質感のカテゴリからの手がかりの矛盾する画像を組み合わせることによって研究できます。このアプローチは、モデルの決定がテクスチャと比較して形状にどの程度基づいているかを理解するのに役立ちます。研究者らは、Cue Conflict データセットの形状テクスチャバイアスを評価し、CLIP モデルのテクスチャバイアスは教師ありモデルよりも小さいが、ViT モデルの形状バイアスは ConvNets よりも高いことを発見しました。

モデルのキャリブレーション

キャリブレーションは、モデルの予測の信頼性が実際の精度と一致しているかどうかを定量化します。これは、期待キャリブレーションエラー (ECE) などのメトリックや、信頼性プロットや信頼性ヒストグラムなどの視覚化ツールを通じて評価できます。研究者らは、ImageNet-1K と ImageNet-R のキャリブレーションを評価し、予測を 15 クラスに分類しました。研究者たちは実験で次のことを観察しました。

1. CLIP モデルは自信過剰ですが、教師ありモデルは若干自信不足です。

2. 教師ありConvNeXtは教師ありViTキャリブレーションよりもパフォーマンスが優れています。

堅牢性と携帯性

モデルの堅牢性と移植性は、データ分布の変化や新しいタスクに適応するために不可欠です。研究者らは、さまざまな ImageNet バリアントを使用して堅牢性を評価した結果、ViT モデルと ConvNeXt モデルの平均パフォーマンスは同等であったものの、ImageNet-R と ImageNet-Sketch を除き、堅牢性の点では一般に教師ありモデルが CLIP を上回っていることを発見しました。転移可能性の点では、19 のデータセットを使用した VTAB ベンチマークで評価したところ、教師あり ConvNeXt は ViT よりも優れており、CLIP モデルのパフォーマンスとほぼ同等でした。

合成データ

PUG-ImageNet などの合成データセットは、カメラの角度やテクスチャなどの要素を正確に制御できるため、有望な研究方法であるため、研究者は合成データでのモデルのパフォーマンスを分析しました。 PUG-ImageNet には、ポーズや照明などの要素が体系的に変化したリアルな ImageNet 画像が含まれており、パフォーマンスは絶対的なトップ 1 精度で測定されます。研究者らは、PUG-ImageNet のさまざまな要素について結果を提供し、ConvNeXt がほぼすべての要素で ViT を上回っていることを発見しました。これは、合成データでは ConvNeXt が ViT よりも優れていることを示していますが、CLIP モデルの精度は教師ありモデルの精度よりも低いため、CLIP モデルの差は小さくなっています。これは、元の ImageNet の精度が低いことに関係している可能性があります。

変換不変性

変換不変性とは、スケーリングや変換などの入力変換に関係なく、セマンティクスを保持する一貫した表現を生成するモデルの能力を指します。この特性により、モデルは異なるが意味的に類似した入力全体にわたって適切に一般化できるようになります。研究者が使用した方法には、スケール不変性を実現するために画像のサイズを変更すること、位置不変性を実現するために切り抜きを移動すること、補間された位置埋め込みを使用して ViT モデルの解像度を調整することなどが含まれます。

彼らは、切り抜きスケール/位置と画像解像度を変化させることで、ImageNet-1K のスケール、動き、解像度の不変性を評価します。教師ありトレーニングでは、ConvNeXt は ViT よりも優れたパフォーマンスを発揮します。一般に、モデルは動きよりもスケール/解像度の変化に対して堅牢です。スケール、変位、解像度に対して高い堅牢性を必要とするアプリケーションの場合、結果は、教師あり ConvNeXt が最適な選択肢である可能性があることを示唆しています。

要約する

一般的に、各モデルには独自の利点があります。これは、標準的なパフォーマンスメトリックでは特定のタスクの重要なニュアンスが見落とされる可能性があるため、モデルの選択は対象のユースケースに応じて行う必要があることを示唆しています。さらに、既存のベンチマークの多くは ImageNet から派生したもので、これも評価に偏りをもたらす可能性があります。現実世界をよりよく表す設定でモデルを評価するには、異なるデータ分布を持つ新しいベンチマークを開発することが重要です。

この記事の結論の要約は次のとおりです。

ConvNet と Transformer

1. 教師あり ConvNeXt は、多くのベンチマークで教師あり ViT よりも優れています。より適切に調整され、データ変換に対してより不変であり、より優れた転送性と堅牢性を示します。

2. 合成データでは、ConvNeXt は ViT よりも優れたパフォーマンスを発揮します。

3. ViT は形状偏差が大きくなります。

監督とCLIP

1. CLIP モデルは転送性に優れていますが、このタスクでは教師あり ConvNeXt が競争力を発揮します。これは教師ありモデルの可能性を示しています。

2. 教師ありモデルは堅牢性ベンチマークで優れたパフォーマンスを発揮しますが、これはこれらのモデルがすべて ImageNet のバリアントであるためと考えられます。

3. CLIP モデルは、ImageNet の精度と比較して、形状バイアスが大きく、分類エラーが少なくなります。

<<: Googleがまた新しいことを始める: 視覚言語モデルに空間推論をさせる

>>: GPT-4を使用すると、成績の悪い生徒は成績の良い生徒よりも有利になる

ブログ

最強のLLaMAが突如降臨！ハイパーパラメータを 1 つだけ変更するだけで、32,000 個のコンテキストトークンを達成し、複数のタスクで ChatGPT と Claude 2 を上回ることができます。

ポストSORA時代において、CV実践者はどのようにモデルを選択するのでしょうか?畳み込みまたはViT、教師あり学習またはCLIPパラダイム

モデルの選択

分析する

要約する

トレーニングは不要、自動的にスケーラブルなビジュアルトランスフォーマーが登場

人工知能は意識を発達させることができるか？人間の心をシミュレートすることがAIの究極の目標である

データサイエンティストと開発者向けの新しいツールであるAmazon SageMakerが中国で利用可能になりました

ビッグモデルの「錯覚」、この記事を読んでください

最強のLLaMAが突如降臨！ハイパーパラメータを 1 つだけ変更するだけで、32,000 個のコンテキストトークンを達成し、複数のタスクで ChatGPT と Claude 2 を上回ることができます。

人工知能: キャリア開発のための3つの戦略

マイクロソフトリサーチアジアと教育省が協力し、AI産業と教育の統合に向けた双方にメリットのあるエコシステムの構築に取り組んでいます。

推薦する

ロシアメディア：人工知能は顔認識技術を使って宗教的傾向を判断できる

アルゴリズムの力: プログラマーはデスクトップコンピューターを使用して、スーパーコンピューターの世界記録を破ります

Google は、99% のプログラマーに勝る AutoML を Kaggle プラットフォームに統合しました。

アリババのナレッジグラフが初めて公開: 1日あたり数千万のブロックデータ、数十億の完全インテリジェント監査

ドイツメディア：EUは人工知能の乱用を制限する法律制定を計画

Nvidia、テキストスケッチを入力するだけでリアルな写真を生成できるGAN「スーパースティッチャー」を発表

一時停止トークンを使用して大規模モデルを再トレーニングすると、AIは行動する前によく考えることを学ぶ

約100機のドローンが「爆発」し、重慶の建物に墜落した！プログラムエラー、ホストクラッシュ

医療における人工知能：医師よりも正確

コーディング能力はGPT-4を超え、このモデルはBig Codeランキングでトップとなり、YC創設者も賞賛している

Microsoft Megvii の顔認識は 100% 動作不能! 写真の「見えないマント」で写真のプライバシーデータを保護

ロボットが商品を移動、無人仕分け、梱包作業員が異動・昇進…「ダブル11」の裏側にあるサプライチェーンアップグレード戦争