Meta AIは、ImageNetの事前トレーニングを超えて、小規模データセット向けの自己教師付き事前トレーニングであるSplitMaskを提案しています。

現在、コンピュータービジョンニューラルネットワークは高度にパラメータ化されています。通常、数千万から数億のパラメータがあり、これが ImageNet などの大規模な画像コレクションを活用する際の成功の鍵となります。ただし、これらの大容量モデルは、小規模なデータセット（数十万枚の画像を含む）や中規模のデータセットでは過剰適合する傾向があります。そのため、2014年に一部の研究者は次のように指摘しました。CNNを学習するプロセスは、何百万ものモデルパラメータを推定することに相当し、大量のラベル付きデータが必要になります。

今日、データ不足に対処するための主流の学習パラダイムは、大規模なデータセット (Imagenet など) でモデルを事前トレーニングし、特定のタスクに基づいて小規模なデータセットでモデルを微調整することです。このトレーニング手順は、多くの場合、最初からトレーニングする（たとえば、最初からランダムにパラメータを初期化する）よりも優れています。

この学習パラダイムは、検出、セグメンテーション、アクション認識などの多くのタスクで SOTA パフォーマンスを達成しています。このアプローチは成功していますが、このような大規模なラベル付きデータセットによってもたらされる利点を事前トレーニングパラダイムの制限から切り離すことは困難です。これに加えて、あるデータセットでモデルを事前トレーニングし、別のデータセットで微調整すると、矛盾が生じます。

Meta AI や他の機関の研究者は、ターゲットタスクデータのみを使用する自己教師型の事前トレーニングシナリオを検討しました。使用されるデータセットには、たとえば、Stanford Cars、Sketch、COCO などがありますが、これらは Imagenet よりも桁違いに小さいです。

この研究では、本論文で紹介したノイズ除去オートエンコーダ（BEiT やそのバリエーションなど）が、事前トレーニングデータの種類とサイズに対してより堅牢であることが示されています。この研究では、ImageNet による事前トレーニングと比較して競争力のあるパフォーマンスを達成しました。 COCO では、COCO 画像のみを使用して事前トレーニングすると、検出およびインスタンス分割タスクにおける教師あり ImageNet 事前トレーニングのパフォーマンスを上回ります。

論文アドレス: https://arxiv.org/pdf/2112.10740.pdf

論文紹介

この論文では、画像の数と性質が自己教師モデルの品質にどのように影響するかを調査します。この予備分析では、ノイズ除去オートエンコーダーの代表として BEiT と SplitMask (セクション 4 のバリアント) を、結合埋め込み法 DINO (Facebook がリリースした教師なし学習) としてそれぞれ紹介します。

SplitMask は、ビジュアルトランスフォーマーに基づくノイズ除去オートエンコーダのバリエーションです。この方法の概要を図 4 に示します。

SplitMask アーキテクチャ

スプリットマスク

SplitMask は、分割、インペイント、一致の 3 つのステップで完了します。標準的なビジョントランスフォーマーと同様に、画像は最初に 16×16 のパッチに分解され、次に 2 つの独立したサブセット A と B に分割されます。次に、研究者はサブセット A のパッチ表現と浅いデコーダーを使用してサブセット B のパッチを修復し、その逆も同様に行います。最後に、各ブランチに対応するデコーダーによって出力されたパッチ表現を平均プーリングすることによって、グローバル画像記述子が得られます。次に研究者らは、サブセット A から得られた画像のグローバル記述子を、サブセット B から得られた画像のグローバル記述子と一致させようとしました。

エンコーダ/デコーダアーキテクチャ

SplitMask は、エンコーダー/デコーダーアーキテクチャに依存するパイプラインを実装します。モデルのエンコーダーは、絶対位置埋め込みを備えた標準的なビジュアルトランスフォーマーです。 BEiT アプローチとは対照的に、このエンコーダーはマスクされたトークン表現を処理せず、観測されたトークンのみを処理します。したがって、画像は線形埋め込みパッチに分割され、これらの表現に位置埋め込みが追加されます。これらの表現は、A と B の 2 つのサブセットに分割され、標準のトランスフォーマーレイヤーによって個別に処理されます。

全体的なコントラストの低下

この研究では、パッチレベルでの MIM 損失の計算に加えて、画像レベルでのコントラスト損失も使用します。この目的のために、本研究ではデコーダーのすべての出力表現に平均プーリング操作を適用します。各画像には、観測されたパッチサブセット A と B に対応する 2 つの表現 x_a と x_b が与えられます。 InfoNCE損失[59]はこれらの表現に適用されます。

実験

まず、実験では、さまざまなデータセットでのコンピュータービジョンモデルの事前トレーニングと微調整を研究しました。詳細については、データセット名、トレーニングデータとテストデータの分布などが記載されている表 3 を参照してください。

予測タスク

まず、本研究ではMask R-CNNパイプライン[8]を用いて、COCO物体検出およびインスタンスセグメンテーションデータセットでSplitMaskを評価した。表4に評価結果を示す。

結果は、同じ BEiT モデルで、COCO データセットのみで事前トレーニングされたモデルの方が、ImageNet で事前トレーニングされたモデルよりも下流タスクのパフォーマンスが優れていることを示しています。たとえば、ViT ベースのバックボーンを使用する場合、ImageNet ではなく COCO で事前トレーニングを行うと、ボックス AP が +0.4 向上します。

表6はデジタル分類データセットの実証的評価結果を示しています。

表 7 は、ViT-S および ViT-B バックボーンと 300 エポックの事前トレーニングを使用した SplitMask メソッドのパフォーマンスを、他の最近の Transformer ベースの自己教師学習メソッドと比較したものです。

<<: ナンバーワンのディープラーニングフレームワークはどれですか? 2022年、PyTorchとTensorFlowが再び競い合う

>>: 画像の混合を利用してより細かい特徴表現を学習するCMU Xing Boのチームの新しい論文がAAAIに選出されました