Meta AIは、ImageNetの事前トレーニングを超えて、小規模データセット向けの自己教師付き事前トレーニングであるSplitMaskを提案しています。

Meta AIは、ImageNetの事前トレーニングを超えて、小規模データセット向けの自己教師付き事前トレーニングであるSplitMaskを提案しています。

現在、コンピューター ビジョン ニューラル ネットワークは高度にパラメータ化されています。通常、数千万から数億のパラメータがあり、これが ImageNet などの大規模な画像コレクションを活用する際の成功の鍵となります。ただし、これらの大容量モデルは、小規模なデータセット(数十万枚の画像を含む)や中規模のデータセットでは過剰適合する傾向があります。そのため、2014年に一部の研究者は次のように指摘しました。CNNを学習するプロセスは、何百万ものモデルパラメータを推定することに相当し、大量のラベル付きデータが必要になります。

今日、データ不足に対処するための主流の学習パラダイムは、大規模なデータセット (Imagenet など) でモデルを事前トレーニングし、特定のタスクに基づいて小規模なデータセットでモデルを微調整することです。このトレーニング手順は、多くの場合、最初からトレーニングする(たとえば、最初からランダムにパラメータを初期化する)よりも優れています。

この学習パラダイムは、検出、セグメンテーション、アクション認識などの多くのタスクで SOTA パフォーマンスを達成しています。このアプローチは成功していますが、このような大規模なラベル付きデータセットによってもたらされる利点を事前トレーニングパラダイムの制限から切り離すことは困難です。これに加えて、あるデータセットでモデルを事前トレーニングし、別のデータセットで微調整すると、矛盾が生じます。

Meta AI や他の機関の研究者は、ターゲットタスクデータのみを使用する自己教師型の事前トレーニングシナリオを検討しました。使用されるデータセットには、たとえば、Stanford Cars、Sketch、COCO などがありますが、これらは Imagenet よりも桁違いに小さいです。

この研究では、本論文で紹介したノイズ除去オートエンコーダ(BEiT やそのバリエーションなど)が、事前トレーニング データの種類とサイズに対してより堅牢であることが示されています。この研究では、ImageNet による事前トレーニングと比較して競争力のあるパフォーマンスを達成しました。 COCO では、COCO 画像のみを使用して事前トレーニングすると、検出およびインスタンス分割タスクにおける教師あり ImageNet 事前トレーニングのパフォーマンスを上回ります。

論文アドレス: https://arxiv.org/pdf/2112.10740.pdf

論文紹介

この論文では、画像の数と性質が自己教師モデルの品質にどのように影響するかを調査します。この予備分析では、ノイズ除去オートエンコーダーの代表として BEiT と SplitMask (セクション 4 のバリアント) を、結合埋め込み法 DINO (Facebook がリリースした教師なし学習) としてそれぞれ紹介します。

SplitMask は、ビジュアル トランスフォーマーに基づくノイズ除去オートエンコーダのバリエーションです。この方法の概要を図 4 に示します。

SplitMask アーキテクチャ

スプリットマスク

SplitMask は、分割、インペイント、一致の 3 つのステップで完了します。標準的なビジョン トランスフォーマーと同様に、画像は最初に 16×16 のパッチに分解され、次に 2 つの独立したサブセット A と B に分割されます。次に、研究者はサブセット A のパッチ表現と浅いデコーダーを使用してサブセット B のパッチを修復し、その逆も同様に行います。最後に、各ブランチに対応するデコーダーによって出力されたパッチ表現を平均プーリングすることによって、グローバル画像記述子が得られます。次に研究者らは、サブセット A から得られた画像のグローバル記述子を、サブセット B から得られた画像のグローバル記述子と一致させようとしました。

エンコーダ/デコーダアーキテクチャ

SplitMask は、エンコーダー/デコーダー アーキテクチャに依存するパイプラインを実装します。モデルのエンコーダーは、絶対位置埋め込みを備えた標準的なビジュアル トランスフォーマーです。 BEiT アプローチとは対照的に、このエンコーダーはマスクされたトークン表現を処理せず、観測されたトークンのみを処理します。したがって、画像は線形埋め込みパッチに分割され、これらの表現に位置埋め込みが追加されます。これらの表現は、A と B の 2 つのサブセットに分割され、標準のトランスフォーマー レイヤーによって個別に処理されます。

全体的なコントラストの低下

この研究では、パッチ レベルでの MIM 損失の計算に加えて、画像レベルでのコントラスト損失も使用します。この目的のために、本研究ではデコーダーのすべての出力表現に平均プーリング操作を適用します。各画像には、観測されたパッチ サブセット A と B に対応する 2 つの表現 x_a と x_b が与えられます。 InfoNCE損失[59]はこれらの表現に適用されます。

実験

まず、実験では、さまざまなデータセットでのコンピューター ビジョン モデルの事前トレーニングと微調整を研究しました。詳細については、データセット名、トレーニング データとテスト データの分布などが記載されている表 3 を参照してください。

予測タスク

まず、本研究ではMask R-CNNパイプライン[8]を用いて、COCO物体検出およびインスタンスセグメンテーションデータセットでSplitMaskを評価した。表4に評価結果を示す。

結果は、同じ BEiT モデルで、COCO データセットのみで事前トレーニングされたモデルの方が、ImageNet で事前トレーニングされたモデルよりも下流タスクのパフォーマンスが優れていることを示しています。たとえば、ViT ベースのバックボーンを使用する場合、ImageNet ではなく COCO で事前トレーニングを行うと、ボックス AP が +0.4 向上します。

表6はデジタル分類データセットの実証的評価結果を示しています。

表 7 は、ViT-S および ViT-B バックボーンと 300 エポックの事前トレーニングを使用した SplitMask メソッドのパフォーマンスを、他の最近の Transformer ベースの自己教師学習メソッドと比較したものです。

<<:  ナンバーワンのディープラーニングフレームワークはどれですか? 2022年、PyTorchとTensorFlowが再び競い合う

>>:  画像の混合を利用してより細かい特徴表現を学習するCMU Xing Boのチームの新しい論文がAAAIに選出されました

ブログ    
ブログ    
ブログ    

推薦する

GoogleがAIトレーニングを高速化する新手法を提案、GPUのアイドル時間を圧縮して3倍以上高速化

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

このクラウドは、AIが後半にどのように発展するかを知っている

今年はAI技術の導入が話題になっています。 AIは本当に実装されているのでしょうか?真実を語るには実...

デジタルヘルスのイノベーションを妨げる5つの主要な課題

現在、医療業界はこれまで以上に、コストの上昇を抑制し、アクセスを向上させ、人材不足による問題を緩和し...

ハイブリッドクラウドプラットフォームがデータの障壁を打ち破り、人工知能がデータの価値を活性化

デジタル経済の時代において、企業の将来の競争力を形成する鍵として、データの価値は企業からますます注目...

Applitools はビジュアル AI テストをネイティブ モバイル アプリに拡張します

Applitools は本日、オンライン イベント「Future Testing: Mobile」に...

ロボットが家事の仕事を代行:人間のデモンストレーション動画を見るだけで、10時間でコーヒーの淹れ方を学ぶ

先週、スタンフォード大学のエビ揚げロボットが爆発事故を起こした後、コーヒーを作るロボットが再び人気を...

人工知能教育とは何ですか?将来の教育の顕著な特徴は何でしょうか?

グローバル情報化教育の時代において、教育モデル、教育内容、学習方法は大きな変化を遂げており、人工知能...

圧縮アルゴリズムについての簡単な説明

1. 冒頭発言お久しぶりです。白部長です。研究であれ実践であれ、既存の問題、解決策、ボトルネック、突...

108 言語をサポートする Google 翻訳は、AI をどのように活用して翻訳の品質を向上させているのでしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

AIとIoT:この2つの強力なテクノロジーが将来のビジネスモデルをどう変えるのか

無人ドローンや機械学習が一般的になる前、ジェームズ・キャメロンは1984年に自身の夢のプロジェクトで...

同じプレフィックスとサフィックスを持つファイルを同じディレクトリに移動するためのアルゴリズム設計と C コードの実装

1. 要件の説明Linux システムの複数のディレクトリに、同じプレフィックスとサフィックスを持つフ...

...

DAMOアカデミーが大規模モデルテストベンチマークを発表: GPT-4はかろうじて合格、他のモデルはすべて不合格

ビッグモデルの発展、特に最近のさまざまなオープンソースのビッグモデルのリリースにより、さまざまなモデ...

GPT-4P がマルチモーダルプロンプトインジェクションイメージ攻撃に対して脆弱なのはなぜですか?

OpenAI の新しい GPT-4V バージョンは画像のアップロードをサポートしており、これにより...

開発から生産まで: 機械学習に関する 7 つの実践的な提案

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...