Meta AIは、ImageNetの事前トレーニングを超えて、小規模データセット向けの自己教師付き事前トレーニングであるSplitMaskを提案しています。

Meta AIは、ImageNetの事前トレーニングを超えて、小規模データセット向けの自己教師付き事前トレーニングであるSplitMaskを提案しています。

現在、コンピューター ビジョン ニューラル ネットワークは高度にパラメータ化されています。通常、数千万から数億のパラメータがあり、これが ImageNet などの大規模な画像コレクションを活用する際の成功の鍵となります。ただし、これらの大容量モデルは、小規模なデータセット(数十万枚の画像を含む)や中規模のデータセットでは過剰適合する傾向があります。そのため、2014年に一部の研究者は次のように指摘しました。CNNを学習するプロセスは、何百万ものモデルパラメータを推定することに相当し、大量のラベル付きデータが必要になります。

今日、データ不足に対処するための主流の学習パラダイムは、大規模なデータセット (Imagenet など) でモデルを事前トレーニングし、特定のタスクに基づいて小規模なデータセットでモデルを微調整することです。このトレーニング手順は、多くの場合、最初からトレーニングする(たとえば、最初からランダムにパラメータを初期化する)よりも優れています。

この学習パラダイムは、検出、セグメンテーション、アクション認識などの多くのタスクで SOTA パフォーマンスを達成しています。このアプローチは成功していますが、このような大規模なラベル付きデータセットによってもたらされる利点を事前トレーニングパラダイムの制限から切り離すことは困難です。これに加えて、あるデータセットでモデルを事前トレーニングし、別のデータセットで微調整すると、矛盾が生じます。

Meta AI や他の機関の研究者は、ターゲットタスクデータのみを使用する自己教師型の事前トレーニングシナリオを検討しました。使用されるデータセットには、たとえば、Stanford Cars、Sketch、COCO などがありますが、これらは Imagenet よりも桁違いに小さいです。

この研究では、本論文で紹介したノイズ除去オートエンコーダ(BEiT やそのバリエーションなど)が、事前トレーニング データの種類とサイズに対してより堅牢であることが示されています。この研究では、ImageNet による事前トレーニングと比較して競争力のあるパフォーマンスを達成しました。 COCO では、COCO 画像のみを使用して事前トレーニングすると、検出およびインスタンス分割タスクにおける教師あり ImageNet 事前トレーニングのパフォーマンスを上回ります。

論文アドレス: https://arxiv.org/pdf/2112.10740.pdf

論文紹介

この論文では、画像の数と性質が自己教師モデルの品質にどのように影響するかを調査します。この予備分析では、ノイズ除去オートエンコーダーの代表として BEiT と SplitMask (セクション 4 のバリアント) を、結合埋め込み法 DINO (Facebook がリリースした教師なし学習) としてそれぞれ紹介します。

SplitMask は、ビジュアル トランスフォーマーに基づくノイズ除去オートエンコーダのバリエーションです。この方法の概要を図 4 に示します。

SplitMask アーキテクチャ

スプリットマスク

SplitMask は、分割、インペイント、一致の 3 つのステップで完了します。標準的なビジョン トランスフォーマーと同様に、画像は最初に 16×16 のパッチに分解され、次に 2 つの独立したサブセット A と B に分割されます。次に、研究者はサブセット A のパッチ表現と浅いデコーダーを使用してサブセット B のパッチを修復し、その逆も同様に行います。最後に、各ブランチに対応するデコーダーによって出力されたパッチ表現を平均プーリングすることによって、グローバル画像記述子が得られます。次に研究者らは、サブセット A から得られた画像のグローバル記述子を、サブセット B から得られた画像のグローバル記述子と一致させようとしました。

エンコーダ/デコーダアーキテクチャ

SplitMask は、エンコーダー/デコーダー アーキテクチャに依存するパイプラインを実装します。モデルのエンコーダーは、絶対位置埋め込みを備えた標準的なビジュアル トランスフォーマーです。 BEiT アプローチとは対照的に、このエンコーダーはマスクされたトークン表現を処理せず、観測されたトークンのみを処理します。したがって、画像は線形埋め込みパッチに分割され、これらの表現に位置埋め込みが追加されます。これらの表現は、A と B の 2 つのサブセットに分割され、標準のトランスフォーマー レイヤーによって個別に処理されます。

全体的なコントラストの低下

この研究では、パッチ レベルでの MIM 損失の計算に加えて、画像レベルでのコントラスト損失も使用します。この目的のために、本研究ではデコーダーのすべての出力表現に平均プーリング操作を適用します。各画像には、観測されたパッチ サブセット A と B に対応する 2 つの表現 x_a と x_b が与えられます。 InfoNCE損失[59]はこれらの表現に適用されます。

実験

まず、実験では、さまざまなデータセットでのコンピューター ビジョン モデルの事前トレーニングと微調整を研究しました。詳細については、データセット名、トレーニング データとテスト データの分布などが記載されている表 3 を参照してください。

予測タスク

まず、本研究ではMask R-CNNパイプライン[8]を用いて、COCO物体検出およびインスタンスセグメンテーションデータセットでSplitMaskを評価した。表4に評価結果を示す。

結果は、同じ BEiT モデルで、COCO データセットのみで事前トレーニングされたモデルの方が、ImageNet で事前トレーニングされたモデルよりも下流タスクのパフォーマンスが優れていることを示しています。たとえば、ViT ベースのバックボーンを使用する場合、ImageNet ではなく COCO で事前トレーニングを行うと、ボックス AP が +0.4 向上します。

表6はデジタル分類データセットの実証的評価結果を示しています。

表 7 は、ViT-S および ViT-B バックボーンと 300 エポックの事前トレーニングを使用した SplitMask メソッドのパフォーマンスを、他の最近の Transformer ベースの自己教師学習メソッドと比較したものです。

<<:  ナンバーワンのディープラーニングフレームワークはどれですか? 2022年、PyTorchとTensorFlowが再び競い合う

>>:  画像の混合を利用してより細かい特徴表現を学習するCMU Xing Boのチームの新しい論文がAAAIに選出されました

ブログ    
ブログ    

推薦する

アンビエントコンピューティングが次の大きなトレンドになる理由

アンビエント コンピューティングとは、テクノロジーが環境にシームレスに溶け込み、日常生活に浸透する世...

...

校内暴力を予防し解決するために、AIは子どもたちのために何ができるでしょうか?

[[228688]]あなたはキャンパスライフに満足していますか?多くの人が「はい」と答えると思いま...

動物の顔認識技術は何に使われますか?

動物を正確に識別できる技術は、迷子になった動物を飼い主と再会させたり、農家が家畜を監視したり、研究者...

人工知能の時代においても、人間同士の交流は依然として重要である

実際、AI はほとんどの人間同士のやり取りに取って代わっています。デジタルアシスタントや AI ベー...

インテリジェントソフトウェアが現代の製造業に革命を起こす

テクノロジーが進歩を左右するこの急速に変化する時代において、製造業界は大きな変化を遂げています。この...

消費財の画像認識:無人店舗を支える商品認識技術

[[208848]]人工知能は世界を席巻しており、AIの重要な分野の1つであるコンピュータービジョン...

...

...

機械学習における 5 つの現実的な問題とビジネスへの影響

今日、多くの企業は大量のデータを迅速に処理する必要があります。同時に、競争環境は急速に進化しているた...

IBMは、人間の音声認識の実際の単語エラー率は5.1%であると主張している。

昨年 10 月、マイクロソフトの AI および研究部門の研究者およびエンジニアのチームは、自社の音声...

...

顔認証決済を使用する理由は何ですか?顔認証決済は安全ですか?

顔認証決済に顔認識を使用する理由は何ですか? [[439417]]外で何かを買いたいのに、財布を持っ...

...