MAEよりも強力なFAIRの新しいメソッドMaskFeatはHOGを使用して複数のSOTAを更新します

マスク・アンド・予測法は、コンピュータービジョンの分野における新しい流派となるかもしれません。

自己教師あり事前トレーニングは自然言語処理において驚くべき成功を収めており、その基本的な考え方にはマスク予測タスクが含まれています。以前、He Kaiming 氏の論文「Masked Autoencoders Are Scalable Vision Learners」では、NLP 分野のマスクと予測法を視覚の問題に適用した、シンプルで実用的な自己教師あり学習スキーム MAE が提案されました。現在、Facebook AI Research Institute (FAIR) の研究チームが、新しい自己教師あり視覚事前トレーニング方法である MaskFeat を提案しました。

論文アドレス: https://arxiv.org/pdf/2112.09133.pdf

MaskFeat は、まず入力シーケンスの一部をランダムにマスクし、次にマスクされた領域の特徴を予測します。研究者たちは、5 種類の異なる特徴を研究した結果、方向勾配ヒストグラム (HOG) がパフォーマンスと効率の両方に優れた優れた特徴記述方法であることを発見しました。研究者らはまた、HOG における局所的なコントラストの正規化が良好な結果を達成する上で非常に重要であることを観察しました。これは、視覚認識に HOG を使用した以前の研究と一致しています。

このアプローチは、豊富な視覚知識を学習し、大規模な Transformer ベースのモデルを駆動できます。追加のモデル重みと監督を使用せずに、MaskFeat はラベルなしビデオで事前トレーニングされ、MViT-L を使用して Kinetics-400 で前例のない 86.7% のトップ 1 精度を達成します。さらに、MaskFeat は画像入力にさらに一般化することができ、ImageNet で競争力のある結果を達成します。

方法

マスクされた視覚予測タスクは、マスクされた視覚コンテンツを修復することを目的としています。マスクサンプルをモデル化することで、モデルはオブジェクトの部分と動きを識別するという意味でのビデオ理解を実現します。たとえば、下の画像を完成させるには、モデルはまず可視領域に基づいてオブジェクトを識別し、さらにオブジェクトの全体的な形状と動きを把握して、欠落している領域を埋める必要があります。

このタスクの重要な要素はターゲットを予測することです。自然言語処理タスクでは、マスク言語モデリングは語彙を使用してコーパスをターゲットとしてトークン化します。視覚領域では、生の視覚信号は連続的かつ高次元であり、利用できる自然な「語彙」はありません。

したがって、MaskFeat はマスクされた領域の特徴を予測することを提案します。元の完全なサンプルから抽出された特徴を利用して監視が提供されます。ターゲット機能の選択は、事前トレーニング済みモデルの特性に大きく影響します。この研究では、機能の幅広い解釈を提供し、主に 5 つの異なるタイプのターゲット機能を考慮します。

まず、研究者らはターゲットの特徴を 2 つのグループに分けました。1) ピクセルの色や HOG など、直接取得できる 1 段階のターゲット、2) トレーニング済みのディープネットワークによって抽出された 2 段階のターゲットです。予測された 2 段階の目的は、十分にトレーニングされたディープネットワーク (モデル蒸留に類似) の助けを借りて効果的に学習されるため、教師モデルの事前トレーニングと推論の追加の計算コストは避けられません。この研究で調査された主な 5 つの機能タイプは次のとおりです。

ピクセルカラー;
方向勾配ヒストグラム (HOG)
離散変分オートエンコーダ（dVAE）
深い特徴;
疑似ラベル付け。

この研究では、一連の分析を通じてこれら 5 つの特性の長所と短所を調査しました。マスク言語モデリングは、もともと定義済みの語彙のカテゴリ分布を予測しますが、BEiT での離散化には視覚情報は必要ありません。分析結果によると、連続的な教師なし特徴と画像記述子は、前者はモデルの蒸留を必要とし、後者は追加の計算オーバーヘッドを必要としないため、より優れたパフォーマンスの予測ターゲットであることがわかります。

さらに、ターゲット機能の教師ありトレーニングでは結果が悪くなることがわかりました。これは、機能内に存在するクラスレベルの特定の情報に関連している可能性があります。つまり、このアプローチはローカルマスクモデリングにはグローバルすぎます。一般的に、パフォーマンスと計算コストのトレードオフを考慮して、この研究では最終的に HOG を MaskFeat のデフォルト機能として選択しました。

HOG (方向勾配ヒストグラム) 機能は、コンピュータービジョンと画像処理におけるオブジェクト検出に使用される機能記述方法です。これは、CVPR 2005 の論文「人間検出のための方向勾配ヒストグラム」で初めて提案されました。

HOG特徴抽出のプロセスは次のとおりです。まず、サンプル画像をいくつかのピクセル単位に分割し、勾配方向を均等に複数の区間に分割し、各方向区間で各単位内のすべてのピクセルの勾配方向のヒストグラム統計を実行して、多次元特徴ベクトルを取得します。隣接する各単位は区間を構成します。区間内の特徴ベクトルを接続して、多次元特徴ベクトルを取得します。サンプル画像は区間を使用してスキャンされ、スキャンステップは1単位です。最後に、すべてのブロックの機能が直列に接続され、完全な機能が得られます。

動画認識に基づく実験

この研究では、MaskFeat を K400 データセットの以前の研究と比較しました。結果を下の表 3 に示します。MaskFeat を使用した MViT-L は、Kinetics-400 で新しい SOTA (トップ 1 精度 86.7%) を達成しました。

転移学習

この方法の下流タスクでの転移学習パフォーマンスを評価するために、この研究では、AVA v2.2でMViT-L↑312,40×3 Kineticsモデルを微調整しました。実験結果を上の表3と下の表4に示します。トップ1精度はK600で88.3％、K700で80.4％で、どちらも新しいSOTAを達成しました。

この研究では、MViT-L↑312,40×3 Kinetics モデルを AVA v2.2 で微調整しました。下の表 5 は、既存の方法と比較した MaskFeat モデルの平均精度 (mAP) を示しています。 MaskFeat は、フル解像度テストで前例のない 38.8 mAP を達成し、これまでのすべての方法を大幅に上回りました。

興味のある読者は、研究の詳細について原著論文を読むことができます。

<<: 地球外文明の探査における人工知能技術の応用

>>: あなたが言う、私が描く、あなたが描く、私が言う：ERNIE-ViLG、世界最大の中国語クロスモーダル生成モデル