MAEよりも強力なFAIRの新しいメソッドMaskFeatはHOGを使用して複数のSOTAを更新します

MAEよりも強力なFAIRの新しいメソッドMaskFeatはHOGを使用して複数のSOTAを更新します

マスク・アンド・予測法は、コンピュータービジョンの分野における新しい流派となるかもしれません。

自己教師あり事前トレーニングは自然言語処理において驚くべき成功を収めており、その基本的な考え方にはマスク予測タスクが含まれています。以前、He Kaiming 氏の論文「Masked Autoencoders Are Scalable Vision Learners」では、NLP 分野のマスクと予測法を視覚の問題に適用した、シンプルで実用的な自己教師あり学習スキーム MAE が提案されました。現在、Facebook AI Research Institute (FAIR) の研究チームが、新しい自己教師あり視覚事前トレーニング方法である MaskFeat を提案しました。

論文アドレス: https://arxiv.org/pdf/2112.09133.pdf

MaskFeat は、まず入力シーケンスの一部をランダムにマスクし、次にマスクされた領域の特徴を予測します。研究者たちは、5 種類の異なる特徴を研究した結果、方向勾配ヒストグラム (HOG) がパフォーマンスと効率の両方に優れた優れた特徴記述方法であることを発見しました。研究者らはまた、HOG における局所的なコントラストの正規化が良好な結果を達成する上で非常に重要であることを観察しました。これは、視覚認識に HOG を使用した以前の研究と一致しています。

このアプローチは、豊富な視覚知識を学習し、大規模な Transformer ベースのモデルを駆動できます。追加のモデル重みと監督を使用せずに、MaskFeat はラベルなしビデオで事前トレーニングされ、MViT-L を使用して Kinetics-400 で前例のない 86.7% のトップ 1 精度を達成します。さらに、MaskFeat は画像入力にさらに一般化することができ、ImageNet で競争力のある結果を達成します。

方法

マスクされた視覚予測タスクは、マスクされた視覚コンテンツを修復することを目的としています。マスクサンプルをモデル化することで、モデルはオブジェクトの部分と動きを識別するという意味でのビデオ理解を実現します。たとえば、下の画像を完成させるには、モデルはまず可視領域に基づいてオブジェクトを識別し、さらにオブジェクトの全体的な形状と動きを把握して、欠落している領域を埋める必要があります。

このタスクの重要な要素はターゲットを予測することです。自然言語処理タスクでは、マスク言語モデリングは語彙を使用してコーパスをターゲットとしてトークン化します。視覚領域では、生の視覚信号は連続的かつ高次元であり、利用できる自然な「語彙」はありません。

したがって、MaskFeat はマスクされた領域の特徴を予測することを提案します。元の完全なサンプルから抽出された特徴を利用して監視が提供されます。ターゲット機能の選択は、事前トレーニング済みモデルの特性に大きく影響します。この研究では、機能の幅広い解釈を提供し、主に 5 つの異なるタイプのターゲット機能を考慮します。

まず、研究者らはターゲットの特徴を 2 つのグループに分けました。1) ピクセルの色や HOG など、直接取得できる 1 段階のターゲット、2) トレーニング済みのディープ ネットワークによって抽出された 2 段階のターゲットです。予測された 2 段階の目的は、十分にトレーニングされたディープ ネットワーク (モデル蒸留に類似) の助けを借りて効果的に学習されるため、教師モデルの事前トレーニングと推論の追加の計算コストは​​避けられません。この研究で調査された主な 5 つの機能タイプは次のとおりです。

  • ピクセルカラー;
  • 方向勾配ヒストグラム (HOG)
  • 離散変分オートエンコーダ(dVAE)
  • 深い特徴;
  • 疑似ラベル付け。

この研究では、一連の分析を通じてこれら 5 つの特性の長所と短所を調査しました。マスク言語モデリングは、もともと定義済みの語彙のカテゴリ分布を予測しますが、BEiT での離散化には視覚情報は必要ありません。分析結果によると、連続的な教師なし特徴と画像記述子は、前者はモデルの蒸留を必要とし、後者は追加の計算オーバーヘッドを必要としないため、より優れたパフォーマンスの予測ターゲットであることがわかります。

さらに、ターゲット機能の教師ありトレーニングでは結果が悪くなることがわかりました。これは、機能内に存在するクラスレベルの特定の情報に関連している可能性があります。つまり、このアプローチはローカルマスクモデリングにはグローバルすぎます。一般的に、パフォーマンスと計算コストのトレードオフを考慮して、この研究では最終的に HOG を MaskFeat のデフォルト機能として選択しました。

HOG (方向勾配ヒストグラム) 機能は、コンピューター ビジョンと画像処理におけるオブジェクト検出に使用される機能記述方法です。これは、CVPR 2005 の論文「人間検出のための方向勾配ヒストグラム」で初めて提案されました。

HOG特徴抽出のプロセスは次のとおりです。まず、サンプル画像をいくつかのピクセル単位に分割し、勾配方向を均等に複数の区間に分割し、各方向区間で各単位内のすべてのピクセルの勾配方向のヒストグラム統計を実行して、多次元特徴ベクトルを取得します。隣接する各単位は区間を構成します。区間内の特徴ベクトルを接続して、多次元特徴ベクトルを取得します。サンプル画像は区間を使用してスキャンされ、スキャンステップは1単位です。最後に、すべてのブロックの機能が直列に接続され、完全な機能が得られます。

動画認識に基づく実験

この研究では、MaskFeat を K400 データセットの以前の研究と比較しました。結果を下の表 3 に示します。MaskFeat を使用した MViT-L は、Kinetics-400 で新しい SOTA (トップ 1 精度 86.7%) を達成しました。

転移学習

この方法の下流タスクでの転移学習パフォーマンスを評価するために、この研究では、AVA v2.2でMViT-L↑312,40×3 Kineticsモデルを微調整しました。実験結果を上の表3と下の表4に示します。トップ1精度はK600で88.3%、K700で80.4%で、どちらも新しいSOTAを達成しました。

この研究では、MViT-L↑312,40×3 Kinetics モデルを AVA v2.2 で微調整しました。下の表 5 は、既存の方法と比較した MaskFeat モデルの平均精度 (mAP) を示しています。 MaskFeat は、フル解像度テストで前例のない 38.8 mAP を達成し、これまでのすべての方法を大幅に上回りました。

興味のある読者は、研究の詳細について原著論文を読むことができます。

<<:  地球外文明の探査における人工知能技術の応用

>>:  あなたが言う、私が描く、あなたが描く、私が言う:ERNIE-ViLG、世界最大の中国語クロスモーダル生成モデル

ブログ    
ブログ    
ブログ    

推薦する

AIがデータセンター運営者が直面する課題をどう解決するか

業界の専門家が、業界内で発生する運用上の課題の解決に AI がどのように役立つか、データ センター業...

エッジAIとは何ですか?

エッジ AI は、今日のデジタル変革の時代に台頭している 2 つのテクノロジー、エッジ コンピューテ...

...

ついに誰かが「組み込み人工知能」を明らかにした

組み込み人工知能とは、組み込み環境で人工知能を実行することです。アルゴリズムモデルは以前と同じですが...

これはオートエンコーダーとRNNの両方である。DeepMindの科学者は拡散モデルを8つの観点から分析する。

最も人気のある AI ペイント ツールの 1 つである Stable Diffusion を試したこ...

人工知能は核爆弾と同じくらい人類にとって脅威なのでしょうか? AI脅威理論の謎を解く

新たに世界一の富豪となり、テスラのCEO、そしてテクノロジー界の大物となったマスク氏は、ロボットが近...

...

DeepMindは、オンラインで攻撃的な言葉を出力することに特化したZaun AIを提案している

言語モデル (LM) は、不快な言葉を生成する可能性がしばしばあり、モデルの展開にも影響を及ぼします...

最も暑い夏の日がやってきました。ドローンを飛ばすのに最適な時期です

さて、一年で最も暑い時期、真夏が正式に到来しました。今年の猛暑は7月11日から8月19日までの40日...

フォーブス誌の2020年AIに関するトップ10予測: 人工知能はますます「疎外」されつつある

人工知能 (AI) は間違いなく 2010 年代のテクノロジーのテーマであり、新しい 10 年が始ま...

人工知能と医師が出会ったら何が起こるかを伝える7つの短編物語

[[187416]] Huxiu 注: この記事は、4 月 3 日に The New Yorker ...

自動運転における説明可能なAIのレビューと今後の研究の方向性

2021 年 12 月 21 日に arXiv にアップロードされた自動運転のための説明可能な AI...

Web 2.0 のソーシャル関連性ランキング アルゴリズムの探究

FriendFeed は最近検索機能を開始しましたが、Facebook もすぐに追随すると思います。...

マッピングドローンは多くの「ファン」を獲得しており、これらの利点は刺激的です

近年、技術が成熟するにつれ、我が国の民間ドローン産業は急速な発展を遂げてきました。 「2019年中国...

機械学習、ディープラーニング、強化学習の関係と違いは何ですか?

これには、機械学習のサブフィールドの分類が含まれます。すべての分類において、最初に尋ねるべき質問は、...