畳み込みなしでTransformerのみをベースにした初のビデオ理解アーキテクチャがリリースされました

Facebook AI は、Transformer を完全にベースとし、畳み込みが不要で、トレーニング速度が速く、計算コストが低い新しいビデオ理解アーキテクチャを提案しました。

TimeSformer は、Transformer を完全にベースとした最初のビデオフレームワークです。近年、トランスフォーマーは、機械翻訳、一般的な言語理解など、自然言語処理 (NLP) の分野における多くのアプリケーションの主要なアプローチとなっています。

TimeSformer は、Kinetics-400 アクション認識データセットを含むいくつかの難しいアクション認識ベンチマークで最先端のパフォーマンスを実現します。さらに、3D 畳み込みニューラルネットワーク (CNN) と比較すると、TimeSformer はトレーニングが約 3 倍高速で、推論に必要な計算量は 10 分の 1 以下です。

論文リンク:
出典: http://arxiv.org/pdf/2102.05095.pdf

さらに、TimeSformer のスケーラビリティにより、より長いビデオクリップでより大きなモデルをトレーニングすることが可能になります。これにより、AI システムがビデオ内のより複雑な人間の行動を理解できるようになるため、複雑な人間の行動を理解する必要がある AI アプリケーションにとって非常に有益です。

2 つのアクション認識ベンチマーク、Kinetics-400 (左) と Kinetics-600 (右) における、TimeSformer と現在の最先端の 3D 畳み込みニューラルネットワークのビデオ分類精度の比較。 TimeSformer は両方のデータセットで最高の精度を実現します。

TimeSformer: 新しいビデオ理解アーキテクチャ

従来のビデオ分類モデルでは、3D 畳み込みフィルターが使用されます。このようなフィルタは、局所的な時空間領域内の短距離パターンを捕捉するのに効果的ですが、受容野を超えた時空間依存性をモデル化することはできません。

TimeSformer は、Transformer モデルで使用される自己注意メカニズムに基づいて構築されており、ビデオ全体の時空間依存性をキャプチャすることを可能にします。 Transformer をビデオに適用するために、モデルは入力ビデオを各フレームから抽出された画像パッチの時空間シーケンスとして解釈します。

この形式は NLP で使用される形式に似ており、Transformer は文を各単語から計算された特徴ベクトルのシーケンスとして見なします。 NLP Transformer が各単語を文中の他の単語と比較して意味を推測するのと同様に、このモデルは各パッチをビデオ内の他のパッチと明示的に比較して意味を捉えます。これはいわゆる自己注意メカニズムでもあり、隣接するパッチ間の短距離の依存関係だけでなく、離れたパッチ間の長距離の相関関係も捉えることが可能になります。

従来の 3D 畳み込みニューラルネットワークは、ビデオ内のすべての時空間位置で多数のフィルターを使用する必要があるため、計算コストが高くなります。 TimeSformer は、(1) ビデオを重複しないパッチのセットに分解し、(2) 自己注意を使用してすべてのパッチペアの徹底的な比較を回避するため、計算コストが低くなります。研究者たちはこの方式を「分割空間時間的注意」と呼んでおり、時間的注意と空間的注意を順番に適用するという考え方です。

時間的注意を使用する場合、各パッチ (下の図の青い四角など) は、他のフレームの同じ空間位置にあるパッチ (緑の四角) とのみ比較されます。ビデオに T フレームが含まれている場合、各パッチは時間的に T 回だけ比較されます。空間注意を使用する場合、各パッチは同じフレーム内のパッチ (赤いパッチ) とのみ比較されます。

したがって、各フレームのパッチの数を N とすると、分割された時空間的注意では、結合時空間的注意アプローチで必要な (T×N) 回の比較ではなく、パッチごとに合計 (T+N) 回の比較のみが実行されます。さらに、この研究では、分割された空間的・時間的注意は、共同空間的・時間的注意と比較して、より効果的であるだけでなく、より正確であることも判明しました。

TimeSformer のスケーラビリティにより、非常に長いクリップ (例: 102 秒の 96 フレームシーケンス) で実行して、現在の 3D CNN とは大きく異なる超長距離の時間モデリングを実行できます。後者は、最大で数秒のフラグメントの処理に制限されています。長期にわたる活動を特定することは重要な要件です。

例えば、フレンチトーストを作る動画があるとします。一度に数秒ずつ分析する AI モデルは、いくつかの原子動作 (卵を割る、ボウルに牛乳を注ぐなど) を識別できる可能性があります。しかし、複雑な活動を分類するには、個々のアクションを分類するだけでは十分ではありません。 TimeSformer は、より長い時間枠にわたってビデオを分析し、原子動作 (牛乳と溶き卵を混ぜるなど) 間の明示的な依存関係を明らかにします。

TimeSformer の効率性により、高い空間解像度 (最大 560 x 560 ピクセルのフレームなど) や長いビデオ (最大 96 フレームを含む) でモデルをトレーニングすることが可能になります。

上の図は、TimeSformer によって学習された自己注意ヒートマップの視覚化を示しています。最初の行は元のフレームで、2 行目は自己注意によって与えられたビデオ分類に対する重要度によって各ピクセルの色に重み付けします (重要でないと見なされたピクセルは暗く表示されます)。 TimeSformer は、ビデオ内の関連領域に注目して複雑な時空間推論を実行することを学習します。

より多くの分野で開発を促進する

ビデオ理解モデルをトレーニングするには、現在の最高の 3D CNN では数秒の長さのビデオクリップしか使用できません。 TimeSformer を使用すると、より長いビデオクリップ (最大数分) でトレーニングすることが可能です。これにより、ビデオ内の複雑で長いアクションを機械に理解させる研究が大きく前進する可能性があります。これは、AI アシスタントなど、人間の行動を理解することを目的とする多くの AI アプリケーションにとって重要なステップです。

さらに、TimeSformer の推論コストが低いことは、AR/VR やウェアラブルカメラからのビデオを提供するスマートアシスタントなどの将来のリアルタイムビデオ処理アプリケーションに向けた重要なステップです。研究者たちは、この方法のコスト削減により、より多くの研究者がビデオ分析の問題に取り組むことができ、その結果、この分野の研究の進歩が加速すると考えています。

<<: 世界最大の公開顔データセット | 清華大学と信義科技が共同リリース

>>: 顔認識カメラはあなたの顔を盗みますが、なぜ「精密マーケティング」に使われるのでしょうか?