畳み込みなしでTransformerのみをベースにした初のビデオ理解アーキテクチャがリリースされました

畳み込みなしでTransformerのみをベースにした初のビデオ理解アーキテクチャがリリースされました

Facebook AI は、Transformer を完全にベースとし、畳み込みが不要で、トレーニング速度が速く、計算コストが低い新しいビデオ理解アーキテクチャを提案しました。

TimeSformer は、Transformer を完全にベースとした最初のビデオ フレームワークです。近年、トランスフォーマーは、機械翻訳、一般的な言語理解など、自然言語処理 (NLP) の分野における多くのアプリケーションの主要なアプローチとなっています。

TimeSformer は、Kinetics-400 アクション認識データセットを含むいくつかの難しいアクション認識ベンチマークで最先端のパフォーマンスを実現します。さらに、3D 畳み込みニューラル ネットワーク (CNN) と比較すると、TimeSformer はトレーニングが約 3 倍高速で、推論に必要な計算量は 10 分の 1 以下です。

論文リンク:
出典: http://arxiv.org/pdf/2102.05095.pdf

さらに、TimeSformer のスケーラビリティにより、より長いビデオ クリップでより大きなモデルをトレーニングすることが可能になります。これにより、AI システムがビデオ内のより複雑な人間の行動を理解できるようになるため、複雑な人間の行動を理解する必要がある AI アプリケーションにとって非常に有益です。

2 つのアクション認識ベンチマーク、Kinetics-400 (左) と Kinetics-600 (右) における、TimeSformer と現在の最先端の 3D 畳み込みニューラル ネットワークのビデオ分類精度の比較。 TimeSformer は両方のデータセットで最高の精度を実現します。

TimeSformer: 新しいビデオ理解アーキテクチャ

従来のビデオ分類モデルでは、3D 畳み込みフィルターが使用されます。このようなフィルタは、局所的な時空間領域内の短距離パターンを捕捉するのに効果的ですが、受容野を超えた時空間依存性をモデル化することはできません。

TimeSformer は、Transformer モデルで使用される自己注意メカニズムに基づいて構築されており、ビデオ全体の時空間依存性をキャプチャすることを可能にします。 Transformer をビデオに適用するために、モデルは入力ビデオを各フレームから抽出された画像パッチの時空間シーケンスとして解釈します。

この形式は NLP で使用される形式に似ており、Transformer は文を各単語から計算された特徴ベクトルのシーケンスとして見なします。 NLP Transformer が各単語を文中の他の単語と比較して意味を推測するのと同様に、このモデルは各パッチをビデオ内の他のパッチと明示的に比較して意味を捉えます。これはいわゆる自己注意メカニズムでもあり、隣接するパッチ間の短距離の依存関係だけでなく、離れたパッチ間の長距離の相関関係も捉えることが可能になります。

従来の 3D 畳み込みニューラル ネットワークは、ビデオ内のすべての時空間位置で多数のフィルターを使用する必要があるため、計算コストが高くなります。 TimeSformer は、(1) ビデオを重複しないパッチのセットに分解し、(2) 自己注意を使用してすべてのパッチ ペアの徹底的な比較を回避するため、計算コストが低くなります。研究者たちはこの方式を「分割空間時間的注意」と呼んでおり、時間的注意と空間的注意を順番に適用するという考え方です。

時間的注意を使用する場合、各パッチ (下の図の青い四角など) は、他のフレームの同じ空間位置にあるパッチ (緑の四角) とのみ比較されます。ビデオに T フレームが含まれている場合、各パッチは時間的に T 回だけ比較されます。空間注意を使用する場合、各パッチは同じフレーム内のパッチ (赤いパッチ) とのみ比較されます。

したがって、各フレームのパッチの数を N とすると、分割された時空間的注意では、結合時空間的注意アプローチで必要な (T×N) 回の比較ではなく、パッチごとに合計 (T+N) 回の比較のみが実行されます。さらに、この研究では、分割された空間的・時間的注意は、共同空間的・時間的注意と比較して、より効果的であるだけでなく、より正確であることも判明しました。

TimeSformer のスケーラビリティにより、非常に長いクリップ (例: 102 秒の 96 フレーム シーケンス) で実行して、現在の 3D CNN とは大きく異なる超長距離の時間モデリングを実行できます。後者は、最大で数秒のフラグメントの処理に制限されています。長期にわたる活動を特定することは重要な要件です。

例えば、フレンチトーストを作る動画があるとします。一度に数秒ずつ分析する AI モデルは、いくつかの原子動作 (卵を割る、ボウルに牛乳を注ぐなど) を識別できる可能性があります。しかし、複雑な活動を分類するには、個々のアクションを分類するだけでは十分ではありません。 TimeSformer は、より長い時間枠にわたってビデオを分析し、原子動作 (牛乳と溶き卵を混ぜるなど) 間の明示的な依存関係を明らかにします。

TimeSformer の効率性により、高い空間解像度 (最大 560 x 560 ピクセルのフレームなど) や長いビデオ (最大 96 フレームを含む) でモデルをトレーニングすることが可能になります。

上の図は、TimeSformer によって学習された自己注意ヒートマップの視覚化を示しています。最初の行は元のフレームで、2 行目は自己注意によって与えられたビデオ分類に対する重要度によって各ピクセルの色に重み付けします (重要でないと見なされたピクセルは暗く表示されます)。 TimeSformer は、ビデオ内の関連領域に注目して複雑な時空間推論を実行することを学習します。

より多くの分野で開発を促進する

ビデオ理解モデルをトレーニングするには、現在の最高の 3D CNN では数秒の長さのビデオ クリップしか使用できません。 TimeSformer を使用すると、より長いビデオ クリップ (最大数分) でトレーニングすることが可能です。これにより、ビデオ内の複雑で長いアクションを機械に理解させる研究が大きく前進する可能性があります。これは、AI アシスタントなど、人間の行動を理解することを目的とする多くの AI アプリケーションにとって重要なステップです。

さらに、TimeSformer の推論コストが低いことは、AR/VR やウェアラブル カメラからのビデオを提供するスマート アシスタントなどの将来のリアルタイム ビデオ処理アプリケーションに向けた重要なステップです。研究者たちは、この方法のコスト削減により、より多くの研究者がビデオ分析の問題に取り組むことができ、その結果、この分野の研究の進歩が加速すると考えています。

<<:  世界最大の公開顔データセット | 清華大学と信義科技が共同リリース

>>:  顔認識カメラはあなたの顔を盗みますが、なぜ「精密マーケティング」に使われるのでしょうか?

ブログ    

推薦する

私たち全員が失業するかもしれない:今後10年間でほぼすべての仕事が変化する

[[248203]]バイオテクノロジーの進歩により、人間の寿命は今後も延び続け、社会の家族構成、結婚...

言語モデルは時間をどのように認識するのでしょうか?時間ベクトルについてさらに詳しく

言語モデルは正確にはどのようにして時間を認識するのでしょうか?言語モデルの時間認識をどのように利用す...

...

OpenAI主任科学者:ChatGPTはすでに意識を示しており、将来人間はAIと融合するだろう

昨夜、「ChatGPTはすでに意識を持っているかもしれない」という話題がWeiboで人気検索となった...

...

ディープQ学習ネットワーク: 仮想ゲームから現実世界のアプリケーションへのギャップを埋める

翻訳者 |李睿レビュー | Chonglou人工知能と機械学習は、ヘルスケア、金融、エネルギー、輸送...

...

マイクロソフト、世界規模の公開顔認識データベース MS Celeb を削除

フィナンシャル・タイムズによると、マイクロソフトは、約10万人の1000万枚以上の画像が含まれていた...

「人間の顔」から「犬の顔」まで、AIはペット経済にも参入するのでしょうか?

[[334871]]原題:「人間の顔認識」から「犬の顔認識」まで、人工知能はペット経済にも参入する...

...

おそらく2030年までに、量子コンピューティングのChatGPTの瞬間が到来するだろう

2030 年までに RSA 暗号を解読できるマシンが登場するでしょうが、まずは量子センシングやその他...

生成型AIとデータが未来の産業をどう形作るか

私たちは、生成型 AI の出現によって推進される技術革命の真っ只中にいます。 これは単なる技術の漸進...

...

【ビッグコーヒーがやってくるエピソード5】ビッグデータミドルプラットフォームの構築方法

今回、「ビッグネームがやってくる」のライブ放送にゲストとして参加したのは、iResearch CTO...

自動運転車を巡る最大の論争の一つは、それが保険業界にどのような影響を与えるかということだ。

自動運転車は新しい概念ではありません。ほぼすべての大手自動車メーカーが何らかの形の自動運転車を開発し...