畳み込みなしでTransformerのみをベースにした初のビデオ理解アーキテクチャがリリースされました

畳み込みなしでTransformerのみをベースにした初のビデオ理解アーキテクチャがリリースされました

Facebook AI は、Transformer を完全にベースとし、畳み込みが不要で、トレーニング速度が速く、計算コストが低い新しいビデオ理解アーキテクチャを提案しました。

TimeSformer は、Transformer を完全にベースとした最初のビデオ フレームワークです。近年、トランスフォーマーは、機械翻訳、一般的な言語理解など、自然言語処理 (NLP) の分野における多くのアプリケーションの主要なアプローチとなっています。

TimeSformer は、Kinetics-400 アクション認識データセットを含むいくつかの難しいアクション認識ベンチマークで最先端のパフォーマンスを実現します。さらに、3D 畳み込みニューラル ネットワーク (CNN) と比較すると、TimeSformer はトレーニングが約 3 倍高速で、推論に必要な計算量は 10 分の 1 以下です。

論文リンク:
出典: http://arxiv.org/pdf/2102.05095.pdf

さらに、TimeSformer のスケーラビリティにより、より長いビデオ クリップでより大きなモデルをトレーニングすることが可能になります。これにより、AI システムがビデオ内のより複雑な人間の行動を理解できるようになるため、複雑な人間の行動を理解する必要がある AI アプリケーションにとって非常に有益です。

2 つのアクション認識ベンチマーク、Kinetics-400 (左) と Kinetics-600 (右) における、TimeSformer と現在の最先端の 3D 畳み込みニューラル ネットワークのビデオ分類精度の比較。 TimeSformer は両方のデータセットで最高の精度を実現します。

TimeSformer: 新しいビデオ理解アーキテクチャ

従来のビデオ分類モデルでは、3D 畳み込みフィルターが使用されます。このようなフィルタは、局所的な時空間領域内の短距離パターンを捕捉するのに効果的ですが、受容野を超えた時空間依存性をモデル化することはできません。

TimeSformer は、Transformer モデルで使用される自己注意メカニズムに基づいて構築されており、ビデオ全体の時空間依存性をキャプチャすることを可能にします。 Transformer をビデオに適用するために、モデルは入力ビデオを各フレームから抽出された画像パッチの時空間シーケンスとして解釈します。

この形式は NLP で使用される形式に似ており、Transformer は文を各単語から計算された特徴ベクトルのシーケンスとして見なします。 NLP Transformer が各単語を文中の他の単語と比較して意味を推測するのと同様に、このモデルは各パッチをビデオ内の他のパッチと明示的に比較して意味を捉えます。これはいわゆる自己注意メカニズムでもあり、隣接するパッチ間の短距離の依存関係だけでなく、離れたパッチ間の長距離の相関関係も捉えることが可能になります。

従来の 3D 畳み込みニューラル ネットワークは、ビデオ内のすべての時空間位置で多数のフィルターを使用する必要があるため、計算コストが高くなります。 TimeSformer は、(1) ビデオを重複しないパッチのセットに分解し、(2) 自己注意を使用してすべてのパッチ ペアの徹底的な比較を回避するため、計算コストが低くなります。研究者たちはこの方式を「分割空間時間的注意」と呼んでおり、時間的注意と空間的注意を順番に適用するという考え方です。

時間的注意を使用する場合、各パッチ (下の図の青い四角など) は、他のフレームの同じ空間位置にあるパッチ (緑の四角) とのみ比較されます。ビデオに T フレームが含まれている場合、各パッチは時間的に T 回だけ比較されます。空間注意を使用する場合、各パッチは同じフレーム内のパッチ (赤いパッチ) とのみ比較されます。

したがって、各フレームのパッチの数を N とすると、分割された時空間的注意では、結合時空間的注意アプローチで必要な (T×N) 回の比較ではなく、パッチごとに合計 (T+N) 回の比較のみが実行されます。さらに、この研究では、分割された空間的・時間的注意は、共同空間的・時間的注意と比較して、より効果的であるだけでなく、より正確であることも判明しました。

TimeSformer のスケーラビリティにより、非常に長いクリップ (例: 102 秒の 96 フレーム シーケンス) で実行して、現在の 3D CNN とは大きく異なる超長距離の時間モデリングを実行できます。後者は、最大で数秒のフラグメントの処理に制限されています。長期にわたる活動を特定することは重要な要件です。

例えば、フレンチトーストを作る動画があるとします。一度に数秒ずつ分析する AI モデルは、いくつかの原子動作 (卵を割る、ボウルに牛乳を注ぐなど) を識別できる可能性があります。しかし、複雑な活動を分類するには、個々のアクションを分類するだけでは十分ではありません。 TimeSformer は、より長い時間枠にわたってビデオを分析し、原子動作 (牛乳と溶き卵を混ぜるなど) 間の明示的な依存関係を明らかにします。

TimeSformer の効率性により、高い空間解像度 (最大 560 x 560 ピクセルのフレームなど) や長いビデオ (最大 96 フレームを含む) でモデルをトレーニングすることが可能になります。

上の図は、TimeSformer によって学習された自己注意ヒートマップの視覚化を示しています。最初の行は元のフレームで、2 行目は自己注意によって与えられたビデオ分類に対する重要度によって各ピクセルの色に重み付けします (重要でないと見なされたピクセルは暗く表示されます)。 TimeSformer は、ビデオ内の関連領域に注目して複雑な時空間推論を実行することを学習します。

より多くの分野で開発を促進する

ビデオ理解モデルをトレーニングするには、現在の最高の 3D CNN では数秒の長さのビデオ クリップしか使用できません。 TimeSformer を使用すると、より長いビデオ クリップ (最大数分) でトレーニングすることが可能です。これにより、ビデオ内の複雑で長いアクションを機械に理解させる研究が大きく前進する可能性があります。これは、AI アシスタントなど、人間の行動を理解することを目的とする多くの AI アプリケーションにとって重要なステップです。

さらに、TimeSformer の推論コストが低いことは、AR/VR やウェアラブル カメラからのビデオを提供するスマート アシスタントなどの将来のリアルタイム ビデオ処理アプリケーションに向けた重要なステップです。研究者たちは、この方法のコスト削減により、より多くの研究者がビデオ分析の問題に取り組むことができ、その結果、この分野の研究の進歩が加速すると考えています。

<<:  世界最大の公開顔データセット | 清華大学と信義科技が共同リリース

>>:  顔認識カメラはあなたの顔を盗みますが、なぜ「精密マーケティング」に使われるのでしょうか?

ブログ    

推薦する

人工知能とモノのインターネット - 未来の技術の融合

[[388165]]将来は自動化となり、人工知能 (AI) とモノのインターネット (IoT) が融...

人間を超えた最初の専門家! OpenAIが混乱に陥る中、Googleのマルチモーダル大規模モデルGeminiがそれを打ち負かす

OpenAIが混乱に陥っている間、Googleは「全員を殺す」準備をしている。ちょうど昨夜、Goog...

ファーウェイ、2025年のトップ10トレンドを発表:大企業の97%がAIを導入

世界の人口の58%が5Gネットワ​​ークにアクセスできるようになり、14%の家庭に「ロボット執事」が...

Huyaは人間とシーンの分離技術を使用して、顔を覆わずにスマートな弾丸スクリーンを作成します

【元記事は51CTO.comより】 「(段)幕」という言葉はシューティングゲームから生まれたもので、...

未来の世界:すべてが AI になる?

人工知能は私たちの日常生活にますます大きな影響を与えており、研究分野に革命をもたらしています。 ET...

ハイパーオートメーションの旅を始めましょう: 仕事のやり方を変え、運用プロセスを簡素化しましょう

最近の調査によると、より複雑な作業をインテリジェントな自動化に任せることを計画している企業の数は、今...

ファーウェイと百度はAI技術で提携している。人工知能の分野で優位に立つことを目指しているのだろうか?

テクノロジー界ではもう一つ大きな出来事が起きている。中国で最も人気のある携帯電話ブランドであるHua...

データクローズドループ! DrivingGaussian: リアルなサラウンドビューデータ、運転シーンの再構成SOTA

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

Googleは視覚障害者の走行を支援するAIシステムをテストしている

[[353439]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

Python + 機械学習手法を使用した感情分析 (詳細な手順)

辞書マッチングの方法はないのでしょうか?なぜ複数の機械学習方法が必要なのでしょうか?辞書方式と機械学...

パフォーマンスを犠牲にすることなく、メモリ使用量を90%削減。FacebookがQuant-Noiseモデル圧縮方式を提案

数百メガバイトのサイズのニューラル ネットワークの場合、モデル圧縮によりメモリ使用量、通信帯域幅、計...

...

フォレスター:生成型AIと会話型AIが2023年のトップ10新興テクノロジーを独占

分析会社フォレスターは7月24日、2023年のトップ10新興テクノロジーレポートを発表しました。生成...

バーチャルシンガー、AIの背後にある見えざる手が音楽の未来を握っているのか?

19 世紀以前、人々が集まるときには、人生の物語を語り、感情や考えを伝えるために、常に最も原始的な...

GIF 圧縮アルゴリズムの発明者が IEEE の最高栄誉賞を受賞

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...