トレーニング速度は 3D CNN よりもはるかに速く、3 倍高速です。トランス

トレーニング速度は 3D CNN よりもはるかに速く、3 倍高速です。トランス

[[388464]]

Facebook AI は、新しいビデオ理解アーキテクチャ TimeSformer を発表しました。これは、Transformer を完全にベースとした初のビデオ アーキテクチャでもあります。ビデオ編集の上限は数分に達し、現在の最高の 3D CNN をはるかに超え、コストも低くなります。

TimeSformer (Time-Space Transformer) は、Transformer のみをベースにした初のビデオ アーキテクチャであり、近年、機械翻訳や一般的な言語理解など、多くの自然言語処理 (NLP) アプリケーションで定番のアプローチとなっています。

論文リンク:
出典: http://arxiv.org/pdf/2102.05095.pdf

TimeSformer は、Kinetics-400 アクション認識データセットを含むいくつかの難しいアクション認識ベンチマークで最先端の結果を達成しています。さらに、最新の 3D 畳み込みニューラル ネットワーク (CNN) と比較すると、TimeSformer はトレーニングが約 3 倍高速で、推論に必要な計算量は 10 分の 1 以下です。これは、ビデオのリアルタイムまたはオンデマンド処理を必要とするアプリケーションをサポートするための重要なステップです。

さらに、TimeSformer はスケーラブルであり、より長いビデオ クリップでより大きなモデルをトレーニングするために使用できます。これにより、AI システムは、複数の原子ステップを含むアクティビティ (車の修理、食事の準備など) など、ビデオ内のより複雑な人間の行動を理解できるようになります。複雑な人間の行動を理解する必要がある多くの AI アプリケーションが、この恩恵を受けることができます。

Kinetics-400 (左) および Kinetics-600 (右) アクション認識ベンチマークにおける TimeSformer と最先端の 3D 畳み込みニューラル ネットワークのビデオ分類精度の比較。 TimeSformer は両方のデータセットで最高の精度を達成します。

時空間的注意

従来のビデオ分類モデルでは、3D 畳み込みフィルターが使用されます。これらのフィルターは、局所的な時空間領域内の短期的なパターンを捕捉するのに効果的ですが、受容野を超えた時空間の依存関係をモデル化することはできません。

ただし、TimeSformer は Transformer で使用される自己注意メカニズムに基づいて完全に構築されているため、ビデオ全体の時空間依存関係をキャプチャできます。

Transformer をビデオに適用するために、TimeSformer は入力ビデオを、単一フレームから抽出された画像パッチの時空間シーケンスとして解釈します。この形式は NLP で使用される形式に似ており、Transformer は文を個々の単語から計算された特徴ベクトルのシーケンスとして扱います。

NLP トランスフォーマーが各単語を文中の他のすべての単語と比較して意味を推測するのと同様に、このモデルは各パッチをビデオ内の他のパッチと明示的に比較してその意味を捉えます。これにより、隣接するパッチ間の短期的な依存関係だけでなく、離れたパッチ間の長期的な相関関係も把握できるようになります。

従来の 3D 畳み込みニューラル ネットワークでは、ビデオ内のすべての時空間位置で多数のフィルターを使用する必要があるため、計算コストも高くなります。

TimeSformer は、1) ビデオを重複しないパッチの小さなセットに分解し、2) すべてのパッチの徹底的な比較を避けるために自己注意の形式を適用することで、計算コストを低く抑えます。私たちはこの方式を「時空間的注意」と呼びます。時間的注意と空間的注意を順番に適用するという考え方です。

時間的注意を適用すると、各パッチ (たとえば、下の図の青い四角) は、他のフレーム内の同じ空間位置にあるパッチ (緑の四角) とのみ比較されます。ビデオに t フレームが含まれている場合、各パッチで t 回の比較のみが実行されます。

空間注意を適用する場合、各パッチは同じフレーム内のパッチ (赤いパッチ) とのみ比較されます。したがって、各フレームのパッチ数が n の場合、分割時空間注意ではパッチごとに (t + n) 回の比較しか実行できませんが、結合時空間注意網羅的ルールでは (t * n) 回の比較が必要です。さらに、この研究では、分割された時空間的注意は、共同の時空間的注意よりも効率的であるだけでなく、より正確であることも判明しました。

TimeSformer はスケーラブルであり、非常に長いクリップ (たとえば、102 秒の時間枠にわたる 96 フレームのシーケンス) で実行して、非常に長い時間枠にわたってモデリングを実行できます。これは、最大で数秒のクリップの処理に制限されている現在の 3D CNN とは大きく異なり、長時間のアクティビティを認識するための重要な要件です。


たとえば、フレンチトーストの作り方を紹介するビデオを見てください。一度に数秒ずつ分析する AI モデルは、いくつかの原子動作 (たとえば、卵を割る、ボウルに牛乳を注ぐなど) を識別できる可能性があります。しかし、個々の動作を分類するだけでは、複雑な活動を分類するには不十分です (多くのレシピでは卵を泡立てる作業が含まれます)。 TimeSformer は、より長い時間枠にわたってビデオを分析し、原子動作 (牛乳を混ぜることと卵を割ることなど) 間の明確な依存関係を明らかにすることができます。

TimeSformer の効率性により、高い空間解像度 (例: 最大 560 x 560 ピクセルのフレーム) と非常に長いビデオ (最大 96 フレーム) を持つモデルをトレーニングできます。これらのグラフは、空間解像度 (左) とビデオの長さ (右) の関数としてビデオ分類コスト (TFLOP) を示しています。これらの図から、特に大きなフレームや長いビデオに適用した場合、枯渇した時空間注意は枯渇した時空間共同注意よりも計算能力を大幅に節約できることがわかります。実際のアプリケーションでは、空間フレーム解像度が 448 ピクセルに達するか、フレーム数が 32 フレームに増加すると、共同時空間アテンションによって GPU メモリ オーバーフローが発生し、大きなフレームや長いビデオには実質的に適さなくなります。

この図は、TimeSformer によって学習された自己注意ヒートマップを視覚化したものです。最初の行には元のフレームが表示され、2 行目ではビデオ分類の重要度に応じて各ピクセルの色に重みが付けられます (重要でないと判断されたピクセルは暗く表示されます)。図に示すように、TimeSformer はビデオ内の関連領域に焦点を当てて、複雑な時空間推論を実行することを学習します。

TimeSformerのビデオ編集は最大数分かかる

ビデオ理解モデルをトレーニングするために、現在の最先端の 3D CNN では、数秒の長さのビデオ クリップしか使用できません。 TimeSformer を使用すると、最長数分の長いビデオ クリップでトレーニングできます。これにより、ビデオ内の複雑で長い動作を機械が理解する研究が大きく前進する可能性があります。これは、人間の行動を理解して研究する多くの AI アプリケーションにとって重要なステップです。

さらに、TimeSformer の推論コストが低いことは、AR/VR やウェアラブル カメラで撮影したビデオに基づくスマート アシスタントなどの将来のリアルタイム ビデオ処理アプリケーションをサポートするための重要なステップです。 TimeSformer はコストを削減し、より多くの研究者がビデオ分析の問題に取り組むことができるようになり、この分野の進歩を加速させます。

<<:  2021年に注目すべき5つのロボットトレンド

>>:  人間と自律的に討論できる最強のAI討論機が登場。その脳内には4億件のニュース記事が保存されている。

ブログ    
ブログ    
ブログ    

推薦する

AIを使って人間の子どもを「飼い慣らす」: ハードコアな子育ての楽しさを発見した父親

技術オタクの父親たちは、Netflix のエピソードを数本静かに観るために何をするのでしょうか? [...

...

ChatGPT を使ってデータを分析する 6 つの方法

翻訳者 |ブガッティレビュー | Chonglouここ数か月で、リリースされる AI ツールの数は増...

ソフトウェア開発における人工知能: 自動化と最適化

最先端技術である人工知能(AI)は、さまざまな分野で大きな可能性を見せています。ソフトウェア開発の分...

LSTM、GRU、ニューラルチューリングマシン: ディープラーニングで最も人気のあるリカレントニューラルネットワークの詳細な説明

リカレント ニューラル ネットワーク (RNN) は、ネットワークに追加の重みを追加してネットワーク...

オペレーティング システムのプロセス スケジューリング アルゴリズムとは何ですか?

スケジューラは、次に実行するプロセスを選択する役割を担うオペレーティング システム カーネルの一部で...

強風にも耐えられるドローン?カリフォルニア工科大学は12分間の飛行データを使い、ドローンに風の中での飛行を教える

傘が吹き飛ばされるほど風が強いときでも、ドローンは次のように安定した状態を保ちます。風に乗ることは、...

新しいソフトロボット:手足を再生し、自然にカモフラージュできるヒトデ

Science Fiction Network は 1 月 5 日に報じました (Liu Yazhu...

2019年にロボット競争は減速するでしょうか?

[[253005]] 「中国製造2025」の実施に伴い、ロボット産業は社会への参入を加速し始めてい...

新しい報告書が確認:慎重に扱わなければ、人工知能は現実版「ブラックミラー」になる

新しい報告によると、私たちは人工知能革命の瀬戸際に立っている。この革命において、私たちが作り出すテク...

1 つの記事で機械学習を理解する: 基本概念、5 つの主要な流派、9 つの一般的なアルゴリズム

1. 機械学習の概要 1. 機械学習とは何ですか?機械は大量のデータを分析して学習します。たとえば...

負けても落ち込まないで! Google、ロボット工学プロジェクトを再開

[[260578]]海外メディアの報道によると、グーグルは以前の取り組みが失敗した後、ロボット工学プ...

謎の日本人男性がコードを自動的に削除できるAIを開発し、業界に衝撃を与える

[[317093]]モザイクは、一般的に広く使用されている画像/ビデオ処理方法であり、画像/ビデオ内...

...