テキストの説明に基づいてビデオから画像を切り取る、Transformer:このクロスモーダルタスクは私が最も得意とすることです

テキストの説明に基づいてビデオから画像を切り取る、Transformer:このクロスモーダルタスクは私が最も得意とすることです

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

Transformer はマルチモーダルタスクの処理に適していると言われています。

現在、ビデオオブジェクトセグメンテーションの分野では、これを使用してテキストとビデオフレームを同時に処理し、よりシンプルな構造とより高速な処理速度(1秒あたり76フレーム)を備えたビデオインスタンスセグメンテーションフレームワークを提案した人もいます。

このフレームワークでは、一連のテキスト説明だけで、ビデオ内の動的なターゲットを簡単に「切り取る」ことができます。

エンドツーエンドでトレーニングでき、ベンチマークの複数の指標で既存のモデルよりも優れたパフォーマンスを発揮します

現在、関連論文はCVPR 2022に採択されており、研究者はイスラエル工科大学のものです。

本旨

テキスト記述からのビデオ オブジェクト セグメンテーション (RVOS) のマルチモーダル タスクでは、テキスト推論、ビデオ理解、インスタンス セグメンテーション、および追跡技術の組み合わせが必要です。

既存の方法では、通常、問題を解決するために複雑なパイプラインに依存しており、エンドツーエンドでシンプルで使いやすいモデルを形成することは困難です。

CV と NLP の分野が進歩するにつれて、研究者は、ビデオとテキストを単一のマルチモーダル Transformer モデルで同時に効果的に処理できることに気付きました。

この目的のために彼らはMTTRと呼ばれるものを提案した。   Multimodal Tracking Transformer の新しいアーキテクチャは、RVOS タスクをシーケンス予測問題としてモデル化します。

まず、入力テキスト フレームとビデオ フレームが特徴抽出のために特徴エンコーダーに渡され、次に 2 つが連結されてマルチモーダル シーケンス (フレームごとに 1 つ) になります。

次に、2 つの特徴関係がマルチモーダル Transformer を通じてエンコードされ、インスタンス レベルの特徴が予測シーケンスのセットにデコードされます。

次に、対応するマスクと参照予測シーケンスが生成されます。

最後に、予測されたシーケンスは、通常、トレーニング中の監督や推論中の最終予測の生成のために、教師あり学習のサンプル セット内のラベルを参照する、真実のシーケンスと照合されます。

具体的には、Transformer によって出力されるインスタンス シーケンスごとに、システムは対応するマスク シーケンスを生成します。

これを実現するために、著者らは FPN (Feature Pyramid Network) に類似した空間デコーダーと動的に生成された条件付き畳み込みカーネルを使用しました。

マスクとテキストの関連付けに基づく新しいテキスト参照スコア関数により、テキストで記述されたオブジェクトと最も強い関連性を持つクエリ シーケンスを特定し、そのセグメント化されたシーケンスをモデルの予測として返すことができます。

精度は既存のモデルよりも優れています

著者らは、JHMDB-Sentences、A2D-Sentences、Refer-YouTube-VOS という 3 つの関連データセットで MTTR のパフォーマンスをテストしました。

最初の 2 つのデータセットの測定指標には、IoU (積和、1 は予測ボックスが実際のボックスと完全に重なることを意味します)、平均 IoU、および precision@K (すべての結果に対する正しく予測された関連結果の割合) が含まれます。

結果は次のとおりです。

MTTR はすべての指標において既存のすべての方法よりも優れており、SOTA モデルと比較して最初のデータセットの mAP 値 (平均精度) も 4.3 向上していることがわかります。

MTTR の最上位バージョンは、平均および全体の IoU 指標で 5.7 の mAP ゲインを達成し、単一の RTX 3090 GPU で 1 秒あたり 76 フレームの画像を処理できます。

JHMDB での MTTR の結果は、MTTR にも優れた一般化能力があることを示しています。

より困難なRefer-YouTube-VOSデータセットの主な評価指標は、領域類似度 (J) と輪郭精度 (F) の平均です。

MTTR はこれらすべての指標において「わずかに勝利」しています。

いくつかの視覚化結果から、ターゲット オブジェクトが類似のインスタンスに囲まれていたり、遮蔽されていたり、完全にフレーム外にあったりする場合でも、MTTR はテキストで参照されるオブジェクトを正常に追跡およびセグメント化できることが示されています。

最後に、著者は、この成果を通じて、マルチモーダルタスクにおける Transformer の可能性をより多くの人々が認識してくれることを期待していると述べました。

最後に、著者は2つのトライアルチャンネルも開設しました。興味のある学生は記事の最後にあるリンクをクリックしてください〜

△ Colabトライアル効果

トライアルアドレス:
​​https://huggingface.co/spaces/akhaliq/MTTR​​

​​https://colab.research.google.com/drive/12p0jpSx3pJNfZk-y_L44yeHZlhsKVra-?usp=sharing​​

論文の宛先:
​​https://arxiv.org/abs/2111.14821​​

コードはオープンソースです:
​​https://github.com/mttr2021/MTTR​​

<<:  USTC 統合入力フィルタリング フレームワーク: すべてのデータ モダリティをサポートするフィルタリング可能性の最初の理論的分析

>>:  AI と IoT によって貨物輸送はどのようにスマート化されるのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

AIは追いつこうと努力しているが、5Gはカーブで追い越しつつある。トランプ氏が不安にならないわけがない。

[[263771]] 5Gの進歩に伴い、コスト面でも速度面でも、中国の5Gなしでは5Gを推進するの...

Jarvis はビッグデータ分析の将来にどのように貢献するのでしょうか?

[[187947]] 2017 年の最初の 1 ~ 2 か月間、2017 年のテクノロジー トレン...

顔認識防止技術でプライバシー漏洩を防ぐ方法

人工知能監視システムに対する懸念から、研究者たちはそれを標的とするツールの開発に取り組んでいる。最近...

ボストン・ダイナミクスの二輪ロボット「ハンドル」がデビューします!物流ロボットOTTOと連携して商品を配送

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

新しいAIにより、教師はインテリジェントな個別指導システムを迅速に開発できる

インテリジェントな個別指導システムは、代数や文法などの特定の科目の指導に効果的であることが証明されて...

人工知能におけるGNNとは何ですか?

グラフディープラーニング(GDL)は有望な研究分野であり、グラフデータに基づいた学習や分析は非常に有...

...

AIがビジネスプロセスとインテリジェントセキュリティをサポートする方法

今年初め以来、ChatGPT のような生成型人工知能 (AI) ツールが世界を席巻しています。それは...

WeChatモーメンツを席巻しているGoogleのAI版「Draw and Guess」の原理はこうだ。

Google の人工知能に対する皆の理解は、おそらく囲碁 AI AlphaGo から始まったのでし...

脚付きロボットの新たなスキル:ANYmalは山登りを学んでいる

ロボット工学の研究者がここ数年で脚付きロボットで成し遂げたことは実に驚くべきことだ。昨年7月、オレゴ...

あなたのお子さんは「顔スキャン」されましたか?顔認識技術がキャンパスに導入され物議を醸す

現在、顔認識の応用はますます深く広範囲になり、それが引き起こす論争もますます激しくなっています。まず...

触覚を感知し、自己治癒するロボットが現実になりつつある

人間の皮膚は柔軟性があり、触り心地がよく、自己治癒力があるため、複製するのが難しいです。しかし、科学...

...

タオバオの推奨シナリオのための強力なツール:複雑な目的を統合し、リアルタイムの規制をサポートする再注文モデル

1. 情報フローシナリオの課題と並べ替えモデルの独自の利点多くの学生は再ランキングに馴染みがないかも...