この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 Transformer はマルチモーダルタスクの処理に適していると言われています。 現在、ビデオオブジェクトセグメンテーションの分野では、これを使用してテキストとビデオフレームを同時に処理し、よりシンプルな構造とより高速な処理速度(1秒あたり76フレーム)を備えたビデオインスタンスセグメンテーションフレームワークを提案した人もいます。 このフレームワークでは、一連のテキスト説明だけで、ビデオ内の動的なターゲットを簡単に「切り取る」ことができます。 エンドツーエンドでトレーニングでき、ベンチマークの複数の指標で既存のモデルよりも優れたパフォーマンスを発揮します。 現在、関連論文はCVPR 2022に採択されており、研究者はイスラエル工科大学のものです。 本旨テキスト記述からのビデオ オブジェクト セグメンテーション (RVOS) のマルチモーダル タスクでは、テキスト推論、ビデオ理解、インスタンス セグメンテーション、および追跡技術の組み合わせが必要です。 既存の方法では、通常、問題を解決するために複雑なパイプラインに依存しており、エンドツーエンドでシンプルで使いやすいモデルを形成することは困難です。 CV と NLP の分野が進歩するにつれて、研究者は、ビデオとテキストを単一のマルチモーダル Transformer モデルで同時に効果的に処理できることに気付きました。 この目的のために彼らはMTTRと呼ばれるものを提案した。 Multimodal Tracking Transformer の新しいアーキテクチャは、RVOS タスクをシーケンス予測問題としてモデル化します。 まず、入力テキスト フレームとビデオ フレームが特徴抽出のために特徴エンコーダーに渡され、次に 2 つが連結されてマルチモーダル シーケンス (フレームごとに 1 つ) になります。 次に、2 つの特徴関係がマルチモーダル Transformer を通じてエンコードされ、インスタンス レベルの特徴が予測シーケンスのセットにデコードされます。 次に、対応するマスクと参照予測シーケンスが生成されます。 最後に、予測されたシーケンスは、通常、トレーニング中の監督や推論中の最終予測の生成のために、教師あり学習のサンプル セット内のラベルを参照する、真実のシーケンスと照合されます。 具体的には、Transformer によって出力されるインスタンス シーケンスごとに、システムは対応するマスク シーケンスを生成します。 これを実現するために、著者らは FPN (Feature Pyramid Network) に類似した空間デコーダーと動的に生成された条件付き畳み込みカーネルを使用しました。 マスクとテキストの関連付けに基づく新しいテキスト参照スコア関数により、テキストで記述されたオブジェクトと最も強い関連性を持つクエリ シーケンスを特定し、そのセグメント化されたシーケンスをモデルの予測として返すことができます。 精度は既存のモデルよりも優れています著者らは、JHMDB-Sentences、A2D-Sentences、Refer-YouTube-VOS という 3 つの関連データセットで MTTR のパフォーマンスをテストしました。 最初の 2 つのデータセットの測定指標には、IoU (積和、1 は予測ボックスが実際のボックスと完全に重なることを意味します)、平均 IoU、および precision@K (すべての結果に対する正しく予測された関連結果の割合) が含まれます。 結果は次のとおりです。 MTTR はすべての指標において既存のすべての方法よりも優れており、SOTA モデルと比較して最初のデータセットの mAP 値 (平均精度) も 4.3 向上していることがわかります。 MTTR の最上位バージョンは、平均および全体の IoU 指標で 5.7 の mAP ゲインを達成し、単一の RTX 3090 GPU で 1 秒あたり 76 フレームの画像を処理できます。 JHMDB での MTTR の結果は、MTTR にも優れた一般化能力があることを示しています。 より困難なRefer-YouTube-VOSデータセットの主な評価指標は、領域類似度 (J) と輪郭精度 (F) の平均です。 MTTR はこれらすべての指標において「わずかに勝利」しています。 いくつかの視覚化結果から、ターゲット オブジェクトが類似のインスタンスに囲まれていたり、遮蔽されていたり、完全にフレーム外にあったりする場合でも、MTTR はテキストで参照されるオブジェクトを正常に追跡およびセグメント化できることが示されています。 最後に、著者は、この成果を通じて、マルチモーダルタスクにおける Transformer の可能性をより多くの人々が認識してくれることを期待していると述べました。 最後に、著者は2つのトライアルチャンネルも開設しました。興味のある学生は記事の最後にあるリンクをクリックしてください〜 △ Colabトライアル効果 トライアルアドレス: https://colab.research.google.com/drive/12p0jpSx3pJNfZk-y_L44yeHZlhsKVra-?usp=sharing 論文の宛先: コードはオープンソースです: |
<<: USTC 統合入力フィルタリング フレームワーク: すべてのデータ モダリティをサポートするフィルタリング可能性の最初の理論的分析
>>: AI と IoT によって貨物輸送はどのようにスマート化されるのでしょうか?
GPT-4を上回るコーディング能力を持つと主張するモデルが、多くのネットユーザーの注目を集めている。...
人工知能ツールによって特定された、火星の最新のクレーター群の高解像度画像。画像出典: Space.c...
サプライチェーンを理解する簡単に言えば、サプライ チェーンには、製品またはサービスをエンド ユーザー...
人工知能(AI)技術は現在、新たな急速な成長期に入り、将来の世界を変える可能性が最も高い破壊的技術と...
英国の雑誌「ネイチャー」は26日、ロボット工学の最新成果を発表した。ロボットを動かすための重要な部品...
[[394975]]基数ソート基数ソートは「分散ソート」に属し、「バケット ソート」または「ビン ...
海外メディアの報道によると、食品・飲料業界では人工知能やモノのインターネット技術がますます頻繁に利用...
AI 業界の人なら、OpenAI が先進的な技術と高い給与で AI 業界のリーダーであることは知って...
業界の需要が変化するにつれて、5G、AI、ビッグデータなどの新しいテクノロジーが登場し、従来の業界に...
[[265994]]最近、国際人工知能教育会議、第3回世界知能会議が相次いで開催され、さまざまなA...
フランスのミストラルAIは設立からわずか9か月で、GPT-4に次ぐモデルを開発した。 API 経由で...
本日、Xiaomi は、弾性探索 (マクロ + ミクロ) に基づく超解像で驚くべき結果を達成した新し...
新型コロナウイルス感染症のパンデミックにより、配電事業者はメーターの読み取りとその後の請求という基本...
IoTの世界は、希望に満ちた2020年を迎えようとしています。 5G企業は、2020年は5Gが公共...