注意を注入すると精度が 30% 向上します。 Google が最新の多目的「ダイナミックカットアウト」モデルをリリース

[[437774]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

画像の最初のフレームと境界のヒントだけで、ビデオ内のオブジェクトを「切り取り」 、その軌跡を追跡できます。

上記はGoogleの最新の研究結果です。

この方法は、ビデオに注目メカニズムを導入することで、教師なし学習を使用した従来のマルチターゲットセグメンテーションおよび追跡方法の欠点の一部をうまく解決します。

今では、より多様で視覚的に複雑なビデオに一般化できるだけでなく、より長いビデオシーケンスも処理できるようになりました。

実験では、以前のモデルと比較して、Google の新しい方法により、MOVi データセットの mIoU が約 30%直接改善されることも判明しました。

「ダイナミックカットアウト」の注目メカニズムの紹介

この方法はSAVi (Slot Attention for Video) と呼ばれます。

これまでの教師なしオブジェクトセグメンテーションおよび追跡方法の最大の問題は、非常に単純なビデオにしか適用できないことです。

より複雑な視覚効果を持つビデオを処理するために、SAVi は弱教師あり学習を使用します。

（１）オプティカルフロー予測を訓練目標とし、注意メカニズムを導入する。

（２）セグメンテーションのガイダンスを提供するために、最初のフレーム（通常はセグメンテーションされるフレーム、またはオブジェクト上の単一点の座標）に初期ヒントを与えます。

具体的には、常微分方程式に対する「予測子-修正子」アプローチにヒントを得て、SAVi は可視ビデオフレームごとに予測と修正の手順を実行します。

他のオブジェクトとの相互作用を含む、時間の経過に伴うビデオオブジェクトの状態を記述するために、SAVi はオプティカルフロー予測を行うときにスロット間の自己注意を使用します。

スロットとは、ビデオ内の異なる色で区別されるオブジェクトのことです。

修正フェーズでは、入力とのスロット正規化クロスアテンションを使用して、スロット表現セットを修正 (更新) します。

次に、予測子の出力を使用して時間の経過とともに補正子を初期化し、モデルが最終的に時間の経過とともに一貫した方法でオブジェクトを追跡できるようにします。

△ SAViモデルアーキテクチャ図

トレーニング中、各ビデオは 6 つの 6 フレームのサブシーケンスに分割され、最初のフレームはキュー信号を受信し、フレームごとに 2 ラウンドのスロットアテンションを受け取ります。

完全に教師なしのビデオセグメンテーションでは、研究者らはバッチサイズ 64 で 100,000 ステップのトレーニングを行いました。

プロンプトがなくても、簡単なビデオセグメンテーションとトラッキングを実行できます。

CATER データセットでは、テストにより、SAVi アーキテクチャが教師なしオブジェクト表現学習に完全に適用可能であることが示されています。

オプティカルフロー条件の監視下で、SAVi は MOVi データセットで 72.1% mIoU を達成しました。これは、ベースラインモデル CRW および T-VOS よりもそれぞれ約 30% と 20% 高い値です。

SAVi は MOVi++ データセットで 45.9% の mIoU スコアを達成しました。これは T-VOS よりわずかに高く、CRW より 5% 低い値です。

さらに、最初のフレームに重心の形でヒントを与えることは、境界ボックスよりもわずかに優れていることがわかりますが、その差は大きくありません。

ヒントがなくても、この方法では Sketchy データセットなどの単純なテクスチャを使用していくつかの動的なシーンをセグメント化できることは注目に値します。

ただし、SAVi を複雑な現実世界のビデオに完全に適用するには、克服すべき課題がまだいくつかあります。

1. 使用されるトレーニング方法では、トレーニング中に時間フロー情報が利用可能であると想定していますが、実際のビデオではそうではありません。

2. この研究はいくつかの単純な物体の基本的な動きを扱っていますが、現実はこれよりもはるかに複雑です。

最後に、著者らは、SAVi はセグメンテーションと追跡において依然として優れたパフォーマンスを発揮し、最初のフレームでヒントを提供するという実践は、関連するさまざまな半教師あり手法にもつながる可能性があると述べました。

論文の宛先:
https://arxiv.org/abs.2111.12594

<<: AIがKing of GloryやStarCraftをプレイしています...その背後にあるテクノロジーを理解していないのですか?ゲームAIのレビューはこちら

>>: 将来、人工知能によって一般の人々は職を失うことになるのでしょうか？マスク氏の答えを見てください。

注意を注入すると精度が 30% 向上します。 Google が最新の多目的「ダイナミックカットアウト」モデルをリリース

「ダイナミックカットアウト」の注目メカニズムの紹介

プロンプトがなくても、簡単なビデオセグメンテーションとトラッキングを実行できます。

保険会社、パンデミックによりAI自動化を導入

人工知能の今後の発展はどうなるのでしょうか？

ハーバード大学の研究者がAIを活用して世界中の密猟を阻止

ビル・ゲイツがダボス会議でAIについて語る: プログラマーはAIを使って生産性を50%向上させた

工業情報化部：全国の指定規模以上の産業用ロボット製造企業の営業収入は531.7億元

ナレッジグラフは複雑ではありません。整理するお手伝いをさせてください。

将来スマートフォンは消滅するのでしょうか？ Huaweiがそれに代わるスマートフォンを発売します！

機械学習アルゴリズム（1）：決定木とランダムフォレスト

1ペニーに30,000円入るんですか？コーネル大学、人体に埋め込める「ゾウリムシ」センサーを開発

推薦する

オープンソースのビッグモデルが OpenAI に大打撃を与える!ザッカーバーグはテクノロジー界に衝撃を与えたLLaMA2をリリースし、マイクロソフトやクアルコムと手を組んで市場構造に影響を与えた。

ChatGPTから何を学びましたか?

バイトダンスの最新のテキスト生成画像AIには、トレーニングセットにテキスト説明付きの画像が含まれていません。

機械学習は2021年にこれらの5つの業界を変革するだろう

Ant Group は、動画の著作権侵害検出用に 16 万本の動画ペアと 28 万本のクリップペアからなる大規模なデータセットを公開しました。

Microsoft Azure OpenAI への申請手順ガイド

マイクロソフトがML.NET 3.0をリリース、ディープラーニング機能を拡張

iQIYI CTO 唐星氏：AIはビデオプロセス全体にわたって実行され、理解と意思決定を開発する必要がある

テクノロジーの本質: コンピューターは私たちの社会をどのように形作るのでしょうか?

これから「顔認証」の時代がやって来ますが、あなたの顔は安全でしょうか？

米国は戦闘における人工知能の活用を推進し続けている

原理から応用まで: ロジスティック回帰アルゴリズムの簡単な説明