「Split Everything」のビデオ版はこちらです。数回クリックするだけで、動いている人物や物体が丸で囲まれます。

「Split Everything」のビデオ版はこちらです。数回クリックするだけで、動いている人物や物体が丸で囲まれます。

写真

ビデオセグメンテーションは多くのシナリオで広く使用されています。映画の視覚効果を高めたり、自動運転でシーンを理解したり、ビデオ会議で仮想背景を作成したりするには、ビデオセグメンテーションが必要です。最近、ディープラーニングベースのビデオセグメンテーションは良好な結果を達成していますが、コンピュータービジョンにおいてはまだ難しいトピックです。

半教師ありビデオ オブジェクト セグメンテーション (VOS) とビデオ インスタンス セグメンテーション (VIS) に関して言えば、現在の主流の方法は、未知のデータを扱う場合には平凡なパフォーマンスしか発揮せず、サンプルがゼロの場合はさらに「説明が困難」​​になります。ゼロショットのケースとは、これらのモデルがトレーニングされていないビデオのドメインに転送され、これらのビデオにトレーニング セット外のオブジェクトが含まれているケースを指します。パフォーマンスが平凡な理由は、微調整のための特定のビデオセグメンテーションデータがなければ、これらのモデルがさまざまなシナリオで一貫したパフォーマンスを維持することが難しいためです。

この課題を克服するには、画像セグメンテーションの分野で成功したモデルをビデオセグメンテーションタスクに適用する必要があります。これが、Segment Anything Model (SAM) につながります。

SAM は、1,100 万枚の画像と 10 億を超えるマスクを含む大規模な SA-1B データセットでトレーニングされた、画像セグメンテーション用の強力な基本モデルです。徹底的なトレーニングにより、SAM は驚異的なゼロショット一般化能力を獲得しました。 SAM は、注釈なしであらゆる画像内のあらゆるオブジェクトをセグメント化できるため、業界で大きな反響を呼び、コンピューター ビジョンの分野では GPT とも呼ばれています。

SAM はゼロショット画像セグメンテーションにおいて優れた能力を発揮していますが、ビデオセグメンテーションタスクには「当然」適していません。

最近、研究者たちは SAM をビデオセグメンテーションに適用する作業を開始しました。これらの方法は分布内データでのパフォーマンスの大部分を回復しますが、ゼロショットの場合、SAM の元のパフォーマンスを維持することはできません。 SegGPT などの SAM を使用しない他の方法では、視覚的なプロンプトを使用して一部のセグメンテーションの問題を正常に解決できますが、ビデオの最初のフレームのマスク注釈が必要です。この問題は、ゼロショット ビデオ セグメンテーションにおける重要な難題です。研究者が、目に見えないシーンに簡単に一般化でき、さまざまなビデオ領域にわたって一貫して高品質のセグメンテーションを提供できる方法を開発しようとすると、この課題はさらに困難になります。

現在、一部の研究者は SAM-PT (Segment Anything Meets Point Tracking) を提案しており、これは「障害」を排除するための新しいアイデアを提供する可能性があります。

写真

  • 論文アドレス: https://arxiv.org/pdf/2307.01197.pdf
  • GitHub アドレス: https://github.com/SysCV/sam-pt

図 1 に示すように、SAM-PT はビデオ セグメンテーションのためにスパース ポイント トラッキングと SAM を組み合わせた最初の方法です。オブジェクト中心の高密度特徴マッチングやマスク伝播を使用する場合とは異なり、これはポイント駆動型のアプローチです。ビデオに埋め込まれた豊富なローカル構造情報を活用してポイントを追跡します。したがって、最初のフレームでスパース ポイントを使用してターゲット オブジェクトに注釈を付けるだけでよく、未知のオブジェクトに対する一般化能力が向上し、これは UVO ベンチマークで実証されています。このアプローチは、SAM の本来の柔軟性を維持しながら、ビデオ セグメンテーションの機能を効果的に拡張するのにも役立ちます。

写真

SAM-PT は、PIPS などの最先端のポイント トラッカーを使用して、スパース ポイントの軌跡を予測し、SAM を誘導して、ビデオ セグメンテーションの汎用性を活用します。研究者らは、マスクラベルから K-Medoids クラスターセンターを使用してトラッカーを初期化することが、キュー付き SAM と最も互換性のある戦略であることを発見しました。正のポイントと負のポイントの両方を追跡することで、対象オブジェクトを背景から明確に分離できます。

出力マスクをさらに最適化するために、研究者らは 2 種類のポイントを統合する複数のマスク デコード チャネルを提案しました。さらに、時間の経過とともに追跡精度を向上させるポイント再初期化戦略を設計しました。このアプローチは、信頼できないポイントや遮蔽されたポイントを破棄し、後続のフレームで表示されるオブジェクトの一部または部分(オブジェクトが回転する場合など)のポイントを追加するというものです。

特に、私たちの実験結果では、SAM-PT がいくつかのビデオ セグメンテーション ベンチマークにおいて既存のゼロ ショット メソッドと同等か、それを上回るパフォーマンスを発揮することが示されています。トレーニング中、SAM-PT はビデオセグメンテーションデータを必要としないため、この方法の堅牢性と適応性が実証されています。 SAM-PT は、特にゼロショットのシナリオにおいて、ビデオセグメンテーションタスクの進行を促進する可能性があります。

SAM-PT法の概要

SAM は画像セグメンテーションにおいて優れた機能を発揮しますが、ビデオセグメンテーションタスクの処理には固有の制限があります。私たちが提案する「Segment Anything Meets Point Tracking」(SAM-PT)方式は、SAM をビデオ領域に効果的に拡張し、ビデオ セグメンテーション データをトレーニングする必要なく、ビデオ セグメンテーションを強力にサポートします。

図 2 に示すように、SAM-PT は主に次の 4 つのステップで構成されます。

1) 最初のフレームのクエリポイントを選択します。

2) ポイント トラッカーを使用して、これらのポイントをすべてのビデオ フレームに伝播します。

3) SAM を使用して伝播ポイントに基づいてフレームごとにセグメンテーション マスクを生成します。

4) 予測されたマスクからクエリ ポイントを抽出してプロセスを再初期化します。

写真

クエリ ポイントを選択します。プロセスの最初のステップは、最初のビデオ フレームでクエリ ポイントを定義することです。これらのクエリ ポイントは、ターゲット オブジェクト (正のポイント) を表すか、背景および非ターゲット オブジェクト (負のポイント) を指定します。クエリ ポイントは、ユーザーが手動で対話的に提供することも、グラウンド トゥルース マスクから導出することもできます。

図 3 に示すように、ユーザーは幾何学的位置や特徴の違いを考慮して、さまざまなポイント サンプリング手法を使用して、グラウンド トゥルース マスクからクエリ ポイントを取得できます。これらのサンプリング手法には、ランダム サンプリング、K-Medoids サンプリング、Shi-Tomasi サンプリング、ハイブリッド サンプリングが含まれます。

写真

ポイントトラッキング。クエリ ポイントから開始して、堅牢なポイント トラッカーを使用してビデオ内のすべてのフレームにポイントを伝播し、ポイントの軌跡とオクルージョン スコアを算出します。

最先端のポイント トラッカー PIPS がポイントの伝播に採用されています。これは、PIPS がオブジェクトの遮蔽や再現などの長期的な追跡の課題に対して適切な堅牢性を示しているためです。実験では、連鎖オプティカルフロー伝播や最初のフレーム対応などの方法よりもこれが効果的であることも示されています。

セグメンテーション。予測された軌道では、遮蔽されていないポイントが、ビデオ全体におけるターゲット オブジェクトの位置を示す指標として機能します。この時点で、遮蔽されていないポイントを使用して SAM をプロンプトし、その固有の一般化機能を使用してフレームごとのセグメンテーション マスク予測を出力することができます (図 4 を参照)。

写真

ポイントトラッキングが再初期化されました。 h = 8 フレームの予測期間に達すると、ユーザーは予測マスクを使用してクエリ ポイントを再初期化することを選択し、そのバリアントを SAM-PT-reinit として指定できます。この地平線に到達すると、h 個の予測マスクが存在し、新しいポイントは最後に予測されたマスクを使用してサンプリングされます。この段階では、以前のポイントはすべて破棄され、新しいサンプル ポイントに置き換えられます。

上記の方法によれば、以下のようにビデオをスムーズに分割することができます。

その他のデモを見る:

SAM-PTとターゲット中心マスク伝播の比較

SAM-PT は、スパース ポイント トラッキングとキュー SAM を組み合わせたもので、表 1 に示すように、高密度オブジェクト マスクの伝播に依存する従来のビデオ セグメンテーション方法とは異なります。

SAM-PT は、トレーニング中にビデオ セグメンテーション データを使用しない方法と同等かそれ以上のパフォーマンスを実現します。ただし、これらの方法と、XMem や DeAOT など、同じドメインのビデオセグメンテーショントレーニングデータを利用する方法との間には、依然としてパフォーマンスのギャップが存在します。

要約すると、SAM-PT は、スパース ポイント伝播を導入し、それをキュー画像セグメンテーション ベース モデルと組み合わせてゼロ ショット ビデオ オブジェクト セグメンテーションを行う最初の方法です。これは新たな視点を提供し、ビデオ オブジェクトのセグメンテーションの研究に新たな次元を追加します。

写真

実験結果

動画オブジェクトのセグメンテーションについては、研究チームは DAVIS 2016、DAVIS 2017、YouTube-VOS 2018、MOSE 2023 という 4 つの VOS データセットで手法を評価しました。

ビデオインスタンスのセグメンテーションについては、UVO v1.0 データセットの densevideo タスクでこの手法を評価しました。

彼らはまた、画像インスタンスセグメンテーションにおける標準的な評価指標を使用して提案手法を評価しており、これはビデオインスタンスセグメンテーションにも適用できます。これらのメトリックには、IoU に基づく平均精度 (AP) と平均再現率 (AR) が含まれます。

ビデオオブジェクトのセグメンテーションの結果

表 3 に示すように、DAVIS 2017 データセットでは、提案された方法は、ビデオ オブジェクト セグメンテーション データでトレーニングされていない他の方法よりも優れています。

写真

SAM-PT は YouTube-VOS 2018 および MOSE 2023 データセットでも PerSAM-F を上回り、表 4 および 5 に示すように平均スコア 67.0 および 41.0 を達成しました。ただし、異なるマスク トレーニング データでは、SAM-PT は両方のデータセットで SegGPT と比較してパフォーマンスが低下します。

写真

定性分析。 DAVIS 2017 での SAM-PT と SAM-PTreinit の成功したビデオセグメンテーションの視覚化結果をそれぞれ図 7a と図 7b に示します。特に、図 8 は、未知の Web ビデオ (アニメ風のテレビ アニメ シリーズ「アバター: 伝説の少年アン」のクリップ) でのビデオ セグメンテーションが成功したことを示し、提案された方法のゼロ ショット機能を実証しています。

制限と課題。 SAM-TP のゼロショット性能は競争力がありますが、まだいくつかの制限があります。これらの制限は主に、ポイント トラッカーがオクルージョン、小さなオブジェクト、モーション ブラー、および再識別を処理する能力に焦点を当てています。これらの側面では、ポイント トラッカーのエラーは将来のビデオ フレームに伝播します。

図 7c は DAVIS 2017 からのこれらの問題の例を示しており、図 9 は『アバター 伝説の少年アン』のクリップからの他の例を示しています。

写真

ビデオインスタンスのセグメンテーションの結果

SAM-PT はビデオ セグメンテーション データでトレーニングされていないにもかかわらず、同じマスク提案では TAM よりも大幅に優れたパフォーマンスを発揮します。 TAM は SAM と XMem を組み合わせた並列手法であり、XMem は BL30K で事前トレーニングされ、DAVIS と YouTube-VOS でトレーニングされますが、UVO ではトレーニングされません。

一方、SAM-PT は SAM と PIPS のポイント トラッキング手法を組み合わせたものですが、どちらもビデオ セグメンテーション タスクではトレーニングされていません。

詳細については原論文を参照してください。

<<:  ChatGPTはオンラインモードを緊急にシャットダウンし、有料のウェブページに無料でアクセスできることが一度明らかになった。

>>: 

ブログ    
ブログ    

推薦する

AIは仕事を楽にする?これらの人々は反対します。「仕事量が倍増しました!」

7月24日のニュース:昨年末にチャットボットChatGPTがリリースされて以来、人工知能がトレンド...

AIの負担を軽減する時が来た。Python AIライブラリ5選のおすすめ

機械学習は興味深いものですが、作業範囲が広く複雑で困難です。開発者として学ぶべきツールはたくさんあり...

AIOps 初心者ガイド: 基本的な概念と機能

[[380114]] [51CTO.com クイック翻訳] 世界中の企業が日常業務のデジタル化を進め...

...

ディスカッション | 人工知能は同時通訳に取って代わることができるか?

[[254687]]少し前に同時通訳者がiFlytekを「AI同時通訳詐欺」と非難し、ネット上で騒...

AI業界の「第2の成長曲線」を牽引する清華大学傘下のRealAIが第3世代のAI製品をリリース

12月9日、清華大学人工知能研究所、北京市知源人工知能研究所、北京市瑞来スマートテクノロジー株式会社...

MITの新しいAI研究:セーターが編めなくても問題ない、AIにやらせればいい

人工知能といえば、最先端のクールなアプリケーションのほかに、この話題になると「偽物」という言葉が思い...

業界大手がIoTとAIを成功裏に導入するための3つのステップ

変化は避けられませんが、人間はそれに抵抗する傾向があります。エリザベス1世女王は、編み機の発明によっ...

毎日のアルゴリズム: 二分木のレベルトラバーサル

[[423982]]バイナリ ツリーが与えられた場合、そのノード値のボトムアップ レベルのトラバーサ...

AI対決シリーズ:あなたのレコメンデーションアルゴリズムは破られましたか?

[[408906]] Google でニュースを検索すると、検索結果にポルノ記事が大量に混ざって表...

世界人工知能会議の最高栄誉である2020年SAIL賞のトップ30プロジェクトが発表されました

世界人工知能会議の最高賞であるSAIL賞(スーパーAIリーダー)は、「卓越性を追求し、未来をリードす...

これらのよく知られた VR 音声テクノロジー ソリューションをご存知ですか?

最近、Oculus は、VR デバイスを使用する際にユーザーがよりインタラクションできるようにするこ...

科学者らが自己再生材料に使える3Dプリント「生きたインク」を開発

[[437285]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

...