「AI Perspective Eyes」では、マー賞を3度受賞したアンドリューが、任意のオブジェクトの遮蔽補完の問題を解決するチームを率いた。

「AI Perspective Eyes」では、マー賞を3度受賞したアンドリューが、任意のオブジェクトの遮蔽補完の問題を解決するチームを率いた。

オクルージョンは、コンピューター ビジョンにおける最も基本的な問題ですが、未だに解決されていない問題の 1 つです。オクルージョンは視覚情報の欠如を意味しますが、マシン ビジョン システムは視覚情報に依存して認識と理解を行っており、現実世界では、オブジェクト間の相互オクルージョンは至る所で発生しています。オックスフォード大学 VGG ラボの Andrew Zisserman 氏のチームによる最新の研究では、任意のオブジェクトの遮蔽完了の問題を体系的に解決し、この問題に対する新しい、より正確な評価データセットを提案しています。この研究は、X プラットフォーム上の MPI リーダー Michael Black、CVPR 公式アカウント、南カリフォルニア大学コンピューターサイエンス学部の公式アカウントによって賞賛されました。以下は論文「Amodal Ground Truth and Completion in the Wild」の主な内容です。


  • 論文リンク: https://arxiv.org/pdf/2312.17247.pdf
  • プロジェクトのホームページ: https://www.robots.ox.ac.uk/~vgg/research/amodal/
  • コードアドレス: https://github.com/Championchess/Amodal-Completion-in-the-Wild

アモーダルセグメンテーションは、オブジェクトの遮蔽された部分を完成させること、つまり、オブジェクトの可視部分と不可視部分の形状マスクを与えることを目的としています。このタスクは、オブジェクト認識、ターゲット検出、インスタンスのセグメンテーション、画像編集、3D 再構築、ビデオ オブジェクトのセグメンテーション、オブジェクト間の関係性推論のサポート、ロボットの操作とナビゲーションなど、多くの下流タスクに役立ちます。これは、遮蔽されたオブジェクトの完全な形状を知ることがこれらのタスクに役立つためです。

しかし、現実世界でアモーダルセグメンテーションのモデルのパフォーマンスをどのように評価するかは難しい問題です。多くの写真に遮蔽されたオブジェクトが多数あるにもかかわらず、これらのオブジェクトの完全な形状の参照標準またはアモーダルマスクをどのように取得するのでしょうか。これまでの研究では、非モーダルマスクに手動で注釈を付けていましたが、このような注釈付きの参照標準では人為的エラーの発生は避けられません。他の研究では、遮蔽されたオブジェクトの完全な形状を取得するために、別のオブジェクトを完全なオブジェクトに直接貼り付けるなど、合成データセットを作成しましたが、この方法で取得した画像は実際の画像シーンではありません。そのため、本研究では、複数のオブジェクトカテゴリをカバーし、アモーダルセグメンテーションのパフォーマンスを正確に評価するためのアモーダルマスクを提供する大規模な実画像データセット(MP3D-アモーダル)を構築するための3Dモデル投影法を提案します。さまざまなデータ セットの比較を以下に示します。

具体的には、MatterPort3D データセットを例にとると、実際の写真とシーンの 3 次元構造を含む任意のデータセットに対して、シーン内のすべてのオブジェクトの 3 次元形状を同時にカメラに投影して、各オブジェクトのモーダル マスク (オブジェクトが互いに遮蔽されているため、目に見える形状) を取得し、次にシーン内の各オブジェクトの 3 次元形状を個別にカメラに投影して、オブジェクトの非モーダル マスク、つまり完全な形状を取得できます。モーダルマスクとアモーダルマスクを比較することで、遮蔽されたオブジェクトを抽出できます。

データセットの統計は次のとおりです。

以下はデータセットのサンプルです。

さらに、任意のオブジェクトの完全な形状を再構築するという課題を解決するために、著者は、安定拡散モデルの特徴からオブジェクトの完全な形状に関する事前知識を抽出し、遮蔽された任意のオブジェクトに対して非モーダルセグメンテーションを実行します。具体的なアーキテクチャは次のとおりです (SDAmodal):

Stable Diffusion 特徴の使用を提案する動機は、Stable Diffusion には画像を補完する機能があるため、ある程度、オブジェクトに関するすべての情報が含まれている可能性があり、また、Stable Diffusion は大量の画像でトレーニングされているため、その特徴にはあらゆる環境のあらゆるオブジェクトを処理する機能があると期待できることです。以前の 2 段階フレームワークとは異なり、SDAmodal は入力としてラベル付けされたオクルージョン マスクを必要としません。SDAmodal はシンプルなアーキテクチャですが、強力なゼロ ショット一般化機能を備えています (下の表の設定 F と H を比較してください。これらは COCOA でのみトレーニングされていますが、異なるドメインとカテゴリの別のデータセットで改善できます)。オクルージョンに関する注釈がなくても、SDAmodal は、さまざまなオクルージョン オブジェクトをカバーする既存の COCOA データセットと、新しく提案された MP3D-Amodal データセットで SOTA パフォーマンス (設定 H) を達成しています。

定量的実験に加えて、定性的な比較でも SDAmodal モデルの利点が反映されています。下の図 (すべてのモデルは COCOA のみでトレーニングされています) でわかるように、COCOA または別の MP3D-Amodal のどちらからでも、さまざまな種類の遮蔽オブジェクトに対して、SDAmodal はアモーダル セグメンテーションの効果を大幅に向上させ、予測されたアモーダル マスクは現実に近くなります。

詳細については、原著論文をお読みください。

<<:  世界の AI 人材レポートが発表されました: 清華大学が 3 位、北京大学が 6 位にランクイン!シリコンバレーが40万人を解雇、プログラマーの面接は12回

>>:  Tian Yuandong らの新しい研究: メモリのボトルネックを突破し、4090 で 7B の大規模モデルを事前トレーニング可能に

ブログ    
ブログ    
ブログ    

推薦する

Wu Fengguang: Linux を使って事前読み取りアルゴリズムを学ぶ

Linux は急速に発展し、今では Microsoft に追いついています。Linux をより良く適...

...

AIによる顔を変える技術によって危害を受けるのではないかと心配ですか?怖がらないで!ディープフェイク偽造対策チームが到着

ディープフェイクは登場以来、人間性の暗い側面へと向かっています。 Bステーションのユーザーは、陸小玲...

教育省:中国はAI教育政策の提供を増やす

12月7日から8日にかけて、中華人民共和国教育部、中国ユネスコ国家委員会、ユネスコの共催による「20...

人工知能がまだできない5つのこと

人工知能(AI)は、さまざまな産業の変革と複雑なタスクの簡素化において目覚ましい進歩を遂げてきました...

CVPR で最も興味深い論文 | AI はぼやけた写真を復元できる

人生で、私たちは誰でもぼやけた画像に遭遇します。昔は、ぼやけた画像を復元することは不可能でした。PS...

今日は秋分の日で収穫の季節。ドローンがショーの中心です。

9月22日は秋分の日であり、私の国では3回目の「農民の収穫祭」でもあります。収穫の季節と重なる黄金...

インテリジェントロボットにはどのような主要なセンサー技術が使用されていますか?

今日のロボットで重要な役割を果たしているいくつかの主要なセンサー技術には、磁気位置センサー、存在セン...

データサイエンティストもAIに置き換えられる可能性がある

AI が人間の活動に取って代わるかどうかについての議論が激化するにつれ、データ サイエンティストは ...

データ構造とアルゴリズム - グラフ理論: 連結成分と強連結成分の検出

無向グラフの連結成分を見つける深さ優先探索を使用すると、グラフのすべての接続コンポーネントを簡単に見...

ディープラーニングコンパイラについて知っておくべきこと

[[409589]]ディープラーニングはここ 10 年ほどで急速に発展し、業界では多くのディープラー...

自動運転車を最も必要としているのは誰でしょうか?

ほぼすべての道路状況に適応できる自動運転車の開発は、間違いなく非常に困難な課題です。無人運転車を実現...