「AI Perspective Eyes」では、マー賞を3度受賞したアンドリューが、任意のオブジェクトの遮蔽補完の問題を解決するチームを率いた。

「AI Perspective Eyes」では、マー賞を3度受賞したアンドリューが、任意のオブジェクトの遮蔽補完の問題を解決するチームを率いた。

オクルージョンは、コンピューター ビジョンにおける最も基本的な問題ですが、未だに解決されていない問題の 1 つです。オクルージョンは視覚情報の欠如を意味しますが、マシン ビジョン システムは視覚情報に依存して認識と理解を行っており、現実世界では、オブジェクト間の相互オクルージョンは至る所で発生しています。オックスフォード大学 VGG ラボの Andrew Zisserman 氏のチームによる最新の研究では、任意のオブジェクトの遮蔽完了の問題を体系的に解決し、この問題に対する新しい、より正確な評価データセットを提案しています。この研究は、X プラットフォーム上の MPI リーダー Michael Black、CVPR 公式アカウント、南カリフォルニア大学コンピューターサイエンス学部の公式アカウントによって賞賛されました。以下は論文「Amodal Ground Truth and Completion in the Wild」の主な内容です。


  • 論文リンク: https://arxiv.org/pdf/2312.17247.pdf
  • プロジェクトのホームページ: https://www.robots.ox.ac.uk/~vgg/research/amodal/
  • コードアドレス: https://github.com/Championchess/Amodal-Completion-in-the-Wild

アモーダルセグメンテーションは、オブジェクトの遮蔽された部分を完成させること、つまり、オブジェクトの可視部分と不可視部分の形状マスクを与えることを目的としています。このタスクは、オブジェクト認識、ターゲット検出、インスタンスのセグメンテーション、画像編集、3D 再構築、ビデオ オブジェクトのセグメンテーション、オブジェクト間の関係性推論のサポート、ロボットの操作とナビゲーションなど、多くの下流タスクに役立ちます。これは、遮蔽されたオブジェクトの完全な形状を知ることがこれらのタスクに役立つためです。

しかし、現実世界でアモーダルセグメンテーションのモデルのパフォーマンスをどのように評価するかは難しい問題です。多くの写真に遮蔽されたオブジェクトが多数あるにもかかわらず、これらのオブジェクトの完全な形状の参照標準またはアモーダルマスクをどのように取得するのでしょうか。これまでの研究では、非モーダルマスクに手動で注釈を付けていましたが、このような注釈付きの参照標準では人為的エラーの発生は避けられません。他の研究では、遮蔽されたオブジェクトの完全な形状を取得するために、別のオブジェクトを完全なオブジェクトに直接貼り付けるなど、合成データセットを作成しましたが、この方法で取得した画像は実際の画像シーンではありません。そのため、本研究では、複数のオブジェクトカテゴリをカバーし、アモーダルセグメンテーションのパフォーマンスを正確に評価するためのアモーダルマスクを提供する大規模な実画像データセット(MP3D-アモーダル)を構築するための3Dモデル投影法を提案します。さまざまなデータ セットの比較を以下に示します。

具体的には、MatterPort3D データセットを例にとると、実際の写真とシーンの 3 次元構造を含む任意のデータセットに対して、シーン内のすべてのオブジェクトの 3 次元形状を同時にカメラに投影して、各オブジェクトのモーダル マスク (オブジェクトが互いに遮蔽されているため、目に見える形状) を取得し、次にシーン内の各オブジェクトの 3 次元形状を個別にカメラに投影して、オブジェクトの非モーダル マスク、つまり完全な形状を取得できます。モーダルマスクとアモーダルマスクを比較することで、遮蔽されたオブジェクトを抽出できます。

データセットの統計は次のとおりです。

以下はデータセットのサンプルです。

さらに、任意のオブジェクトの完全な形状を再構築するという課題を解決するために、著者は、安定拡散モデルの特徴からオブジェクトの完全な形状に関する事前知識を抽出し、遮蔽された任意のオブジェクトに対して非モーダルセグメンテーションを実行します。具体的なアーキテクチャは次のとおりです (SDAmodal):

Stable Diffusion 特徴の使用を提案する動機は、Stable Diffusion には画像を補完する機能があるため、ある程度、オブジェクトに関するすべての情報が含まれている可能性があり、また、Stable Diffusion は大量の画像でトレーニングされているため、その特徴にはあらゆる環境のあらゆるオブジェクトを処理する機能があると期待できることです。以前の 2 段階フレームワークとは異なり、SDAmodal は入力としてラベル付けされたオクルージョン マスクを必要としません。SDAmodal はシンプルなアーキテクチャですが、強力なゼロ ショット一般化機能を備えています (下の表の設定 F と H を比較してください。これらは COCOA でのみトレーニングされていますが、異なるドメインとカテゴリの別のデータセットで改善できます)。オクルージョンに関する注釈がなくても、SDAmodal は、さまざまなオクルージョン オブジェクトをカバーする既存の COCOA データセットと、新しく提案された MP3D-Amodal データセットで SOTA パフォーマンス (設定 H) を達成しています。

定量的実験に加えて、定性的な比較でも SDAmodal モデルの利点が反映されています。下の図 (すべてのモデルは COCOA のみでトレーニングされています) でわかるように、COCOA または別の MP3D-Amodal のどちらからでも、さまざまな種類の遮蔽オブジェクトに対して、SDAmodal はアモーダル セグメンテーションの効果を大幅に向上させ、予測されたアモーダル マスクは現実に近くなります。

詳細については、原著論文をお読みください。

<<:  世界の AI 人材レポートが発表されました: 清華大学が 3 位、北京大学が 6 位にランクイン!シリコンバレーが40万人を解雇、プログラマーの面接は12回

>>:  Tian Yuandong らの新しい研究: メモリのボトルネックを突破し、4090 で 7B の大規模モデルを事前トレーニング可能に

ブログ    
ブログ    

推薦する

ローコードがAIの参入障壁を下げる

[[341638]] [51CTO.com クイック翻訳] 機械学習を迅速に実装したい組織は、新興の...

教育におけるAIの役割: AIが学習方法をどのように変えるか

教育分野では、人工知能(AI)の適応性が大きな注目を集めています。学習者、教育者、政策立案者はいずれ...

DeepMindらが優秀論文賞を受賞、IBMスーパーコンピュータDeep Blueが古典に、IJCAI2023の賞が発表

国際人工知能合同会議(IJCAI)は、AI分野におけるトップクラスの学術会議の一つです。第1回会議は...

...

...

ケーキを食べて、ケーキも残すことはできないのですか?清華大学チーム、非常に正確で解釈可能な分類モデルを提案

[[432462]]既存の機械学習分類モデルは、性能と解釈可能性に基づいて、大まかに 2 つのカテ...

米国商務省は、生成型人工知能の潜在的なリスクに対処するために、公開AIワーキンググループを設立した。

6月25日、ジーナ・ライモンド米国商務長官は、国立標準技術研究所(NIST)が人工知能(AI)に関...

...

C# 遺伝的アルゴリズム学習ノート

次のコードは、C# 遺伝的アルゴリズムを使用して、単純な花の進化シミュレーション プロセスを実装しま...

無料の AI ベスト論文検索ツール: ワンクリックで結果を表示し、数分で論文の表とデータを抽出

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

参入から放棄までのデータマイニング:線形回帰とロジスティック回帰

「データマイニングのアルゴリズムは、線形代数、確率論、情報理論に基づいています。それらを深く掘り下げ...

ディープラーニングコンパイラについて知っておくべきこと

[[409589]]ディープラーニングはここ 10 年ほどで急速に発展し、業界では多くのディープラー...

AI人材の確保をめぐる秘密の戦い:中国が勝利する可能性は?

[[251811]]画像ソース @Visual China人工知能の概念は、提唱されてから60年以...

自動機械学習でニューラルネットワークを進化させる方法

機械学習に携わるほとんどの人にとって、ニューラル ネットワークの設計は芸術作品の作成に似ています。ニ...