清華大学は、2D拡散モデルを使用して不完全な3Dオブジェクトを補完する3D再構築の新しい方法、O²-Reconを提案しました。

清華大学は、2D拡散モデルを使用して不完全な3Dオブジェクトを補完する3D再構築の新しい方法、O²-Reconを提案しました。

コンピューター ビジョンでは、オブジェクト レベルの 3D サーフェス再構築テクノロジは多くの課題に直面しています。シーンレベルの再構築技術とは異なり、オブジェクトレベルの 3D 再構築では、きめ細かいシーンのモデリングと理解をサポートするために、シーン内の各オブジェクトに対して独立した 3D 表現が必要です。これは、AR/VR/MR やロボット関連のアプリケーションにとって非常に重要です。

既存の多くの方法では、3D 生成モデルの潜在空間を使用して、オブジェクト レベルの 3D 再構築を完了します。これらの方法では、潜在空間のエンコード ベクトルを使用してオブジェクトの形状を表し、再構築タスクをオブジェクトのポーズと形状エンコードの共同推定としてモデル化します。これらの方法は、生成モデルの潜在空間の優れた特性を利用して、オブジェクトの完全な形状を再構築できますが、テーブルや椅子などの特定のカテゴリのオブジェクトの 3D 再構築に限定されます。これらのカテゴリ内でも、このような方法で最適化された形状エンコーディングは、実際のオブジェクトの 3D 形状と正確に一致しないことがよくあります。他の方法では、データベースから適切な CAD モデルを取得し、オブジェクトのポーズ推定を使用して 3D 再構築を完了します。これらの方法も同様の問題に直面しています。スケーラビリティが制限され、再構築の精度が低く、オブジェクトの実際の 3D 表面構造に適合させることが困難です。

NeRFやNeuSなどの技術の発展により、imapやvMapなどの技術は微分可能なレンダリングを使用してオブジェクトの幾何学的構造を最適化できるようになりました。これらの方法は、実際のオブジェクトの表面とより一致するメッシュモデルを再構築できるだけでなく、複数のカテゴリのオブジェクトを再構築して、単一のオブジェクトカテゴリの制限を打ち破ることもできます。しかし、シーン内の撮影角度の制約により、壁に近いオブジェクトや、オブジェクト同士が遮蔽されるなど、多くのオブジェクトが遮蔽されます。オブジェクトが遮蔽されている場合、これらの方法で再構築されたオブジェクトは、次の図に示すように不完全になることがよくあります。これらの不完全な 3D モデルは、大きな角度の回転や広範囲の移動をサポートできないため、さまざまな下流のタスクで使用することが困難になります。

閉塞下での再建結果

清華大学の劉永金教授のチームは、物体の3D再構築のための新しい方法であるO²-Reconを提案しました。これは、既存の2D拡散モデルを使用して物体画像内の遮蔽された領域を補完し、次にニューラル暗黙的表面場を使用して、完成した画像から完全な3D物体を再構築します。本論文では、再投影メカニズムを使用して塗りつぶされた領域の3次元の一貫性を維持し、CLIP損失関数を追加して、暗黙的な再構築プロセスで目に見えない角度の意味情報を監視します。最終的に、完全で合理的​​な3次元オブジェクトモデルが再構築され、大きな角度の回転と変換をサポートし、さまざまな下流タスクに使用できます。現在、この論文は人工知能のトップカンファレンスの一つであるAAAI 2024に採択されています。

論文リンク: https://arxiv.org/abs/2308.09591

O²-Reconについて

方法の紹介

画像補完タスクにおける 2D 拡散モデルの優れたパフォーマンスにヒントを得て、研究者らは、事前トレーニング済みの拡散モデルを使用して画像内のオブジェクトの遮蔽された領域を補完することを目的とした O²-Recon メソッドを設計しました。既存の拡散モデルは画像補完において優れたパフォーマンスを示していますが、オブジェクトを補完する領域を示す正確なマスクがなければ、拡散モデルは正しい領域を超えた構造や誤った形状など、誤った画像コンテンツを生成する可能性があります。 O²-Recon 法では、研究者は 2D 完成と 3D 再構築の品質を確保するために、正確なマスクを構築するために少量の手作業を導入しました。

オブジェクト マスク付きの RGB-D ビデオ シーケンスが与えられた場合、ユーザーは 1 ~ 3 フレームの画像を選択し、これらの 1 ~ 3 フレームの画像内のオブジェクトの遮蔽領域を推測し、遮蔽領域のマスクを描画する必要があります。研究者らは、拡散モデルによって完成した深度情報を組み合わせて、これらの視点でのマスクを他のすべての視点に投影し、他の視点での遮蔽領域のマスクを取得しました。研究者たちは、人間とコンピューターの相互作用を少し加えることで、マスクの品質を確保しました。同時に、これらのマスクは再投影によって取得されるため、さまざまな視点から見ても幾何学的な一貫性があり、2D拡散モデルをガイドして、遮蔽された領域を適切で一貫性のある画像コンテンツで埋めることができます。

3D 再構築段階では、研究者らは NeuS に類似したニューラル暗黙的表面フィールドを使用して表面再構築を完了し、ボリューム レンダリングを使用して最適化のための損失関数を構築しました。完成した画像がまだ矛盾している可能性があることを考慮すると、この暗黙的な表現は、マルチビュー最適化プロセス中に徐々に合理的な 3 次元構造を学習できます。一方、研究者らは、完全に見えない領域の再構築効果を2つの観点から改善しました。第1に、研究者らはCLIP機能を使用して、新しい観点からのレンダリング結果とオブジェクトカテゴリテキストの一貫性を監視しました。第2に、研究者らは、表面の全体的な滑らかさを確保するための浅いMLP +低周波位置エンコーディングと、SDFの残差を予測するためのより深いMLPブランチ+高周波PE位置エンコーディングを含む、暗黙的な表面フィールドをエンコードするためのカスケードネットワーク構造を設計しました。この構造により、物体の可視領域の表面の柔軟性と不可視領域の滑らかさの両方が確保されます。

実験結果

オブジェクトの3D再構築

主な実験結果

他のオブジェクトレベルの 3D 再構築方法と比較して、O²-Recon は、上図に示すように、より正確で完全な 3D 構造を再構築できます。このうち、FroDOは潜在空間形状コーディングに基づく手法、Scan2CADはデータベース検索に基づく手法、vMapは表面再構成にNeRFを使用する手法、MonoSDFはシーンレベルの3D再構成手法です。

GIF比較

GIF比較

GIF比較

再構築されたオブジェクトの位置編集

O²-Recon によって再構築されたオブジェクトは比較的完全なので、大幅に回転または移動できます。位置を編集した後、新しい角度から観察すると、下図に示すように、表面の品質は依然として良好です。

編集する前、これらのオブジェクトは元のシーンに配置されていました。

複数オブジェクトの動的画像比較

編集後、これらのオブジェクトは新しい位置にあります。

複数オブジェクトの動的画像比較

要約する

この論文では、事前にトレーニングされた 2D 拡散モデルを使用して、シーン内の遮蔽されたオブジェクトの完全な 3D ジオメトリを再構築する O²-Recon 法を提案します。研究者らは拡散モデルを使用して、マルチビュー 2D 画像内の遮蔽された部分を補完し、ニューラル暗黙的表面を使用して、補完された画像から 3D オブジェクトを再構築しました。マスクの不一致を防ぐために、研究者は人間とコンピューターの共同戦略を採用し、少量の人間とコンピューターの相互作用を通じて高品質のマルチアングルマスクを生成し、2D画像完成プロセスを効果的に導きました。ニューラル暗黙表面の最適化プロセスでは、研究者らは SDF の滑らかさを確保するためにカスケード ネットワーク アーキテクチャを設計し、事前トレーニング済みの CLIP モデルを使用して、意味的一貫性の損失を通じて新しい視点を監視しました。 ScanNet データセットでの実験では、O²-Recon があらゆるカテゴリの遮蔽されたオブジェクトの正確かつ完全な 3D サーフェスを再構築できることが示されています。これらの再構築された完全な 3D オブジェクトは、大規模な回転や移動などのさらなる編集操作をサポートします。

<<:  スマートロボットについて知っておくべきことすべて

>>:  ByteDance の新しい具現化された知能の成果: 大規模なビデオデータでトレーニングされた GR-1 は、複雑なタスクを簡単に処理します

ブログ    
ブログ    
ブログ    

推薦する

数十億のプロモーショントラフィックでも正確な推奨を行うことは可能でしょうか?コアアルゴリズムの応用実践の解釈

[51CTO.comより引用] Alimamaは、誰もが簡単にマーケティングを行えるようにすることを...

人工知能革命は雇用を創出するのか、それとも雇用を破壊するのか?

技術革命への懸念私たちは技術革命を心配すべきでしょうか、それとも期待すべきでしょうか。一方では、技術...

GPT-4はMITの学位を取得できない、MITの研究チームは「不正行為」と反応したが、ネットユーザーはそれを信じない

数日前、「大規模言語モデルを使用した MIT 数学および EECS カリキュラムの調査」と題された論...

AIがコスト削減、生産性、雇用に与える影響

AI を活用して雇用を減らし、コストを削減する方法を考えている企業は、間違っていると思います。最近、...

今後10年間の主要な投資の方向性を予測して、あなたは未来に向けて準備ができていますか?

古代から今日のモバイルインターネット時代に至るまで、人類の誕生以来、世界に影響を与えてきたあらゆる破...

AIへの幻滅? AIの発展を妨げる8つのトレンド

それは「もし」ではなく「いつ」の問題です。以前の記事では、AI が革新的な可能性においてこれまでのテ...

ジェネレーティブAIは高度な分析に新たな可能性をもたらす

過去 2 年間で、生成型人工知能 (GenAI) の出現により、産業プロセス分析に刺激的な新しい可能...

Microsoft CTO: AI は地方の住民がパンデミックを乗り切るのにどのように役立つのでしょうか?

[[324043]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...

GenAIは将来のインシデント管理プロセスを形作っています

回答者の大多数 (59.4%) は明確なインシデント管理プロセスを導入しており、自動化のレベルはニー...

2024 年のクラウド コンピューティング セキュリティの 5 つのトレンドと進歩

クラウドの世界を探ってみましょう。ただし、単なるクラウドではなく、未来のクラウドです。具体的には、2...

AI基盤を強化し、業界の実践に注力する---WOTグローバル人工知能技術サミット機械学習実践フォーラムの記録

[51CTO.comよりオリジナル記事] 6月21日、51CTO主催のWOT2019グローバル人工知...

...

AI が大学入試のエッセイのテーマを予測: 科学、形而上学、それとも誇大広告?

大学受験生にとって、出題される問題を全て知っていて、分からない問題の答えを暗記していることが一番幸せ...

顔認識技術は議論を呼んでいる。人工知能はどのように制御されるべきか?

[[264511]]最近、米国の18歳の大学生が、アップルが顔認識ソフトウェアを使用して彼を強盗と...