清華大学は、2D拡散モデルを使用して不完全な3Dオブジェクトを補完する3D再構築の新しい方法、O²-Reconを提案しました。

清華大学は、2D拡散モデルを使用して不完全な3Dオブジェクトを補完する3D再構築の新しい方法、O²-Reconを提案しました。

コンピューター ビジョンでは、オブジェクト レベルの 3D サーフェス再構築テクノロジは多くの課題に直面しています。シーンレベルの再構築技術とは異なり、オブジェクトレベルの 3D 再構築では、きめ細かいシーンのモデリングと理解をサポートするために、シーン内の各オブジェクトに対して独立した 3D 表現が必要です。これは、AR/VR/MR やロボット関連のアプリケーションにとって非常に重要です。

既存の多くの方法では、3D 生成モデルの潜在空間を使用して、オブジェクト レベルの 3D 再構築を完了します。これらの方法では、潜在空間のエンコード ベクトルを使用してオブジェクトの形状を表し、再構築タスクをオブジェクトのポーズと形状エンコードの共同推定としてモデル化します。これらの方法は、生成モデルの潜在空間の優れた特性を利用して、オブジェクトの完全な形状を再構築できますが、テーブルや椅子などの特定のカテゴリのオブジェクトの 3D 再構築に限定されます。これらのカテゴリ内でも、このような方法で最適化された形状エンコーディングは、実際のオブジェクトの 3D 形状と正確に一致しないことがよくあります。他の方法では、データベースから適切な CAD モデルを取得し、オブジェクトのポーズ推定を使用して 3D 再構築を完了します。これらの方法も同様の問題に直面しています。スケーラビリティが制限され、再構築の精度が低く、オブジェクトの実際の 3D 表面構造に適合させることが困難です。

NeRFやNeuSなどの技術の発展により、imapやvMapなどの技術は微分可能なレンダリングを使用してオブジェクトの幾何学的構造を最適化できるようになりました。これらの方法は、実際のオブジェクトの表面とより一致するメッシュモデルを再構築できるだけでなく、複数のカテゴリのオブジェクトを再構築して、単一のオブジェクトカテゴリの制限を打ち破ることもできます。しかし、シーン内の撮影角度の制約により、壁に近いオブジェクトや、オブジェクト同士が遮蔽されるなど、多くのオブジェクトが遮蔽されます。オブジェクトが遮蔽されている場合、これらの方法で再構築されたオブジェクトは、次の図に示すように不完全になることがよくあります。これらの不完全な 3D モデルは、大きな角度の回転や広範囲の移動をサポートできないため、さまざまな下流のタスクで使用することが困難になります。

閉塞下での再建結果

清華大学の劉永金教授のチームは、物体の3D再構築のための新しい方法であるO²-Reconを提案しました。これは、既存の2D拡散モデルを使用して物体画像内の遮蔽された領域を補完し、次にニューラル暗黙的表面場を使用して、完成した画像から完全な3D物体を再構築します。本論文では、再投影メカニズムを使用して塗りつぶされた領域の3次元の一貫性を維持し、CLIP損失関数を追加して、暗黙的な再構築プロセスで目に見えない角度の意味情報を監視します。最終的に、完全で合理的​​な3次元オブジェクトモデルが再構築され、大きな角度の回転と変換をサポートし、さまざまな下流タスクに使用できます。現在、この論文は人工知能のトップカンファレンスの一つであるAAAI 2024に採択されています。

論文リンク: https://arxiv.org/abs/2308.09591

O²-Reconについて

方法の紹介

画像補完タスクにおける 2D 拡散モデルの優れたパフォーマンスにヒントを得て、研究者らは、事前トレーニング済みの拡散モデルを使用して画像内のオブジェクトの遮蔽された領域を補完することを目的とした O²-Recon メソッドを設計しました。既存の拡散モデルは画像補完において優れたパフォーマンスを示していますが、オブジェクトを補完する領域を示す正確なマスクがなければ、拡散モデルは正しい領域を超えた構造や誤った形状など、誤った画像コンテンツを生成する可能性があります。 O²-Recon 法では、研究者は 2D 完成と 3D 再構築の品質を確保するために、正確なマスクを構築するために少量の手作業を導入しました。

オブジェクト マスク付きの RGB-D ビデオ シーケンスが与えられた場合、ユーザーは 1 ~ 3 フレームの画像を選択し、これらの 1 ~ 3 フレームの画像内のオブジェクトの遮蔽領域を推測し、遮蔽領域のマスクを描画する必要があります。研究者らは、拡散モデルによって完成した深度情報を組み合わせて、これらの視点でのマスクを他のすべての視点に投影し、他の視点での遮蔽領域のマスクを取得しました。研究者たちは、人間とコンピューターの相互作用を少し加えることで、マスクの品質を確保しました。同時に、これらのマスクは再投影によって取得されるため、さまざまな視点から見ても幾何学的な一貫性があり、2D拡散モデルをガイドして、遮蔽された領域を適切で一貫性のある画像コンテンツで埋めることができます。

3D 再構築段階では、研究者らは NeuS に類似したニューラル暗黙的表面フィールドを使用して表面再構築を完了し、ボリューム レンダリングを使用して最適化のための損失関数を構築しました。完成した画像がまだ矛盾している可能性があることを考慮すると、この暗黙的な表現は、マルチビュー最適化プロセス中に徐々に合理的な 3 次元構造を学習できます。一方、研究者らは、完全に見えない領域の再構築効果を2つの観点から改善しました。第1に、研究者らはCLIP機能を使用して、新しい観点からのレンダリング結果とオブジェクトカテゴリテキストの一貫性を監視しました。第2に、研究者らは、表面の全体的な滑らかさを確保するための浅いMLP +低周波位置エンコーディングと、SDFの残差を予測するためのより深いMLPブランチ+高周波PE位置エンコーディングを含む、暗黙的な表面フィールドをエンコードするためのカスケードネットワーク構造を設計しました。この構造により、物体の可視領域の表面の柔軟性と不可視領域の滑らかさの両方が確保されます。

実験結果

オブジェクトの3D再構築

主な実験結果

他のオブジェクトレベルの 3D 再構築方法と比較して、O²-Recon は、上図に示すように、より正確で完全な 3D 構造を再構築できます。このうち、FroDOは潜在空間形状コーディングに基づく手法、Scan2CADはデータベース検索に基づく手法、vMapは表面再構成にNeRFを使用する手法、MonoSDFはシーンレベルの3D再構成手法です。

GIF比較

GIF比較

GIF比較

再構築されたオブジェクトの位置編集

O²-Recon によって再構築されたオブジェクトは比較的完全なので、大幅に回転または移動できます。位置を編集した後、新しい角度から観察すると、下図に示すように、表面の品質は依然として良好です。

編集する前、これらのオブジェクトは元のシーンに配置されていました。

複数オブジェクトの動的画像比較

編集後、これらのオブジェクトは新しい位置にあります。

複数オブジェクトの動的画像比較

要約する

この論文では、事前にトレーニングされた 2D 拡散モデルを使用して、シーン内の遮蔽されたオブジェクトの完全な 3D ジオメトリを再構築する O²-Recon 法を提案します。研究者らは拡散モデルを使用して、マルチビュー 2D 画像内の遮蔽された部分を補完し、ニューラル暗黙的表面を使用して、補完された画像から 3D オブジェクトを再構築しました。マスクの不一致を防ぐために、研究者は人間とコンピューターの共同戦略を採用し、少量の人間とコンピューターの相互作用を通じて高品質のマルチアングルマスクを生成し、2D画像完成プロセスを効果的に導きました。ニューラル暗黙表面の最適化プロセスでは、研究者らは SDF の滑らかさを確保するためにカスケード ネットワーク アーキテクチャを設計し、事前トレーニング済みの CLIP モデルを使用して、意味的一貫性の損失を通じて新しい視点を監視しました。 ScanNet データセットでの実験では、O²-Recon があらゆるカテゴリの遮蔽されたオブジェクトの正確かつ完全な 3D サーフェスを再構築できることが示されています。これらの再構築された完全な 3D オブジェクトは、大規模な回転や移動などのさらなる編集操作をサポートします。

<<:  スマートロボットについて知っておくべきことすべて

>>:  ByteDance の新しい具現化された知能の成果: 大規模なビデオデータでトレーニングされた GR-1 は、複雑なタスクを簡単に処理します

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ディープラーニングにも格闘技カンファレンスがある! 8つのテクノロジーの巨人:私の学派はAGIを実現できる

[[426161]]ディープラーニングの研究は格闘技の競技のようなものですか?意外なことに、何でもや...

自動車所有者は完全自動運転を導入すべきでしょうか?マスク氏:よく分かりません

北京時間7月27日、テスラは最近、自動車所有者に「完全自動運転」(FSD)機能のサブスクリプションを...

末期の病気を患う58歳の女性が、メタバースで死に際の願いを叶えた。VRグランドキャニオンツアーだ。

慢性閉塞性肺疾患を患っている女性は長い間病気で寝たきりの状態です。しかし、彼女の最後の願いは、アメリ...

インテリジェントビルにおける人工知能技術の応用の展望

現在の人工知能技術と製品の実用レベルによると、インテリジェントビルの分野では、建物の自己調節型「呼吸...

CVPR 自動運転チャレンジで優勝したのはどのようなソリューションでしょうか?

道路は複雑で、車両の種類も多様で、歩行者も密集しています。これが都市部の道路交通の現状であり、自動運...

待望のAI実装はどこで行き詰まっているのでしょうか?

AIはこれまで3つの発展の波を経験してきました。最初の2つの波は当時の技術環境やその他の理由により...

GoogleのAIオープンソース成果物は3年前に誕生し、想像もつかないような多くの場所で使用されている。

2016年3月、人間と機械の戦い「イ・セドル対AlphaGo」は、人工知能の力を世界に知らしめた。...

...

自動運転車がキャンパスの食事を配達するために走行中:サービス料金は15分以内で13元にも達する

海外メディアの報道によると、米国のジョージ・メイソン大学は、無人車両による食品配達サービスを開始し、...

モデル圧縮率95%、MIT Han Songらが新しいLite Transformerを提案

Transformer の高性能は非常に高い計算能力に依存しており、モバイル NLP に大きな制限が...

3分で振り返る!2021年9月のロボット分野の重要な動向を概観

2021年9月に北京で開催された世界ロボットコンテストでは、さまざまな企業がロボット技術の研究開発に...

...

自律走行レースのためのマルチモーダルセンサーフュージョンとターゲット追跡

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

AI が「脳で画像を完成させる」ことを学習: ニューラル ネットワークが 0 から 1 までの画像を完成させる

1新しいインテリジェンス集出典: arXiv、Github張毅編纂[新しいインテリジェンスの紹介]自...