5秒間のモバイル猫動画でも猫の3Dモデルを再構築できる。Metaは変形した物体をモデリングするための新しいアルゴリズムを提案

5秒間のモバイル猫動画でも猫の3Dモデルを再構築できる。Metaは変形した物体をモデリングするための新しいアルゴリズムを提案

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

ご存知のとおり、猫は液体です。

これは CVer にとっても大きな問題です。2Dビデオから 3D で猫を正確に再構築するにはどうすればよいでしょうか?

多くの場合、3D で再構築されたモデルは実際には液体のプールです。

最近、Meta チームは、猫の正確な 3D 再構築を実現するBANMo (Builder of Animatable 3D Neural Models) を提案しました。

この方法では、特別なセンサーや定義済みのテンプレート形状は必要ありません。猫を撮影した何気ないビデオを使用して 3D 再構築を行うこともできます。

BANMoに関するこの論文は最近CVPR 2022に採択され、著者らは関連コードをオープンソース化しました。

原理

単眼ビデオから自由に動く非剛体オブジェクト(猫など) を再構築することは、制約が非常に少ないタスクであり、次の 3 つの大きな課題に直面します。

対象モデルの 3D 外観と変形を標準空間で表現する方法。

標準空間と各フレーム間のマッピングを見つける方法。

画像内の遠近感、照明の変化、オブジェクトの変形間の 2D 対応を見つける方法。

NRSfM や NeRF などの従来の方法では、表面を正確に再構築できなかったり、撮影角度や物体の剛性に関する要件があったりしました。

これらの問題に対処するために、BANMo はニューラル ハイブリッド スキニングを使用して、ターゲット オブジェクトの変形空間を制限する方法を提供します。

BANMo は、高忠実度の 3D ジオメトリ再構築を実現できます。動的 NeRF 方式と比較して、BANMo でのニューラル ハイブリッド スキンの使用は、カメラ パラメータが不明な場合のポーズの変化や変形をより適切に処理できます。

要約すると、BANMo の鍵となるのは、次の 3 つの技術の融合です。

(1)関節骨格とハイブリッドスキンを使用した古典的な変形形状モデル

(2)勾配ベースの最適化に適したNeRF

(3)ピクセルと関節モデルとの間の対応関係を生成する標準的な埋め込み。

一般的な方法を以下の図に示します。

一連の形状および変形パラメータは、微分可能ボリュームレンダリングフレームワーク(3.1)に従って最適化され、ビデオ観測はピクセルカラー、輪郭、オプティカルフロー、および高レベルの特徴記述子を使用して記述されます。

ニューラルハイブリッドスキンモデル(3.2)を使用して、カメラ空間と標準空間間で3Dポイントを変換します。

ビデオ内のピクセルを登録するために、暗黙の標準埋め込み(3.3)を共同で最適化します。

全体的なアーキテクチャの観点から見ると、BANMo は次の 3 つの部分に分かれています。

1. 形状と外観モデル

この部分では、多層パーセプトロン (MLP) ネットワークを使用して、色や密度などの属性を予測し、カメラの視点変換を学習して大きな変形を処理します。

2. ニューラルハイブリッド皮膚変形モデル

これは、関節の動きを近似するニューラル ハイブリッド スキン モデルに基づいており、オブジェクトの歪みを、それぞれが微分可能かつ可逆な剛体変換の組み合わせとして扱います。

3. 標準化された埋め込みピクセル登録

埋め込みは、正準空間内の 3D ポイントの意味情報をエンコードします。ここで、著者らは暗黙の関数を最適化して、2D DensePose CSE 埋め込みに一致する 3D 正準ポイントから正準埋め込みを生成します。

BANMo は、実際のデータセットと合成データセットの両方において、服を着た人間や動物の再構築において優れたパフォーマンスを発揮します。

著者について

この記事の筆頭著者は、西安交通大学を卒業し、現在はCMUで博士号取得を目指して動的構造の3D再構築アルゴリズムを研究しているYang Gengshan氏です。

BANMo 論文は、Meta でのインターンシップ中に完成しました。

2019年から現在までに、NeurIPSに4本の第一著者論文が採択され、CVPRにも4本の第一著者論文が採択されています。

<<:  Fudan DISC、クロスビジュアル言語モダリティ事前トレーニングモデルMVPTRを発表

>>:  2022年のインテリジェント運用保守(AIOps)の開発動向

ブログ    
ブログ    
ブログ    

推薦する

ドローン時代の到来により、人工知能航空機が有人戦闘機に取って代わり、パイロットは失業することになるのでしょうか?

まず、ドローンはソレイマニの暗殺に使用され、その後、アルメニアとアゼルバイジャンの戦場でドローンが活...

...

詳細 | ビッグデータアルゴリズムアプリケーションのテストの開発

[[324462]]アリ姉の紹介:近年、データコンピューティング能力と機械知能アルゴリズムの台頭によ...

ニュースローン賞受賞者 宋 樹蘭: 視覚の観点からロボットの「目」を構築する

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

大規模言語モデルの量子化手法の比較: GPTQ、GGUF、AWQ

大規模言語モデル (LLM) は過去 1 年間で急速に進化しており、この記事では (量子化) へのい...

人工知能が物理学に及ぼす影響

人工知能(AI)は物理学の分野を含む多くの産業に変革をもたらしています。物理学では、AI は複雑な問...

サイバーセキュリティにおける人工知能:現在の課題と将来の方向性

人工知能 (AI) はあらゆる分野に革命をもたらしましたが、サイバーセキュリティも例外ではありません...

AIは人間の雇用を脅かすものではなく、成長と革新の触媒である

何十年もの間、ニュースの見出しやSF小説では、トラック運転手やショッピングモールの警備員から芸術家や...

この AI はわずか 20 分で複雑な芸術作品を作成できます。 1080グラフィックカードが実行可能

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AI STUDIO - AI機能を実現するためのハードルゼロ

AI技術の発展により、人類社会は熱い知能革命の真っ只中にあります。技術革命の波に素早く適応できる者が...

私たちはこれらのソートアルゴリズムを本当に理解しているのでしょうか?

[[379394]]おそらく、あなたはすでにこれらの一般的なソートアルゴリズムを学んだことがあるか...

...

MIT は Google と提携して 7 台のマルチタスク ロボットをトレーニングし、9,600 のタスクで 89% の成功率を達成しました。

タスクの数が増えるにつれて、現在の計算方法を使用して汎用の日常的なロボットを構築するコストは法外なも...

Google のロボットアームはハンカチなど、柔らかいものも硬いものもつかむことができます。 ICRA 2021が承認されました

現在、ロボットに関する研究は、主に特定の形状の物体を掴むためのロボットアームの設計に焦点を当てていま...

Arthur Bench に基づいて LLM 評価を実施するにはどうすればよいでしょうか?

こんにちは、皆さん。私は Luga です。今日は、人工知能 (AI) エコシステムに関連するテクノロ...