超リアルな 3D 生成モデル!華南理工大学の Jia Kui 氏のチームによる ICCV'23 の新作: 再照明、編集、物理シミュレーションをサポート

超リアルな 3D 生成モデル!華南理工大学の Jia Kui 氏のチームによる ICCV'23 の新作: 再照明、編集、物理シミュレーションをサポート

大規模な事前トレーニング済み言語モデルと画像拡散モデル (Satble Diffusion など) が利用できるようになったことにより、自動 3D コンテンツ生成は最近急速に進歩しました。

既存のテキストから 3D モデルを生成する手法では、通常、NeRF などの暗黙的な表現を使用して、ボリューム レンダリングを通じてジオメトリと外観を結合しますが、より細かいジオメトリ構造を復元してリアルなレンダリングを実現するには不十分であり、高品質の 3D アセットを生成する効果は低くなります。

この研究では、華南理工大学が、高品質のテキストから 3D コンテンツを作成するための新しい方法である Fantasia3D を提案しました。その鍵となるのは、ジオメトリと外観の分離したモデリングと学習です。

写真

プロジェクトアドレス: https://fantasia3d.github.io/

ジオメトリ学習の場合、Fantasia3D は明示的表現と暗黙的表現の組み合わせに依存し、レンダリングされた表面法線マップを Satble Diffusion の入力としてエンコードすることを提案します。外観モデリングの場合、Fantasia3D は、テキストから 3 次元モデルを生成するタスクに空間的に変化する双方向反射分布関数 (BRDF) を導入し、表面のリアルなレンダリングを生成するために必要な表面素材を学習します。

分離されたフレームワークは現在のグラフィック エンジンと互換性があり、生成された 3D アセットの再ライティング、編集、物理シミュレーションをサポートします。

研究者らはまた、さまざまなテキストから 3D を生成するタスク設定において、この方法が既存の方法よりも優れていることを実証するために包括的な実験を実施しました。

モデル効果

Fantasia3D は、特定のテキストに対して、さまざまなトポロジ形状とフォトリアリスティックにレンダリングされた表面を持つ 3D モデルを生成できます。


同時に、下の図 1 の右上隅のライオンに示すように、Fantasia3D は BRDF モデリング サーフェスを使用することで、強い金属反射効果を生み出すことができます。

図1: 3Dモデル生成効果

同時に、Fantasia3D は、ユーザーが指定した大まかな 3 次元オブジェクトやテキストの生成をサポートします。

下の図 2 に示すように、大まかな 3D モデルが与えられると、Fantasia3D は入力された大まかなモデルを初期化として使用して 3D モデルを生成できます。この最適化方法により、生成プロセスがより高速かつ安定し、テキストから 3D モデルを生成する際のヤヌス問題が軽減されます。

図 2: ユーザーが指定した大まかな 3D モデルとテキストに基づいて生成されます。

さらに、暗黙的な表現に基づく既存の方法 (NeRF など) とは異なり、Fantasia3D は明示的な表現と暗黙的な表現の組み合わせを採用しており、生成された 3D アセットは既存のグラフィックス レンダリング エンジンやシミュレーション エンジンと適切に統合できます。

下の図3(a)(b)に示すように、生成された3DモデルはBlenderにインポートして布やソフトボディの物理シミュレーションを行うことができます。図3(c)は、生成されたマテリアルをBlenderで置き換えた実験結果を示しています。

図 3: Blender での編集。

下の図 4 (a) に示すように、Fantasia3D で生成されたモデルは、Blender のさまざまな照明を置き換えて、さまざまなレンダリング効果を生み出すこともできます。

(b) は、Fantasia3D によって生成されたオブジェクトを他のシーンに挿入する機能を示しています。挿入されたオブジェクトは、元の環境の照明環境と相互作用して、自然な反射効果を生み出すことができます。

図 4: 生成されたオブジェクトの再照明。

原理と方法

Fantasia3D のアプローチの概要を以下の図 5 に示します。私たちのアプローチは、テキストの手がかりから分離されたジオメトリと外観を生成することができます(図(a)を参照)。テキストの手がかりは、それぞれ(b)ジオメトリモデリングと(c)外観モデリングによって生成されます。

(b)では、3D楕円体として初期化された3D幾何学的表現としてDMTetを採用しています。

DMTet のパラメータを最適化するために、DMTet から抽出されたメッシュの法線マップ (初期のトレーニング段階でのオブジェクト マスクとともに) を Stable Diffusion の形状エンコーディングとしてレンダリングします。

(c)では、外観モデリングのために、空間的に変化する双方向反射率分布関数(BRDF)モデリングを導入し、外観の3つの成分(kd、krm、kn)を予測することを学習します。ジオメトリと外観の両方のモデリングは、分留サンプリング損失関数 (SDS 損失) によって監視されます。

図 5: Fantasia3D フローチャート。

要約する

この論文では、DMTet のハイブリッド表現に基づいており、ジオメトリと外観の分離モデリングと学習を採用し、細かい表面と豊富なマテリアル/テクスチャを生成できる、Fantasia3D と呼ばれるテキストから 3D への自動生成の新しい方法を紹介します。

幾何学的学習のために、研究者らはレンダリングされた法線マップをエンコードし、法線の形状を事前トレーニング済みの安定拡散への入力としてエンコードすることを提案した。

外観モデリングでは、空間的に変化する BRDF が 3D テキスト ペアの生成タスクに導入され、学習面のリアルなレンダリングに必要なマテリアルの学習が可能になります。

この方法では、テキストプロンプトに加えて、カスタマイズされた 3D 形状に基づいて生成することもできます。これにより、ユーザーにとって柔軟性が高まり、生成されたコンテンツをより適切に制御できるようになります。

さらに、このアプローチは、生成された 3D アセットの再照明、編集、物理シミュレーションを便利にサポートします。

著者について


陳睿さんは華南理工大学の大学院1年生で、指導教員は賈奎教授です。彼の研究対象は、コンピューター ビジョンとコンピューター グラフィックスの交差点、特に生成モデルと物理ベースのレンダリング技術を使用して高品質の 3D アセットを作成する分野です。

個人ホームページ: https://cyw-3d.github.io/

Yongwei Chen さんは、華南理工大学の GorillaLab の 3 年生です。彼は Jia Kui 教授の下で学び、3D ビジョン、マルチモーダル学習、微分可能レンダリング、拡散モデルなどを研究対象としています。彼の関連する研究成果は、CVPR、ECCV、NeurIPS、ICCV などのトップクラスのコンピューター ビジョンおよび人工知能カンファレンスで発表されています。最近の研究の方向性は、材質、形状、動き、その他の関連パラメータを含む 3D アセットを自動的に生成できる AI モデルの探索に重点を置いています。

個人ホームページ: http://kuijia.site/

賈奎氏は、華南理工大学の教授であり、幾何知覚・知能研究所の所長であり、広東省の「珠江人材計画」の革新・起業チームのリーダーです。彼は、中国科学院深圳先端技術研究所、香港中文大学、イリノイ大学アーバナ・シャンペーン校先端デジタル科学研究センター、マカオ大学で教育と研究に携わってきました。

彼の研究分野には、コンピュータービジョン、機械学習、人工知能などが含まれます。近年は、ディープラーニングの理論と一般化、幾何学的ディープラーニング、3D AIGC に重点を置いています。彼の研究成果は、TPAMI/CVPR/ICML/NeurIPS などのトップジャーナルやカンファレンスで発表されています。彼は、TMLR/TIP などのジャーナルの副編集長、および ICML/ICCV/NeurIPS などの会議のエリア議長を務めています。

幾何知覚と知能研究室(ゴリラ研究室)は、機械学習、コンピュータビジョン、3次元知覚などの人工知能の中核領域に焦点を当てています。意味認識とコンテンツ生成を重視し、学習データの内在的幾何規則性と外在的幾何表現を中核的手法の指針として、画像、動画、点群などの高次元データをインテリジェントに処理し、関連分野の発展と産業化を推進しています。同研究所は設立以来、中国国家自然科学基金、広東省科学技術庁、華為技術有限公司などから数千万ドルの資金提供を受けてきた。

Jia Kui 教授の研究室では、ポスドク、博士課程、研究修士課程、研究アシスタントのポジションを多数募集しています。人工知能、コンピューター ビジョン、3D 認識と生成の研究に興味のある学生は、[email protected] までメールをお送りください。

<<:  IDC:2026年までに国内市場の端末のほぼ半数がハードウェアレベルのAIエンジン技術を搭載

>>:  AI/MLを使用してテクノロジースタックを最適化し、ビジネス効率を向上させる方法

ブログ    
ブログ    
ブログ    

推薦する

【受賞討論会】「スマート運用・保守」がトレンドに。運用・保守エンジニアは人工知能に置き換えられるのか?

特にインフラとして重要な役割を担うデータセンターにおいては、運用・保守は決して軽視できるものではなく...

SumTo100ゲームの自己学習と結果予測を実現するためのAIアシスタントのトレーニング

翻訳者|朱 仙中レビュー | Chonglou導入完全情報ゲームにおいて、ゲームのルールに従って、必...

Volcano Engineがビヨンドのクラシックコンサートを超高解像度で復元、その技術的能力が一般公開される

7月3日夜、TikTokはユニバーサルミュージック傘下のレーベル、ポリグラムと提携し、ボルケーノエン...

...

...

ジェネレーティブAIが急成長し、デジタル小売業はその名にふさわしい存在となっている

生成型 AI の台頭は単なる外的な現れに過ぎません。それが私たちに伝えているのは、新しい技術の波の到...

人工知能とセキュリティ:繋がる双子

何十年もの間、セキュリティは重要であると考えられてきましたが、いわゆる「コアビジネス」機能に関与した...

2020年中国インテリジェントIoT(AIoT)白書

インテリジェントなモノのインターネット(AIoT)は、2018年に登場した概念です。さまざまな情報セ...

GPT-5 は 50,000 個の H100 で停止しています。アルトマンは、NVIDIAに代わるAIチップ帝国を築くために、緊急に数十億ドルを調達している。

サム・アルトマンは半導体ファウンドリの世界的なネットワークを構築するために数十億ドルを調達しています...

10分で多言語チャットボットを作成する方法

[51CTO.com クイック翻訳]チャットボットは、人間との会話を自動的に行い、組織と顧客間のビジ...

スマートデバイスとエッジコンピューティングはどのように発展するのでしょうか?

エッジコンピューティングが増加しています。 AI とネットワークの進歩を組み合わせて、より強力なロー...

人工知能の時代において、中国語と英語のどちらがAIの母国語になるのでしょうか?

人工知能は現在非常に人気の高い技術であり、世界中の国々が研究に資金と人材を投入しています。人工知能を...

人工知能が「人工知能」にならないようにするための鍵は、まだ人間の脳にあるかもしれない

ペンシルベニア州立大学の研究チームによると、脳内のアストロサイトと呼ばれる細胞の機能を解明し、それを...

BigDL-LLMを使用して、数百億のパラメータを持つLLM推論を即座に加速します。

私たちは、顧客サービス、仮想アシスタント、コンテンツ作成、プログラミング支援などのさまざまなアプリケ...

OpenAI の Whisper モデルを使用して音声をテキストに変換する

翻訳者 |ブガッティレビュー | Chonglou図1. OpenAI Whisperモデルの動作原...