3D生成の中核理論の再構築:VAST、香港大学、清華大学が「ゼロ」のトレーニングデータで3Dモデルを生成

3D生成の中核理論の再構築:VAST、香港大学、清華大学が「ゼロ」のトレーニングデータで3Dモデルを生成

トレーニング データは必要ありません。「宿題をしているバナナマン」などの文をモデルに説明するだけです。

あるいは「VRメガネをかけた猫」:

説明を満たす高品質のテクスチャ マップを持つ 3D シーンを生成できます。それだけでなく、既存の 3D モデルの微調整マッピングも実行できます。

これは香港大学と清華大学が共同開発したスター3D生成企業VAST AIが開発した新しい方法で、複雑なテキスト記述から想像力豊かで高品質な3Dモデルを直接生成することができます。

現在、この研究成果は人工知能のトップカンファレンス「ICLR 2024」に収録されており、コードはオープンソース化されています。この研究に興味のある方は、以下のプロジェクトのホームページと論文のアドレスをご覧ください。

  • 論文アドレス: https://arxiv.org/abs/2310.19415
  • プロジェクトアドレス: https://xinyu-andy.github.io/Classifier-Score-Distillation
  • コードアドレス: https://github.com/CVMI-Lab/Classifier-Score-Distillation
  • 論文タイトル: 分類スコア蒸留によるテキストから 3D への変換

それで、具体的にはどのようにこれを実現するのでしょうか?新しい方法が何であるかを理解する前に、まず既存の方法の問題点を理解しましょう。

従来の生成モデルが直面するジレンマ

インタラクティブ ゲーム、映画芸術、拡張現実/仮想現実、シミュレーション テクノロジーなどのさまざまなアプリケーション シナリオでは、高品質の 3D アセットを作成することが常に重要かつ困難な問題となっています。

現在、ほとんどの生成モデルはトレーニングのために現場の大量の高品質データに依存していますが、3D 分野ではそのようなデータセットは非常に不足しています。この結果、3D データに基づいてトレーニングされた現在の 3D 生成モデルでは、画像分野での成功を再現することができません。

2D事前分布に基づく3D生成法

この問題を解決するために、Google の Dream Fusion は最初にスコア蒸留サンプリング (SDS) 方式を提案し、事前にトレーニングされた 2 次元拡散モデルを通じて高品質で複雑な 3 次元結果を生成できることを証明しました。このパラダイムの利点は、3D データの事前トレーニングなしで 3D モデルを生成できることです。このアーキテクチャは、Nvidia の Magic3D などの研究者やその後の作業で使用されてきました。その中核となる理論は、レンダリングされたイメージをテキスト条件下で高確率密度領域に向かって移動させることにより、3D シーンを逆に生成することです。

SDS ベースの方法は目覚ましい成果を上げていますが、本論文の研究者らは、主に SDS ベースの方法が一般に分類子フリー ガイダンス (CFG) に依存しているため、実際の実装では SDS ベースの方法と理論の間に常に何らかのギャップがあることを発見しました。

CFG を使用する場合、最適化を推進する勾配は実際には 2 つの部分で構成されます。1 つはデータ密度の勾配で、もう 1 つは事後関数の勾配です。前者は SDS 理論の重要な部分に対応し、後者は実験中に追加された補助手段にすぎません。

分類器スコア蒸留: 3D 生成を改革する鍵

この論文の主な貢献は、SDS における CFG の役割を再評価し、CFG が単なる補助手段ではなく、逆にテキストから 3D への生成における重要な推進力であることを発見することです。この部分は暗黙の分類モデルとして解釈できるため、研究者はこの新しいパラダイムをClassifier Score Distillation (CSD)と名付けました。

この発見は、分留に基づくテキストから 3D への生成の成功の基盤となるメカニズムに対する私たちの理解を根本的に変えるものです。具体的には、その有効性は、生成事前確率に頼るのではなく、暗黙の分類子から知識を抽出することから生まれます。

CSD の導入により、既存の技術設計の選択を再検討できるようになります。たとえば、ネガティブなヒントはネガティブな分類スコアとして扱うことができ、ヒントされた結果への忠実性を維持しながら生成品質を向上させる漸進的なネガティブな分類スコアの最適化戦略につながることを示します。

さらに、この研究では、分類子スコアを効率的なテキスト駆動型 3D 編集に使用する可能性も明らかにし、変分スコア蒸留技術を負の分類子スコア最適化の適応形式として検討しました。

実験結果

CSD は、理論上のテキストから 3D への生成の分野に新たな視点を提供するだけでなく、実際のアプリケーションでも優れたパフォーマンスを発揮します。

主要な 3D 生成タスクに関する実験結果によると、この方法は Dream Fusion、Magic3D、Fantasia3D などの既存のテクノロジと比較して、テキストの配置と視覚品質が大幅に改善され、生成されたテクスチャもリアルで豊かであることが示されています。

速度の面では、CSD は単一の A800 GPU でタスクを完了するのに 1 時間しかかかりませんが、同じ視覚効果を実現できる Prolific Dreamer メソッドでは最大 8 時間かかります。この大幅な速度の利点と優れた発電品質が相まって、CSD テクノロジーの効率性と実用性が実証されています。

さらに、定量評価に採用された CLIP R-Precision メトリックにより、CSD の優位性がさらに確認されました。ユーザー調査では、参加者の 59.4% が CSD によって生成された結果を好んでいることも示されました。

実験部分では、テクスチャ生成タスクにおける CSD の能力を複数の方法と比較します。実験結果では、効果とユーザー調査の両方の点で他の方法よりも優れていることが示されています。

さらに、研究者らはCSDを使用して既存の3Dシーンを編集する方法も実演しました。下の図に示すように、CSDを使用してバナナマンをキュウリマンに編集したり、モデル上の苔を花に編集したりしても、他の部分は失われません。

要約すると、CSD は、現在の 3D 生成の鍵を理論的な観点から再考し、最適化の目標を再構築し、最終的に複数のタスクにおけるその優位性と強力な可能性を実証します。この新しいパラダイムを徹底的に調査して適用することで、テキスト記述から高品質かつ高精度の 3D コンテンツをより効果的に生成できるようになり、3D コンテンツ作成分野の将来の発展に大きな影響を与えます。

<<: 

>>:  Llama-2+Mistral+MPT=? 複数の異種大規模モデルの融合が驚くべき結果を示す

ブログ    
ブログ    

推薦する

スマート水利建設を加速する必要があり、ドローンが大きな推進力となる

夏の気温が上昇し続け、雨季が近づいているため、我が国の水利インフラは再び大きな試練に直面することにな...

ファーウェイの孫茂陸氏:今後5年間で10億ドルを投資し、スマートエンタープライズサービスを構築する

上海で開催されたHUAWEI CONNECT 2019で、ファーウェイはエンタープライズサービス開発...

...

運輸・物流業界におけるAIと自動化のユースケース

現在、世界の一部の国や地域の運輸・物流業界は、流行病によって深刻な影響を受けています。コロナウイルス...

左手にビッグデータ、右手に人工知能。これらのプログラマーは、パンデミック中に何をしたのでしょうか?

今年初めの流行は、特にCOVID-19の非常に感染力が強い性質により、適切な免疫ワクチンがない中で原...

人工知能が教育評価の近代化に貢献

教育評価は、教育の質の継続的な向上を促進する「牛の鼻」として、確立された教育目標に基づき、一定の教育...

カスタマー サービス チーム向けの人工知能と機械学習ツール

どのビジネスリーダーも、顧客サービスがビジネスの最優先事項になっていることを認めるでしょう。同社は、...

2018 年の AI テクノロジーのブレークスルーの完全なコレクションをご紹介します。

[[253124]] 2018 年は AI 分野にとって依然として刺激的な年です。今年はNLP研究...

ヘルスケアにおける AI の活用: データを行動に変える

ヘルスケアにおける人工知能 (AI) の利点を裏付ける統計、調査、業界の誇大宣伝は数多くあります。人...

2023 年の最高の無料 AI アート ジェネレーター

翻訳者 |ブガッティレビュー | Chonglouここ数か月で、生成AIにおいて大きな進歩がありまし...

AI 音声ジェネレーターとは何ですか? どのように機能しますか?

近年、AI 音声ジェネレーターは、人々が機械と対話し、デジタル コンテンツを受け取る方法を変える強力...

エッジコンピューティングの探究: プロセッサ、アルゴリズム、メモリ

エッジコンピューティングとは最近、エッジコンピューティングは、人工知能やモノのインターネットの分野で...

Facebookはライブ動画でユーザーを見えなくする匿名化システムを開発した

最近、ノルウェー科学技術大学の「DeepPrivacy: 顔の匿名化のための生成的敵対的ネットワーク...