3D生成の中核理論の再構築：VAST、香港大学、清華大学が「ゼロ」のトレーニングデータで3Dモデルを生成

トレーニングデータは必要ありません。「宿題をしているバナナマン」などの文をモデルに説明するだけです。

あるいは「VRメガネをかけた猫」:

説明を満たす高品質のテクスチャマップを持つ 3D シーンを生成できます。それだけでなく、既存の 3D モデルの微調整マッピングも実行できます。

これは香港大学と清華大学が共同開発したスター3D生成企業VAST AIが開発した新しい方法で、複雑なテキスト記述から想像力豊かで高品質な3Dモデルを直接生成することができます。

現在、この研究成果は人工知能のトップカンファレンス「ICLR 2024」に収録されており、コードはオープンソース化されています。この研究に興味のある方は、以下のプロジェクトのホームページと論文のアドレスをご覧ください。

論文アドレス: https://arxiv.org/abs/2310.19415
プロジェクトアドレス: https://xinyu-andy.github.io/Classifier-Score-Distillation
コードアドレス: https://github.com/CVMI-Lab/Classifier-Score-Distillation
論文タイトル: 分類スコア蒸留によるテキストから 3D への変換

それで、具体的にはどのようにこれを実現するのでしょうか?新しい方法が何であるかを理解する前に、まず既存の方法の問題点を理解しましょう。

従来の生成モデルが直面するジレンマ

インタラクティブゲーム、映画芸術、拡張現実/仮想現実、シミュレーションテクノロジーなどのさまざまなアプリケーションシナリオでは、高品質の 3D アセットを作成することが常に重要かつ困難な問題となっています。

現在、ほとんどの生成モデルはトレーニングのために現場の大量の高品質データに依存していますが、3D 分野ではそのようなデータセットは非常に不足しています。この結果、3D データに基づいてトレーニングされた現在の 3D 生成モデルでは、画像分野での成功を再現することができません。

2D事前分布に基づく3D生成法

この問題を解決するために、Google の Dream Fusion は最初にスコア蒸留サンプリング (SDS) 方式を提案し、事前にトレーニングされた 2 次元拡散モデルを通じて高品質で複雑な 3 次元結果を生成できることを証明しました。このパラダイムの利点は、3D データの事前トレーニングなしで 3D モデルを生成できることです。このアーキテクチャは、Nvidia の Magic3D などの研究者やその後の作業で使用されてきました。その中核となる理論は、レンダリングされたイメージをテキスト条件下で高確率密度領域に向かって移動させることにより、3D シーンを逆に生成することです。

SDS ベースの方法は目覚ましい成果を上げていますが、本論文の研究者らは、主に SDS ベースの方法が一般に分類子フリーガイダンス (CFG) に依存しているため、実際の実装では SDS ベースの方法と理論の間に常に何らかのギャップがあることを発見しました。

CFG を使用する場合、最適化を推進する勾配は実際には 2 つの部分で構成されます。1 つはデータ密度の勾配で、もう 1 つは事後関数の勾配です。前者は SDS 理論の重要な部分に対応し、後者は実験中に追加された補助手段にすぎません。

分類器スコア蒸留: 3D 生成を改革する鍵

この論文の主な貢献は、SDS における CFG の役割を再評価し、CFG が単なる補助手段ではなく、逆にテキストから 3D への生成における重要な推進力であることを発見することです。この部分は暗黙の分類モデルとして解釈できるため、研究者はこの新しいパラダイムをClassifier Score Distillation (CSD)と名付けました。

この発見は、分留に基づくテキストから 3D への生成の成功の基盤となるメカニズムに対する私たちの理解を根本的に変えるものです。具体的には、その有効性は、生成事前確率に頼るのではなく、暗黙の分類子から知識を抽出することから生まれます。

CSD の導入により、既存の技術設計の選択を再検討できるようになります。たとえば、ネガティブなヒントはネガティブな分類スコアとして扱うことができ、ヒントされた結果への忠実性を維持しながら生成品質を向上させる漸進的なネガティブな分類スコアの最適化戦略につながることを示します。

さらに、この研究では、分類子スコアを効率的なテキスト駆動型 3D 編集に使用する可能性も明らかにし、変分スコア蒸留技術を負の分類子スコア最適化の適応形式として検討しました。

実験結果

CSD は、理論上のテキストから 3D への生成の分野に新たな視点を提供するだけでなく、実際のアプリケーションでも優れたパフォーマンスを発揮します。

主要な 3D 生成タスクに関する実験結果によると、この方法は Dream Fusion、Magic3D、Fantasia3D などの既存のテクノロジと比較して、テキストの配置と視覚品質が大幅に改善され、生成されたテクスチャもリアルで豊かであることが示されています。

速度の面では、CSD は単一の A800 GPU でタスクを完了するのに 1 時間しかかかりませんが、同じ視覚効果を実現できる Prolific Dreamer メソッドでは最大 8 時間かかります。この大幅な速度の利点と優れた発電品質が相まって、CSD テクノロジーの効率性と実用性が実証されています。

さらに、定量評価に採用された CLIP R-Precision メトリックにより、CSD の優位性がさらに確認されました。ユーザー調査では、参加者の 59.4% が CSD によって生成された結果を好んでいることも示されました。

実験部分では、テクスチャ生成タスクにおける CSD の能力を複数の方法と比較します。実験結果では、効果とユーザー調査の両方の点で他の方法よりも優れていることが示されています。

さらに、研究者らはCSDを使用して既存の3Dシーンを編集する方法も実演しました。下の図に示すように、CSDを使用してバナナマンをキュウリマンに編集したり、モデル上の苔を花に編集したりしても、他の部分は失われません。

要約すると、CSD は、現在の 3D 生成の鍵を理論的な観点から再考し、最適化の目標を再構築し、最終的に複数のタスクにおけるその優位性と強力な可能性を実証します。この新しいパラダイムを徹底的に調査して適用することで、テキスト記述から高品質かつ高精度の 3D コンテンツをより効果的に生成できるようになり、3D コンテンツ作成分野の将来の発展に大きな影響を与えます。

<<:

>>: Llama-2+Mistral+MPT=? 複数の異種大規模モデルの融合が驚くべき結果を示す