3D生成の中核理論の再構築:VAST、香港大学、清華大学が「ゼロ」のトレーニングデータで3Dモデルを生成

3D生成の中核理論の再構築:VAST、香港大学、清華大学が「ゼロ」のトレーニングデータで3Dモデルを生成

トレーニング データは必要ありません。「宿題をしているバナナマン」などの文をモデルに説明するだけです。

あるいは「VRメガネをかけた猫」:

説明を満たす高品質のテクスチャ マップを持つ 3D シーンを生成できます。それだけでなく、既存の 3D モデルの微調整マッピングも実行できます。

これは香港大学と清華大学が共同開発したスター3D生成企業VAST AIが開発した新しい方法で、複雑なテキスト記述から想像力豊かで高品質な3Dモデルを直接生成することができます。

現在、この研究成果は人工知能のトップカンファレンス「ICLR 2024」に収録されており、コードはオープンソース化されています。この研究に興味のある方は、以下のプロジェクトのホームページと論文のアドレスをご覧ください。

  • 論文アドレス: https://arxiv.org/abs/2310.19415
  • プロジェクトアドレス: https://xinyu-andy.github.io/Classifier-Score-Distillation
  • コードアドレス: https://github.com/CVMI-Lab/Classifier-Score-Distillation
  • 論文タイトル: 分類スコア蒸留によるテキストから 3D への変換

それで、具体的にはどのようにこれを実現するのでしょうか?新しい方法が何であるかを理解する前に、まず既存の方法の問題点を理解しましょう。

従来の生成モデルが直面するジレンマ

インタラクティブ ゲーム、映画芸術、拡張現実/仮想現実、シミュレーション テクノロジーなどのさまざまなアプリケーション シナリオでは、高品質の 3D アセットを作成することが常に重要かつ困難な問題となっています。

現在、ほとんどの生成モデルはトレーニングのために現場の大量の高品質データに依存していますが、3D 分野ではそのようなデータセットは非常に不足しています。この結果、3D データに基づいてトレーニングされた現在の 3D 生成モデルでは、画像分野での成功を再現することができません。

2D事前分布に基づく3D生成法

この問題を解決するために、Google の Dream Fusion は最初にスコア蒸留サンプリング (SDS) 方式を提案し、事前にトレーニングされた 2 次元拡散モデルを通じて高品質で複雑な 3 次元結果を生成できることを証明しました。このパラダイムの利点は、3D データの事前トレーニングなしで 3D モデルを生成できることです。このアーキテクチャは、Nvidia の Magic3D などの研究者やその後の作業で使用されてきました。その中核となる理論は、レンダリングされたイメージをテキスト条件下で高確率密度領域に向かって移動させることにより、3D シーンを逆に生成することです。

SDS ベースの方法は目覚ましい成果を上げていますが、本論文の研究者らは、主に SDS ベースの方法が一般に分類子フリー ガイダンス (CFG) に依存しているため、実際の実装では SDS ベースの方法と理論の間に常に何らかのギャップがあることを発見しました。

CFG を使用する場合、最適化を推進する勾配は実際には 2 つの部分で構成されます。1 つはデータ密度の勾配で、もう 1 つは事後関数の勾配です。前者は SDS 理論の重要な部分に対応し、後者は実験中に追加された補助手段にすぎません。

分類器スコア蒸留: 3D 生成を改革する鍵

この論文の主な貢献は、SDS における CFG の役割を再評価し、CFG が単なる補助手段ではなく、逆にテキストから 3D への生成における重要な推進力であることを発見することです。この部分は暗黙の分類モデルとして解釈できるため、研究者はこの新しいパラダイムをClassifier Score Distillation (CSD)と名付けました。

この発見は、分留に基づくテキストから 3D への生成の成功の基盤となるメカニズムに対する私たちの理解を根本的に変えるものです。具体的には、その有効性は、生成事前確率に頼るのではなく、暗黙の分類子から知識を抽出することから生まれます。

CSD の導入により、既存の技術設計の選択を再検討できるようになります。たとえば、ネガティブなヒントはネガティブな分類スコアとして扱うことができ、ヒントされた結果への忠実性を維持しながら生成品質を向上させる漸進的なネガティブな分類スコアの最適化戦略につながることを示します。

さらに、この研究では、分類子スコアを効率的なテキスト駆動型 3D 編集に使用する可能性も明らかにし、変分スコア蒸留技術を負の分類子スコア最適化の適応形式として検討しました。

実験結果

CSD は、理論上のテキストから 3D への生成の分野に新たな視点を提供するだけでなく、実際のアプリケーションでも優れたパフォーマンスを発揮します。

主要な 3D 生成タスクに関する実験結果によると、この方法は Dream Fusion、Magic3D、Fantasia3D などの既存のテクノロジと比較して、テキストの配置と視覚品質が大幅に改善され、生成されたテクスチャもリアルで豊かであることが示されています。

速度の面では、CSD は単一の A800 GPU でタスクを完了するのに 1 時間しかかかりませんが、同じ視覚効果を実現できる Prolific Dreamer メソッドでは最大 8 時間かかります。この大幅な速度の利点と優れた発電品質が相まって、CSD テクノロジーの効率性と実用性が実証されています。

さらに、定量評価に採用された CLIP R-Precision メトリックにより、CSD の優位性がさらに確認されました。ユーザー調査では、参加者の 59.4% が CSD によって生成された結果を好んでいることも示されました。

実験部分では、テクスチャ生成タスクにおける CSD の能力を複数の方法と比較します。実験結果では、効果とユーザー調査の両方の点で他の方法よりも優れていることが示されています。

さらに、研究者らはCSDを使用して既存の3Dシーンを編集する方法も実演しました。下の図に示すように、CSDを使用してバナナマンをキュウリマンに編集したり、モデル上の苔を花に編集したりしても、他の部分は失われません。

要約すると、CSD は、現在の 3D 生成の鍵を理論的な観点から再考し、最適化の目標を再構築し、最終的に複数のタスクにおけるその優位性と強力な可能性を実証します。この新しいパラダイムを徹底的に調査して適用することで、テキスト記述から高品質かつ高精度の 3D コンテンツをより効果的に生成できるようになり、3D コンテンツ作成分野の将来の発展に大きな影響を与えます。

<<: 

>>:  Llama-2+Mistral+MPT=? 複数の異種大規模モデルの融合が驚くべき結果を示す

ブログ    
ブログ    
ブログ    

推薦する

SurfelGAN でメタバースを作成する車の脳を訓練するためにシムシティを立ち上げるお金がないからですか?

自動運転はディープラーニングの重要な応用分野です。長年にわたる蓄積の結果、現在では科学研究者が AI...

過去10年間のGoogleアルゴリズムの変化

Google のアルゴリズムは毎年 500 ~ 600 回も変更されますが、その多くは小さな変更です...

新しいことを学び、古いものを見直す: ナレッジグラフからグラフデータベースへ

人工知能技術といえば、まずディープラーニングや機械学習技術が思い浮かびます。人工知能の応用といえば、...

...

強化学習の専門家 Sergey Levine: スケーラブルな自己教師あり学習の基盤としての強化学習

[[438887]]現在、機械学習システムは、コンピュータービジョン、音声認識、自然言語処理など、多...

ジェネレーティブ AI とクラウド ネイティブは期待が膨らんでいる時期にあります。これらは企業の変革よりも重要ですか?

今年、業界内では「AI 記者会見でない記者会見はない」というジョークが飛び交っています。まさにその通...

...

国家基準の策定が加速しており、科学的な顔認識は100億元のブルーオーシャンをもたらすだろう

4月22日、「情報セキュリティ技術の顔認識データのセキュリティ要件」国家標準の草案が正式に公開され、...

スマートグリッドディスパッチ自動化の詳細な説明

インテリジェントディスパッチ自動化は、スマートグリッドの運用に不可欠なインテリジェントシステムです。...

米国はチップ供給を遮断、ロシアはリソグラフィー装置の再構築を決定

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

機械学習研究動向の分析: TensorFlow が Caffe を上回り、最も一般的に使用される研究フレームワークに

冗談ですが、論文提出のトピックは、Adam で最適化された、完全な畳み込みエンコーダー/デコーダー ...

...

アナリスト:Appleは早ければ来年末にも生成AIをiPhoneとiPadに統合する予定

10月22日、海通国際証券のアナリストであるPu Deyu氏が最近、Appleが早ければ2024年末...

Github で 12000 以上のスターを獲得した機械学習のチュートリアル。理論、コード、デモが含まれています。

はじめに: この記事で紹介するリポジトリには、Python で実装された一般的な機械学習アルゴリズム...

人工知能が教育に与える影響は技術サポートだけにとどまらない

統合と国境を越えた発展が進む今日の世界において、教育が象牙の塔に留まり、自己満足に浸っているだけでは...