わずか 2 分で、シングル ビューの 3D 生成が高速かつ良好に行えます。北京大学などが新しいRepaint123法を提案

わずか 2 分で、シングル ビューの 3D 生成が高速かつ良好に行えます。北京大学などが新しいRepaint123法を提案

画像を 3D に変換する方法としては、通常、スコア蒸留サンプリング (SDS) 方式が採用されています。結果は素晴らしいものですが、マルチビューの不一致、過飽和、過度に滑らかなテクスチャ、生成速度の遅さなど、いくつかの欠点が残っています。
これらの問題に対処するため、北京大学、シンガポール国立大学、武漢大学などの研究者は、マルチビューバイアスやテクスチャの劣化を軽減し、生成プロセスを加速するRepaint123を提案しました。

論文アドレス: https://arxiv.org/pdf/2312.13271.pdf

GitHub: https://github.com/PKU-YuanGroup/repaint123

プロジェクトアドレス: https://pku-yuangroup.github.io/repaint123/

核となるアイデアは、2D 拡散モデルの強力な画像生成能力と再描画戦略のテクスチャ調整機能を組み合わせて、一貫性のある高品質のマルチビュー画像を生成することです。

さらに著者らは、再描画プロセス中に生成される画像の品質を向上させるために、重なり合う領域に対して可視性を考慮した適応型再描画強度を提案した。

生成された高品質でマルチビューの一貫性のある画像により、単純な平均二乗誤差 (MSE) 損失を使用した高速な 3D コンテンツ生成が可能になります。

著者らは、Repaint123 が 2 分以内に、マルチビューの一貫性と細かいテクスチャを備えた高品質の 3D コンテンツをゼロから生成できることを実証するために、広範な実験を実施しました。

この記事の主な貢献は次のとおりです。

1. Repaint123 は、画像から 3D 生成までの制御可能な再描画プロセスを完全に考慮し、一貫したマルチビューポイントを持つ高品質の画像シーケンスを生成できます。

2. Repaint123 は、シンプルなシングルビュー 3D 生成ベースラインを提案しました。粗いモデル段階では、Zero123 を 3D 事前分布と SDS 損失として使用して、ガウス スプラッティング ジオメトリを迅速に最適化しました (1 分)。細かいモデル段階では、Stable Diffusion を 2D 事前分布と MSE 損失として使用して、メッシュ テクスチャを迅速に改良しました (1 分)。

3. 広範囲にわたる実験により、Repaint123 メソッドの有効性が検証されました。このメソッドは、1 つの画像からわずか 2 分で 2D 生成と同等の品質の 3D コンテンツを生成できます。

図1: 論文の目的: 高速で一貫性のある高品質の単一ビュー3D生成

具体的な方法:

Repaint123 の主な改善点はメッシュ改良段階に集中しており、一貫した複数の視点による高品質の画像シーケンスの生成と、高速で高品質の 3D 再構築という 2 つの部分で構成されています。

ラフモデルの段階では、3D 表現として 3D ガウス スプラッティングを使用し、SDS 損失を通じてラフモデルのジオメトリとテクスチャを最適化しました。

改良段階では、著者らはラフモデルをメッシュ表現に変換し、段階的かつ制御可能なテクスチャ改良再描画スキームを提案します。

まず、幾何学的な制御と参照画像からのガイダンスを通じて、以前の最適化されたビューと比較して非表示領域を徐々に再描画することにより、新しいビューのビュー一貫性のある画像を取得します。

次に、分類器を使用しないガイダンスに画像キューを使用し、重複領域の生成品質をさらに向上させるための適応型再描画戦略を設計します。

最後に、ビュー一貫性のある高品質の画像を生成することにより、著者らは単純な MSE 損失を利用して 3D コンテンツを迅速に生成します。

複数のビューにわたって一貫した高品質の画像シーケンスの生成:

図 2 に示すように、高品質のマルチビュー一貫性画像シーケンスの生成は、次の 4 つの部分に分かれています。

図2: マルチビュー一貫性画像生成プロセス

DDIM反転

ラフモデル段階で生成された 3D の一貫した低周波テクスチャ情報を保持するために、著者は DDIM 反転を使用して画像を特定の潜在値に反転し、その後のノイズ除去の基礎として機能させて、忠実で一貫性のある画像を生成します。

制御可能なノイズ除去

幾何学的一貫性と長距離テクスチャ一貫性を制御するために、ノイズ除去段階で、ControlNetを使用して、粗いモデルレンダリングの深度マップを幾何学的事前情報として導入し、テクスチャ移行のための参照画像のAttention機能を注入します。

同時に、分類器を使用しないガイダンスを実行して画像品質を向上させるために、この論文では CLIP を使用して参照画像を画像プロンプトノイズ除去ネットワークにエンコードします。

遮蔽マスクを入手

レンダリングされた画像 In の新しいビューと深度マップ Dn からオクルージョン マスク Mn を取得するには、Ir と Dr の再描画された参照ビュー Vr が与えられ、まず深度 Dr を使用して Vr の 2D ピクセルを 3D ポイント クラウドにスケーリングし、次に新しいビュー Vn から 3D ポイント クラウド Pr をレンダリングして深度マップ Dn' を取得します。

2 つの新しいビュー深度マップ (Dn と Dn') 間の深度値が異なる領域を、オクルージョン マスク内の遮蔽領域と見なします。

遮蔽と重なりの両方を段階的に再描画する

画像シーケンス内の隣接する画像の重なり合う領域のピクセルレベルの位置合わせを確実にするために、著者らは段階的なローカル再描画戦略を使用して、重なり合う領域を変更せずに調和のとれた一貫性のある隣接領域を生成し、参照視点から 360° までこれを繰り返しました。

しかし、図 3 に示すように、著者らは、以前は斜視であった領域の視覚解像度がまっすぐ見ると高くなり、より多くの高周波情報を補足する必要があるため、重複領域も改良する必要があることを発見しました。

忠実度を確保しながら品質を向上させるために適切な改良強度を選択するために、著者らは射影定理と画像超解像の考え方を借用し、重複領域を改良するためのシンプルで直接的な可視性認識再描画戦略を提案しました。改良強度は 1-cosθ* に等しく (θ* は以前のすべてのカメラビューと表示される表面の法線ベクトルの間の角度の最大値)、重複領域を適応的に再描画します。

図3: カメラ視野角と改良強度の関係

高速かつ高品質の3D再構築:

図 4 に示すように、著者は 2 段階のアプローチを採用しました。まず、ガウス スプラッティング表現を使用して、適切なジオメトリと粗いテクスチャをすばやく生成しました。同時に、上記で生成されたマルチビューの一貫した高品質の画像シーケンスの助けを借りて、著者は単純な MSE 損失を使用して 3D テクスチャを高速に再構築することができました。

図4: Repaint123 2段階シングルビュー3D生成フレームワーク

実験結果

著者らは、複数の単一ビュー生成タスク方法を比較し、RealFusion15 および Test-alpha データセットで一貫性、品質、速度の点で最先端の結果を達成しました。

シングルビュー3D生成可視化の比較

シングルビュー3D生成の定量的比較

アブレーション実験

同時に、著者は論文で使用した各モジュールの有効性と視点の回転増分に関するアブレーション実験も行いました。

<<:  Microsoft が大規模コード モデル WaveCoder をリリースしました。 4つのコードタスクと20,000のインスタンスデータセットにより、LLMの一般化能力が大幅に向上しました。

>>:  大規模モデルの無限ストリーミング入力推論が 46% 上昇しました。国内オープンソースアクセラレーション「ファミリーバケット」が複数ラウンドの会話の長さの制限を突破

推薦する

Python 暗号化および復号化モジュール hashlib の 7 つの暗号化アルゴリズムの一覧

[[393258]]序文プログラムでは、MD5 sha1 など、多くの暗号化アルゴリズムをよく見かけ...

AIのジレンマをどう解決するか?

今日の大手企業が AI におけるいくつかの大きな課題をどのように克服しているか。概要:多くの企業はビ...

Huawei のフルシナリオ AI コンピューティング フレームワーク MindSpore がオープン ソースになりました。

Huawei の Mindspore AI コンピューティング フレームワークの公式オープン ソー...

...

すべての携帯電話にAIが搭載されているのに、なぜそれを軽蔑するのですか?

携帯電話の発表会を見れば、AI機能の追加が目に入ります。しかし、多くのユーザーはこれをやや否定的に捉...

ネットワークにおける機械学習の実用的応用

各 Web アプリケーションには独自の機能とパフォーマンス パラメーターのセットがあり、これらは動的...

AI+がん診断:巨人の「小さなそろばん」はまだ実現困難

[[246868]]スマートヘルスケアの分野における最近のニュースを振り返ると、大手企業は絶えず行動...

期待する! 2020年までに中国の人工知能は世界の先進レベルに達するだろう

最近、北京は「科学技術革新の加速と人工知能産業の育成に関する指導意見」を発表し、北京の人工知能発展ス...

AIの威力を改めて見せつける! Baidu Map 20分間のカスタマイズされたパーソナル音声パッケージ

百度地図は9月19日、「あなたのための『音声』、そして『AI』」記者会見で「音声カスタマイズ機能」を...

高等教育における人工知能の3つの革新的な応用

高等教育の専門家は、AI と完全に連携する準備をしなければ、機会を逃したり、学生とのつながりが断たれ...

...

AIとデータが未来のスマートシティを強化する5つの方法

私たちが住む世界はますます都市化が進んでいます。 2009 年の国連の調査によると、毎週 130 万...

自動運転バスが路上でテスト可能:北京が政策発表で主導権を握り、最初の8台の車両がまもなく運行開始

自動運転バスが歴史的な一歩を踏み出す! 3月31日、北京市高レベル自動運転実証区事務室は「北京市イン...

2021年の人工知能と機械学習の5つのトレンド

この流行は明らかに触媒となり、オフィスからリモートワークへ、製品の革新から消費者の嗜好まで、ビジネス...