わずか 2 分で、シングル ビューの 3D 生成が高速かつ良好に行えます。北京大学などが新しいRepaint123法を提案

わずか 2 分で、シングル ビューの 3D 生成が高速かつ良好に行えます。北京大学などが新しいRepaint123法を提案

画像を 3D に変換する方法としては、通常、スコア蒸留サンプリング (SDS) 方式が採用されています。結果は素晴らしいものですが、マルチビューの不一致、過飽和、過度に滑らかなテクスチャ、生成速度の遅さなど、いくつかの欠点が残っています。
これらの問題に対処するため、北京大学、シンガポール国立大学、武漢大学などの研究者は、マルチビューバイアスやテクスチャの劣化を軽減し、生成プロセスを加速するRepaint123を提案しました。

論文アドレス: https://arxiv.org/pdf/2312.13271.pdf

GitHub: https://github.com/PKU-YuanGroup/repaint123

プロジェクトアドレス: https://pku-yuangroup.github.io/repaint123/

核となるアイデアは、2D 拡散モデルの強力な画像生成能力と再描画戦略のテクスチャ調整機能を組み合わせて、一貫性のある高品質のマルチビュー画像を生成することです。

さらに著者らは、再描画プロセス中に生成される画像の品質を向上させるために、重なり合う領域に対して可視性を考慮した適応型再描画強度を提案した。

生成された高品質でマルチビューの一貫性のある画像により、単純な平均二乗誤差 (MSE) 損失を使用した高速な 3D コンテンツ生成が可能になります。

著者らは、Repaint123 が 2 分以内に、マルチビューの一貫性と細かいテクスチャを備えた高品質の 3D コンテンツをゼロから生成できることを実証するために、広範な実験を実施しました。

この記事の主な貢献は次のとおりです。

1. Repaint123 は、画像から 3D 生成までの制御可能な再描画プロセスを完全に考慮し、一貫したマルチビューポイントを持つ高品質の画像シーケンスを生成できます。

2. Repaint123 は、シンプルなシングルビュー 3D 生成ベースラインを提案しました。粗いモデル段階では、Zero123 を 3D 事前分布と SDS 損失として使用して、ガウス スプラッティング ジオメトリを迅速に最適化しました (1 分)。細かいモデル段階では、Stable Diffusion を 2D 事前分布と MSE 損失として使用して、メッシュ テクスチャを迅速に改良しました (1 分)。

3. 広範囲にわたる実験により、Repaint123 メソッドの有効性が検証されました。このメソッドは、1 つの画像からわずか 2 分で 2D 生成と同等の品質の 3D コンテンツを生成できます。

図1: 論文の目的: 高速で一貫性のある高品質の単一ビュー3D生成

具体的な方法:

Repaint123 の主な改善点はメッシュ改良段階に集中しており、一貫した複数の視点による高品質の画像シーケンスの生成と、高速で高品質の 3D 再構築という 2 つの部分で構成されています。

ラフモデルの段階では、3D 表現として 3D ガウス スプラッティングを使用し、SDS 損失を通じてラフモデルのジオメトリとテクスチャを最適化しました。

改良段階では、著者らはラフモデルをメッシュ表現に変換し、段階的かつ制御可能なテクスチャ改良再描画スキームを提案します。

まず、幾何学的な制御と参照画像からのガイダンスを通じて、以前の最適化されたビューと比較して非表示領域を徐々に再描画することにより、新しいビューのビュー一貫性のある画像を取得します。

次に、分類器を使用しないガイダンスに画像キューを使用し、重複領域の生成品質をさらに向上させるための適応型再描画戦略を設計します。

最後に、ビュー一貫性のある高品質の画像を生成することにより、著者らは単純な MSE 損失を利用して 3D コンテンツを迅速に生成します。

複数のビューにわたって一貫した高品質の画像シーケンスの生成:

図 2 に示すように、高品質のマルチビュー一貫性画像シーケンスの生成は、次の 4 つの部分に分かれています。

図2: マルチビュー一貫性画像生成プロセス

DDIM反転

ラフモデル段階で生成された 3D の一貫した低周波テクスチャ情報を保持するために、著者は DDIM 反転を使用して画像を特定の潜在値に反転し、その後のノイズ除去の基礎として機能させて、忠実で一貫性のある画像を生成します。

制御可能なノイズ除去

幾何学的一貫性と長距離テクスチャ一貫性を制御するために、ノイズ除去段階で、ControlNetを使用して、粗いモデルレンダリングの深度マップを幾何学的事前情報として導入し、テクスチャ移行のための参照画像のAttention機能を注入します。

同時に、分類器を使用しないガイダンスを実行して画像品質を向上させるために、この論文では CLIP を使用して参照画像を画像プロンプトノイズ除去ネットワークにエンコードします。

遮蔽マスクを入手

レンダリングされた画像 In の新しいビューと深度マップ Dn からオクルージョン マスク Mn を取得するには、Ir と Dr の再描画された参照ビュー Vr が与えられ、まず深度 Dr を使用して Vr の 2D ピクセルを 3D ポイント クラウドにスケーリングし、次に新しいビュー Vn から 3D ポイント クラウド Pr をレンダリングして深度マップ Dn' を取得します。

2 つの新しいビュー深度マップ (Dn と Dn') 間の深度値が異なる領域を、オクルージョン マスク内の遮蔽領域と見なします。

遮蔽と重なりの両方を段階的に再描画する

画像シーケンス内の隣接する画像の重なり合う領域のピクセルレベルの位置合わせを確実にするために、著者らは段階的なローカル再描画戦略を使用して、重なり合う領域を変更せずに調和のとれた一貫性のある隣接領域を生成し、参照視点から 360° までこれを繰り返しました。

しかし、図 3 に示すように、著者らは、以前は斜視であった領域の視覚解像度がまっすぐ見ると高くなり、より多くの高周波情報を補足する必要があるため、重複領域も改良する必要があることを発見しました。

忠実度を確保しながら品質を向上させるために適切な改良強度を選択するために、著者らは射影定理と画像超解像の考え方を借用し、重複領域を改良するためのシンプルで直接的な可視性認識再描画戦略を提案しました。改良強度は 1-cosθ* に等しく (θ* は以前のすべてのカメラビューと表示される表面の法線ベクトルの間の角度の最大値)、重複領域を適応的に再描画します。

図3: カメラ視野角と改良強度の関係

高速かつ高品質の3D再構築:

図 4 に示すように、著者は 2 段階のアプローチを採用しました。まず、ガウス スプラッティング表現を使用して、適切なジオメトリと粗いテクスチャをすばやく生成しました。同時に、上記で生成されたマルチビューの一貫した高品質の画像シーケンスの助けを借りて、著者は単純な MSE 損失を使用して 3D テクスチャを高速に再構築することができました。

図4: Repaint123 2段階シングルビュー3D生成フレームワーク

実験結果

著者らは、複数の単一ビュー生成タスク方法を比較し、RealFusion15 および Test-alpha データセットで一貫性、品質、速度の点で最先端の結果を達成しました。

シングルビュー3D生成可視化の比較

シングルビュー3D生成の定量的比較

アブレーション実験

同時に、著者は論文で使用した各モジュールの有効性と視点の回転増分に関するアブレーション実験も行いました。

<<:  Microsoft が大規模コード モデル WaveCoder をリリースしました。 4つのコードタスクと20,000のインスタンスデータセットにより、LLMの一般化能力が大幅に向上しました。

>>:  大規模モデルの無限ストリーミング入力推論が 46% 上昇しました。国内オープンソースアクセラレーション「ファミリーバケット」が複数ラウンドの会話の長さの制限を突破

ブログ    

推薦する

年末総括|2020年日本におけるAI(ロボティクス)分野の主なニュースを振り返る

在庫がなければ大晦日もありません。 2020年に日本のAI・ロボティクス分野で起こった出来事をいくつ...

北京大学、バイトダンス等は増分学習を用いたスーパーピクセルセグメンテーションモデルLNSNetを提案した

オンライン学習によって引き起こされる壊滅的な忘却問題を解決するために、北京大学などの研究機関は、勾配...

AIを使って人の心を理解する?感情科学の専門家:表情から感情を識別するのは信頼できない

AIは人間の感情を認識できるでしょうか?原理的には、AIは音声認識、視覚認識、テキスト認識、表情認識...

優秀な AI 技術者が不足しています。学生たちはこの波にまだ追いつくことができるでしょうか?

ディープラーニングは、機械学習の最も重要な分野の 1 つとして、近年急速に発展しています。膨大なデー...

速報:バイトダンスAIの馬衛英最高責任者が辞任し、清華大学の張亜琴チームに加わる

新知源は、バイトダンスの副社長兼AIラボ責任者である馬衛英氏がバイトダンスを離れ、清華大学の張亜琴氏...

機械学習は2021年にこれらの5つの業界を変革するだろう

機械学習は、COVID-19 によって揺さぶられた世界におけるスムーズな移行を可能にしています。機械...

5G+自動運転車の時代において、Car OSの主導権を握るのは誰でしょうか?

「人間の情報に対する欲求は、原始人の食欲に似ています。食物から摂取するカロリーは欲求を満たすことが...

...

...

...

CAPとPaxosコンセンサスアルゴリズムについての簡単な説明

CAPとはCAP理論についてはすでに多くの背景情報が語られているので、ここでは詳しくは触れません。ど...

AIはIoTベースのDDoS攻撃を阻止できる

研究者らによると、人工知能はインターネットサービスプロバイダー(IPS)がDDoS攻撃に先手を打つの...

...

海外の専門家による人工知能の発展見通しに関する衝撃的な4つの予測

人工知能技術が成熟するにつれ、この技術のより広範な社会的、倫理的影響に十分な注意が払われていないので...

TensorFlow で発見された脆弱性の背後にあるもの: AI セキュリティに関する私たちの愚かさと無知

AI がインターネット セキュリティに与える影響について議論してきたとき、AI 自体も安全ではないと...