高品質なマルチビュー画像生成、シーン素材を完璧に再現！ SFUらはMVDiffusionを提案した

フォトリアリスティックな画像生成は、仮想現実、拡張現実、ビデオゲーム、映画制作などの分野で幅広く応用されています。

過去 2 年間の拡散モデルの急速な発展により、画像生成は大きな進歩を遂げました。テキストの説明に基づいて画像を生成する、Stable Diffusion から派生した一連のオープンソースまたは商用モデルは、デザイン、ゲームなどの分野に大きな影響を与えました。

しかし、与えられたテキストやその他の条件に基づいて高品質のマルチビュー画像を生成する方法は依然として課題であり、既存の方法ではマルチビューの一貫性に明らかな欠陥があります。

現在一般的な方法は、大きく分けて2つのカテゴリーに分けられます。

最初のタイプの方法は、Text2Room や SceneScape などのように、シーンの画像と深度マップを生成し、対応するメッシュを取得することに専念しています。まず、最初の画像は Stable Diffusion を使用して生成され、その後、画像ワーピングと画像修復の自己回帰法を使用して、後続の画像と深度マップが生成されます。

しかし、このようなソリューションでは、複数の画像を生成する過程で徐々にエラーが蓄積されやすく、通常は閉ループの問題（たとえば、カメラが円を描いて回転し、開始位置付近に戻ると、生成されたコンテンツが最初の画像と完全に一致しない）が発生し、シーンが大きい場合や画像間の視点の変化が大きい場合に結果が悪くなります。

2 番目のタイプの方法は、拡散モデルの生成アルゴリズムを拡張し、複数の画像を並列に生成して、単一の画像よりも豊富なコンテンツ (360 度のパノラマを生成したり、画像のコンテンツを両側に無限に外挿したりするなど) を生成するもので、MultiDiffusion や DiffCollage などがこれにあたります。ただし、カメラモデルが考慮されていないため、このような方法で生成された結果は真のパノラマにはなりません。

MVDiffusion の目標は、コンテンツに関して指定されたカメラモデルに厳密に準拠し、統一されたグローバルセマンティクスを持つマルチビューイメージを生成することです。この方法の核となるアイデアは、画像間の対応関係に基づいてノイズ除去と一貫性学習を同時に行うことです。

論文リンク: https://arxiv.org/abs/2307.01097

プロジェクトウェブサイト: https://mvdiffusion.github.io/

デモ: https://huggingface.co/spaces/tangshitao/MVDiffusion

コード: https://github.com/Tangshitao/MVDiffusion

カンファレンス: NeurIPS (スポットライト)

MVDiffusion の目標は、一貫性の高いコンテンツと統一されたグローバルセマンティクスを備えたマルチビュー画像を生成することです。この方法の核となるアイデアは、画像間の対応に基づいて、ノイズ除去とグローバル認識を同時に行うことです。

具体的には、研究者らは、まず複数の画像を並行して処理できるようにすることで既存のテキスト画像拡散モデル（Stable Diffusion など）を拡張し、さらに元の UNet に「対応を考慮した注意」メカニズムを追加して、複数の視点と全体的な統一性の間の一貫性を学習しました。

少量のマルチビュー画像トレーニングデータを微調整することで、最終モデルは一貫性の高いコンテンツを持つマルチビュー画像を同時に生成できるようになります。

MVDiffusion は、次の 3 つの異なるアプリケーションシナリオで優れた結果を達成しました。

1. テキストに基づいて複数のビューを生成し、それらをつなぎ合わせてパノラマ画像を取得します。

2. 遠近法の画像を外挿して（アウトペインティング）、完全な 360 度のパノラマを取得します。

3. シーンのテクスチャを生成します。

アプリケーションシナリオ表示

アプリケーション 1: パノラマ生成 (テキストベース)

パノラマの生成を例にとると、シーンを説明するテキスト（プロンプト）を入力すると、MVDIffusion はシーンのマルチビュー画像を生成できます。

たとえば、「このキッチンは素朴さとモダンさが魅力的に融合しており、大理石のカウンタートップを備えた大きな再生木材のアイランドと、キャビネットに囲まれたシンクが特徴です。アイランドの左側には、ステンレス製の冷蔵庫が立っています。シンクの右側には、落ち着いた色に塗装された木製の組み込みキャビネットがあります」と入力すると、次の 8 つのマルチアングル写真が表示されます。

これらの 8 枚の写真をつなぎ合わせてパノラマ写真を作成できます。

MVDiffusion は、画像ごとに異なるテキスト説明を提供することもサポートしていますが、これらの説明は意味の一貫性を維持する必要があります。

アプリケーション2: パノラマ生成(透視画像から)

MVDiffusion は、遠近法の画像を 360 度のパノラマ画像に変換できます。

たとえば、次のパースペクティブ画像を入力します。

MVDiffusion はさらに次のパノラマを生成できます。

生成されたパノラマは入力画像を意味的に拡張し、左端と右端のコンテンツが接続されていることがわかります（閉ループの問題はありません）。

アプリケーション3: シーンマテリアルの生成

マテリアルのないシーンメッシュを指定すると、MVDiffusion はマテリアル (テクスチャ) を生成できます。

具体的には、まずメッシュをレンダリングしてマルチビュー深度マップを取得します。カメラのポーズと深度マップを通じて、マルチビュー画像のピクセル間の対応関係を取得できます。

次に、MVDiffusion は、マルチビュー深度マップを条件として使用して、一貫性のあるマルチビュー RGB 画像を同期的に生成します。

生成されたマルチビュー画像はコンテンツの一貫性を高く維持できるため、メッシュに投影し直すことで、高品質のテクスチャメッシュを取得できます。

その他の効果の例

パノラマ生成

このアプリケーションシナリオでは、MVDiffusion のトレーニングに使用されるマルチビュー画像データはすべて屋内シーンのパノラマ画像ですが、スタイルは単一であることに留意してください。

ただし、MVDiffusion は元の Stable Diffusion のパラメータを変更せず、新しく追加された Correspondence-aware Attention のみをトレーニングしました。

最後に、モデルは指定されたテキストに基づいて、さまざまなスタイル (屋外、漫画など) のマルチビュー画像を生成することもできます。

単一ビュー外挿

シーンマテリアル生成

まず、3 つの異なるタスクにおける MVDiffusion の具体的な画像生成プロセスを紹介し、次にこの手法の中核となる「Correspondence-aware Attention」モジュールを紹介します。図1: MVDiffusionの概要

1. パノラマ生成（テキストベース）

MVDiffusion は、8 つの重なり合う画像 (透視画像) を同時に生成し、これらの 8 つの画像をつなぎ合わせてパノラマ画像を作成します。これら 8 つの透視画像では、2 つの画像間のピクセルの対応は 3x3 のホモグラフィックマトリックスによって決定されます。

具体的な生成プロセスでは、MVDiffusion はまずガウスランダム初期化を通じて 8 つの視点から画像を生成します。

次に、これらの 8 つの画像は、同期ノイズ除去のためにマルチブランチの安定拡散事前トレーニング済み Unet ネットワークに入力され、生成された結果が得られます。

新しい「対応認識アテンション」モジュール (上図の水色) が UNet ネットワークに追加され、さまざまな視点にわたる幾何学的一貫性を学習して、これら 8 枚の写真を一貫したパノラマにつなぎ合わせることができるようになります。

2. パノラマ生成（透視画像から）

MVDiffusion は、単一の透視画像をパノラマ画像に仕上げることもできます。パノラマ生成と同様に、MVDiffusion は、ランダムに初期化された 8 つのビュー画像 (透視画像に対応するビューを含む) を、マルチブランチの Stable Diffusion Inpainting 事前トレーニング済み UNet ネットワークに入力します。

違いは、安定拡散インペインティングモデルの UNet では、条件付き画像と生成される画像を区別するために追加の入力マスクが使用されることです。

透視画像に対応する透視ビューの場合、このマスクは 1 であり、このブランチの UNet は透視画像を直接復元します。他のパースペクティブの場合、このマスクは 0 であり、対応するブランチの UNet は新しいパースペクティブイメージを生成します。

同様に、MVDiffusion は「Correspondence-aware Attention」モジュールを使用して、生成された画像と条件付き画像間の幾何学的一貫性と意味的統一性を学習します。

3. シーンマテリアルの生成

MVDiffusion は、まず深度マップとカメラのポーズに基づいて軌跡上に RGB 画像を生成し、次に TSDF 融合を使用して、生成された RGB 画像を指定された深度マップとメッシュに合成します。

RGB 画像のピクセル対応は、深度マップとカメラポーズを通じて取得できます。

パノラマ生成と同様に、マルチブランチ UNet を使用し、「対応を考慮した注意」を挿入して、ビュー間の幾何学的一貫性を学習します。

4. 対応を考慮した注意メカニズム

MVDiffusion の中核である「Correspondence-aware Attention」(CAA) は、複数のビュー間の幾何学的一貫性と意味的統一性を学習するために使用されます。

MVDiffusion は、Stable Diffusion UNet 内の各 UNet ブロックの後に「対応を考慮した注意」ブロックを挿入します。 CAA は、ソースフィーチャマップと N 個のターゲットフィーチャマップを考慮して機能します。

ソースフィーチャマップ内の位置については、ターゲットフィーチャマップ内の対応するピクセルとその近傍に基づいて注目出力を計算します。

具体的には、各ターゲットピクセル t^l について、MVDiffusion は (x/y) 座標に整数変位 (dx/dy) を追加して K x K 近傍を考慮します。ここで、|dx|<K/2 かつ |dy|<K/2 です。

実際の使用では、MVDiffusion は K=3 を使用し、9 点の近傍を選択してパノラマの品質を向上させます。幾何学的条件によって制限されるマルチビュー画像生成では、操作効率を向上させるために K=1 が使用されます。

CAA モジュールの計算は、上図の式に示すように、標準的なアテンションメカニズムに従います。ここで、W_Q、W_K、W_V は、クエリ、キー、および値マトリックスの学習可能な重みです。ターゲット機能は整数位置に配置されているのではなく、双線形補間によって取得されます。

主な違いは、ソース画像内の対応する位置 s^l と s 間の 2D 変位 (パノラマ) または 1D 深度誤差 (幾何学的) に基づいて、ターゲットフィーチャに位置エンコーディングを追加することです。

パノラマ生成 (アプリケーション 1 およびアプリケーション 2) では、この変位によってローカル近傍内の相対的な位置が提供されます。

深度から画像への生成 (アプリケーション 3) では、視差によって深度の不連続性や遮蔽に関する手がかりが得られ、これは高忠実度の画像生成にとって非常に重要です。

変位は 2D (変位) または 1D (深度誤差) ベクトルであり、MVDiffusion は x 座標と y 座標の変位に標準の周波数エンコーディングを適用することに注意してください。

<<: 清華大学、マイクロソフトなど大学がリマインダーエンジニアを排除？ LLMと進化的アルゴリズムを組み合わせて強力なプロンプト最適化ツールを作成する

>>: DeepMindの創設者：生成AIは単なる過渡期であり、将来AIは無料になり、インタラクティブAIは人類を変えるだろう

ブログ

高品質なマルチビュー画像生成、シーン素材を完璧に再現！ SFUらはMVDiffusionを提案した

アプリケーションシナリオ表示

アプリケーション 1: パノラマ生成 (テキストベース)

アプリケーション2: パノラマ生成(透視画像から)

アプリケーション3: シーンマテリアルの生成

1. パノラマ生成（テキストベース）

2. パノラマ生成（透視画像から）

3. シーンマテリアルの生成

4. 対応を考慮した注意メカニズム

完全な自動運転まであとどれくらいでしょうか?答えはセンサー技術の発展にある

30億枚の写真データベースを持つ顔認識スタートアップがハッカーの攻撃を受ける！ 600以上の法執行機関と銀行の情報が盗まれた

人工知能詐欺は注目に値する

アルゴリズムの知識を学ばずに Java 開発を学ぶことは可能ですか?

2020年のトレンドの方向性: 産業用インターネットの人工知能アプリケーションが基礎となる

Midjourney モデルとその他の拡散モデルは、ランダムノイズからどのように画像を生成するのでしょうか?

推薦する

孔俊：中国は人工知能の軍事応用を規制する措置を講じている

Nvidia、Hugging Face、ServiceNow がコード生成用の新しい StarCoder2 LLM をリリース

すべてのデータサイエンティストが知っておくべき 19 の機械学習アルゴリズム

新たなAIスタントがあなたの人生と私の人生への影響を加速させる

データ注釈サービスのアウトソーシングによって AI モデルはどのように強化されるのでしょうか?

オラクル、企業の言語モデルの導入と微調整を支援するクラウドベースの生成AIサービスを開始

Apriori アルゴリズムの紹介 (Python 実装)

AI を活用して経費管理におけるバイアス問題を解決する方法

メタバースの時代が来ます。準備はできていますか?

アップル、シアトルのAI研究開発施設を拡張へ

遺伝的アルゴリズムの基本概念と実装（Java 実装例付き）

容量はGPT-2の1.7倍！ Google がニューラル会話モデル Meena を開発

AIは雇用を奪うのか、それとも雇用を生み出すのか?