フォトリアリスティックな画像生成は、仮想現実、拡張現実、ビデオゲーム、映画制作などの分野で幅広く応用されています。 過去 2 年間の拡散モデルの急速な発展により、画像生成は大きな進歩を遂げました。テキストの説明に基づいて画像を生成する、Stable Diffusion から派生した一連のオープンソースまたは商用モデルは、デザイン、ゲームなどの分野に大きな影響を与えました。 しかし、与えられたテキストやその他の条件に基づいて高品質のマルチビュー画像を生成する方法は依然として課題であり、既存の方法ではマルチビューの一貫性に明らかな欠陥があります。 現在一般的な方法は、大きく分けて2つのカテゴリーに分けられます。 最初のタイプの方法は、Text2Room や SceneScape などのように、シーンの画像と深度マップを生成し、対応するメッシュを取得することに専念しています。まず、最初の画像は Stable Diffusion を使用して生成され、その後、画像ワーピングと画像修復の自己回帰法を使用して、後続の画像と深度マップが生成されます。 しかし、このようなソリューションでは、複数の画像を生成する過程で徐々にエラーが蓄積されやすく、通常は閉ループの問題(たとえば、カメラが円を描いて回転し、開始位置付近に戻ると、生成されたコンテンツが最初の画像と完全に一致しない)が発生し、シーンが大きい場合や画像間の視点の変化が大きい場合に結果が悪くなります。 2 番目のタイプの方法は、拡散モデルの生成アルゴリズムを拡張し、複数の画像を並列に生成して、単一の画像よりも豊富なコンテンツ (360 度のパノラマを生成したり、画像のコンテンツを両側に無限に外挿したりするなど) を生成するもので、MultiDiffusion や DiffCollage などがこれにあたります。ただし、カメラ モデルが考慮されていないため、このような方法で生成された結果は真のパノラマにはなりません。 MVDiffusion の目標は、コンテンツに関して指定されたカメラ モデルに厳密に準拠し、統一されたグローバル セマンティクスを持つマルチビュー イメージを生成することです。この方法の核となるアイデアは、画像間の対応関係に基づいてノイズ除去と一貫性学習を同時に行うことです。 論文リンク: https://arxiv.org/abs/2307.01097 プロジェクトウェブサイト: https://mvdiffusion.github.io/ デモ: https://huggingface.co/spaces/tangshitao/MVDiffusion コード: https://github.com/Tangshitao/MVDiffusion カンファレンス: NeurIPS (スポットライト) MVDiffusion の目標は、一貫性の高いコンテンツと統一されたグローバル セマンティクスを備えたマルチビュー画像を生成することです。この方法の核となるアイデアは、画像間の対応に基づいて、ノイズ除去とグローバル認識を同時に行うことです。 具体的には、研究者らは、まず複数の画像を並行して処理できるようにすることで既存のテキスト画像拡散モデル(Stable Diffusion など)を拡張し、さらに元の UNet に「対応を考慮した注意」メカニズムを追加して、複数の視点と全体的な統一性の間の一貫性を学習しました。 少量のマルチビュー画像トレーニング データを微調整することで、最終モデルは一貫性の高いコンテンツを持つマルチビュー画像を同時に生成できるようになります。 MVDiffusion は、次の 3 つの異なるアプリケーション シナリオで優れた結果を達成しました。 1. テキストに基づいて複数のビューを生成し、それらをつなぎ合わせてパノラマ画像を取得します。 2. 遠近法の画像を外挿して(アウトペインティング)、完全な 360 度のパノラマを取得します。 3. シーンのテクスチャを生成します。 アプリケーションシナリオ表示アプリケーション 1: パノラマ生成 (テキストベース)パノラマの生成を例にとると、シーンを説明するテキスト(プロンプト)を入力すると、MVDIffusion はシーンのマルチビュー画像を生成できます。 たとえば、「このキッチンは素朴さとモダンさが魅力的に融合しており、大理石のカウンタートップを備えた大きな再生木材のアイランドと、キャビネットに囲まれたシンクが特徴です。アイランドの左側には、ステンレス製の冷蔵庫が立っています。シンクの右側には、落ち着いた色に塗装された木製の組み込みキャビネットがあります」と入力すると、次の 8 つのマルチアングル写真が表示されます。 これらの 8 枚の写真をつなぎ合わせてパノラマ写真を作成できます。 MVDiffusion は、画像ごとに異なるテキスト説明を提供することもサポートしていますが、これらの説明は意味の一貫性を維持する必要があります。 アプリケーション2: パノラマ生成(透視画像から)MVDiffusion は、遠近法の画像を 360 度のパノラマ画像に変換できます。 たとえば、次のパースペクティブ画像を入力します。 MVDiffusion はさらに次のパノラマを生成できます。 生成されたパノラマは入力画像を意味的に拡張し、左端と右端のコンテンツが接続されていることがわかります(閉ループの問題はありません)。 アプリケーション3: シーンマテリアルの生成マテリアルのないシーン メッシュを指定すると、MVDiffusion はマテリアル (テクスチャ) を生成できます。 具体的には、まずメッシュをレンダリングしてマルチビュー深度マップを取得します。カメラのポーズと深度マップを通じて、マルチビュー画像のピクセル間の対応関係を取得できます。 次に、MVDiffusion は、マルチビュー深度マップを条件として使用して、一貫性のあるマルチビュー RGB 画像を同期的に生成します。 生成されたマルチビュー画像はコンテンツの一貫性を高く維持できるため、メッシュに投影し直すことで、高品質のテクスチャメッシュを取得できます。 その他の効果の例 パノラマ生成 このアプリケーション シナリオでは、MVDiffusion のトレーニングに使用されるマルチビュー画像データはすべて屋内シーンのパノラマ画像ですが、スタイルは単一であることに留意してください。 ただし、MVDiffusion は元の Stable Diffusion のパラメータを変更せず、新しく追加された Correspondence-aware Attention のみをトレーニングしました。 最後に、モデルは指定されたテキストに基づいて、さまざまなスタイル (屋外、漫画など) のマルチビュー画像を生成することもできます。 単一ビュー外挿 シーンマテリアル生成 まず、3 つの異なるタスクにおける MVDiffusion の具体的な画像生成プロセスを紹介し、次にこの手法の中核となる「Correspondence-aware Attention」モジュールを紹介します。図1: MVDiffusionの概要 1. パノラマ生成(テキストベース)MVDiffusion は、8 つの重なり合う画像 (透視画像) を同時に生成し、これらの 8 つの画像をつなぎ合わせてパノラマ画像を作成します。これら 8 つの透視画像では、2 つの画像間のピクセルの対応は 3x3 のホモグラフィック マトリックスによって決定されます。 具体的な生成プロセスでは、MVDiffusion はまずガウスランダム初期化を通じて 8 つの視点から画像を生成します。 次に、これらの 8 つの画像は、同期ノイズ除去のためにマルチブランチの安定拡散事前トレーニング済み Unet ネットワークに入力され、生成された結果が得られます。 新しい「対応認識アテンション」モジュール (上図の水色) が UNet ネットワークに追加され、さまざまな視点にわたる幾何学的一貫性を学習して、これら 8 枚の写真を一貫したパノラマにつなぎ合わせることができるようになります。 2. パノラマ生成(透視画像から)MVDiffusion は、単一の透視画像をパノラマ画像に仕上げることもできます。パノラマ生成と同様に、MVDiffusion は、ランダムに初期化された 8 つのビュー画像 (透視画像に対応するビューを含む) を、マルチブランチの Stable Diffusion Inpainting 事前トレーニング済み UNet ネットワークに入力します。 違いは、安定拡散インペインティング モデルの UNet では、条件付き画像と生成される画像を区別するために追加の入力マスクが使用されることです。 透視画像に対応する透視ビューの場合、このマスクは 1 であり、このブランチの UNet は透視画像を直接復元します。他のパースペクティブの場合、このマスクは 0 であり、対応するブランチの UNet は新しいパースペクティブ イメージを生成します。 同様に、MVDiffusion は「Correspondence-aware Attention」モジュールを使用して、生成された画像と条件付き画像間の幾何学的一貫性と意味的統一性を学習します。 3. シーンマテリアルの生成MVDiffusion は、まず深度マップとカメラのポーズに基づいて軌跡上に RGB 画像を生成し、次に TSDF 融合を使用して、生成された RGB 画像を指定された深度マップとメッシュに合成します。 RGB 画像のピクセル対応は、深度マップとカメラポーズを通じて取得できます。 パノラマ生成と同様に、マルチブランチ UNet を使用し、「対応を考慮した注意」を挿入して、ビュー間の幾何学的一貫性を学習します。 4. 対応を考慮した注意メカニズムMVDiffusion の中核である「Correspondence-aware Attention」(CAA) は、複数のビュー間の幾何学的一貫性と意味的統一性を学習するために使用されます。 MVDiffusion は、Stable Diffusion UNet 内の各 UNet ブロックの後に「対応を考慮した注意」ブロックを挿入します。 CAA は、ソース フィーチャ マップと N 個のターゲット フィーチャ マップを考慮して機能します。 ソース フィーチャ マップ内の位置については、ターゲット フィーチャ マップ内の対応するピクセルとその近傍に基づいて注目出力を計算します。 具体的には、各ターゲット ピクセル t^l について、MVDiffusion は (x/y) 座標に整数変位 (dx/dy) を追加して K x K 近傍を考慮します。ここで、|dx|<K/2 かつ |dy|<K/2 です。 実際の使用では、MVDiffusion は K=3 を使用し、9 点の近傍を選択してパノラマの品質を向上させます。幾何学的条件によって制限されるマルチビュー画像生成では、操作効率を向上させるために K=1 が使用されます。 CAA モジュールの計算は、上図の式に示すように、標準的なアテンション メカニズムに従います。ここで、W_Q、W_K、W_V は、クエリ、キー、および値マトリックスの学習可能な重みです。ターゲット機能は整数位置に配置されているのではなく、双線形補間によって取得されます。 主な違いは、ソース画像内の対応する位置 s^l と s 間の 2D 変位 (パノラマ) または 1D 深度誤差 (幾何学的) に基づいて、ターゲット フィーチャに位置エンコーディングを追加することです。 パノラマ生成 (アプリケーション 1 およびアプリケーション 2) では、この変位によってローカル近傍内の相対的な位置が提供されます。 深度から画像への生成 (アプリケーション 3) では、視差によって深度の不連続性や遮蔽に関する手がかりが得られ、これは高忠実度の画像生成にとって非常に重要です。 変位は 2D (変位) または 1D (深度誤差) ベクトルであり、MVDiffusion は x 座標と y 座標の変位に標準の周波数エンコーディングを適用することに注意してください。 |
<<: 清華大学、マイクロソフトなど大学がリマインダーエンジニアを排除? LLMと進化的アルゴリズムを組み合わせて強力なプロンプト最適化ツールを作成する
>>: DeepMindの創設者:生成AIは単なる過渡期であり、将来AIは無料になり、インタラクティブAIは人類を変えるだろう
黄仁訓は未来について次のように予言した。コンピューティング技術は10年ごとに100万倍に進歩します。...
[[431006]]アルゴリズムの速度最適化でボトルネックが発生し、要件を満たすことができませんか?...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
ChatGPT のような生成 AI モデルが大量のエネルギーを消費することはよく知られていますが、そ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
悪意のある「バックドア」が埋め込まれたモデルが、何百万、何十億ものパラメータを持つモデルの中に、何者...
近年、機械学習データ(MLデータ)を深く理解する必要性に対する認識が高まっています。しかし、大規模な...
[51CTO.com クイック翻訳]比較するためのより良い座標系がないため、人間がよく犯す間...
AI が作成した資金調達計画が、実際に VC を熱狂的に追いつめたと信じられますか? GPT-4 に...
人工知能 (AI): ChatGPT などのツールの最近の登場により、AI はビルダーの間で注目を集...
[[428819]]ダブルポインタのアルゴリズム原理は、2 つのポインタを介して 1 つの for ...
簡単に言えば、機械学習とは、非常に複雑なアルゴリズムと技術に基づいて、人間の行動を無生物、機械、また...