単一の画像ガイド、主題を保持し、スタイルを変更する、VCTはそれを簡単に実現するのに役立ちます

近年、画像生成技術は多くの重要な進歩を遂げました。特に、DALLE2やStable Diffusionなどの大型モデルが発表されて以来、テキストから画像を生成する技術は徐々に成熟し、高品質な画像生成の実用シナリオは幅広くなっています。しかし、既存の画像の詳細な編集は依然として難しい問題です。

一方では、テキスト記述の制限により、既存の高品質テキストベースの画像モデルは、テキストを使用してのみ画像の説明編集を実行でき、特定の効果の一部はテキストで記述することが困難です。一方、実際のアプリケーションシナリオでは、画像改良編集タスクには参照画像が少数しかないことが多く、特に参照画像が 1 つしかない場合、トレーニングに大量のデータを必要とする多くのソリューションでは、少量のデータで動作することが困難になります。

最近、NetEase Interactive Entertainment AI Labの研究者は、単一画像ガイダンスに基づく画像間編集ソリューションを提案しました。単一の参照画像があれば、ソース画像の全体的な構造を変更することなく、参照画像内のオブジェクトまたはスタイルをソース画像に転送できます。この研究論文は ICCV 2023 に採択され、関連コードはオープンソース化されました。

論文アドレス: https://arxiv.org/abs/2307.14352
コードアドレス: https://github.com/CrystalNeuro/visual-concept-translator

まずは写真を見てその効果を実感してみましょう。

紙面レンダリング: 各画像グループの左上隅がソース画像、左下隅が参照画像、右側が生成された結果画像です。

メインフレーム

論文の著者らは、反転融合に基づく画像編集フレームワーク、つまり VCT (ビジュアルコンセプトトランスレータ) を提案しました。下の図に示すように、VCT の全体的なフレームワークには、コンテンツ概念の反転とコンテンツ概念の融合という 2 つのプロセスが含まれます。コンテンツ概念反転プロセスでは、2 つの異なる反転アルゴリズムを使用して、元の画像の構造情報の潜在ベクトルと参照画像の意味情報をそれぞれ学習して表現します。コンテンツ概念融合プロセスでは、構造情報と意味情報の潜在ベクトルを融合して最終結果を生成します。

論文の枠組み

反転法は近年、特に生成的敵対的ネットワーク（GAN）の分野で広く使用されている技術であり、多くの画像生成タスクで優れた結果を達成していることは特筆に値します[1]。 GAN Inversion テクノロジーは、トレーニングされた GAN ジェネレーターの潜在空間に画像をマッピングし、潜在空間を制御することで編集の目的を達成します。反転スキームは、事前トレーニング済みの生成モデルの生成機能を最大限に活用できます。この研究では、拡散モデルを事前情報として画像誘導に基づく画像編集タスクに GAN Inversion 技術を実際に移行しました。

反転技術

方法の紹介

VCT は反転の考え方に基づいて、コンテンツ再構築ブランチ B* と編集用のメインブランチ B を含む 2 ブランチ拡散プロセスを設計します。これらは、拡散モデルを使用して画像からノイズを計算するアルゴリズムであるDDIM反転^[2]から得られた同じノイズxTから開始し、それぞれコンテンツの再構築とコンテンツの編集に使用されます。この論文で使用されている事前トレーニングモデルは、潜在拡散モデル (LDM) です。拡散プロセスは、潜在ベクトル空間 z 空間で発生します。2 分岐プロセスは次のように表現できます。

二重分岐拡散プロセス

コンテンツ再構築ブランチ B* は、T 個のコンテンツ特徴ベクトルを学習して元の画像の構造情報を復元し、ソフトアテンション制御スキームを通じて構造情報を編集メインブランチ B に渡します。ソフトアテンション制御スキームはGoogleのprompt2prompt [3]の研究に基づいており、その式は次のようになります。

つまり、拡散モデルのステップ数が一定範囲内にある場合、編集されたメインブランチの注目特徴マップがコンテンツ再構築ブランチの特徴マップに置き換えられ、生成された画像の構造制御が実現されます。編集メインブランチBは、元の画像から学習したコンテンツ特徴ベクトルと参照画像から学習したコンセプト特徴ベクトルを融合して編集画像を生成します。

ノイズ空間融合

拡散モデルの各ステップでは、特徴ベクトルが拡散モデルに入力された後に予測される重み付きノイズであるノイズ空間で特徴ベクトルの融合が行われます。コンテンツ再構成ブランチの特徴混合は、コンテンツ特徴ベクトルと空のテキストベクトル上で発生し、これは分類器フリー拡散ガイダンスの形式と一致している[4]。

エディタのメインブランチの混合は、コンテンツ特徴ベクトルと概念特徴ベクトルの混合であり、

これまでの研究の鍵は、単一のソース画像から構造情報の特徴ベクトルを取得し、単一の参照画像から概念情報の特徴ベクトルを取得する方法です。この論文では、2 つの異なる反転スキームを通じてこの目標を達成します。

ソース画像を復元するために、この論文ではNULLテキスト[5]最適化スキームを参照し、ソース画像に一致して適合するT段階の特徴ベクトルを学習します。ただし、空のテキストベクトルを DDIM パスに合うように最適化する NULL テキストとは異なり、この論文では、ソース画像の特徴ベクトルを最適化して、推定されたクリーンな特徴ベクトルに直接適合させます。適合式は次のとおりです。

構造情報の学習とは異なり、参照画像の概念情報は単一の高度に一般化された特徴ベクトルで表現する必要があり、拡散モデルのTステージは1つの概念的特徴ベクトルを共有します。この記事では、既存の反転スキームであるTextual Inversion【6】とDreamArtist【7】を最適化します。参照画像の内容を表すために、マルチコンセプトの特徴ベクトルを使用します。損失関数には、拡散モデルのノイズ推定項と潜在ベクトル空間における推定再構成損失項が含まれます。

実験結果

この論文では、ソース画像の構造情報をより適切に維持しながら、コンテンツを参照画像の主題またはスタイルに変換できる主題の置換および様式化タスクに関する実験を実施しました。

論文実験結果

この記事で提案されている VCT フレームワークには、以前のソリューションに比べて次のような利点があります。

（１）アプリケーションの一般化：従来の画像誘導画像編集タスクと比較して、VCTはトレーニングに大量のデータを必要とせず、生成品質と一般化が優れています。これは反転のアイデアに基づいており、オープンワールドデータで事前トレーニングされた高品質のテキスト画像モデルに基づいています。実際のアプリケーションでは、より優れた画像編集効果を実現するために、1 つの入力画像と 1 つの参照画像のみが必要です。

（２）視覚的正確性：テキストで画像を編集する最近のアプローチと比較して、VCTは参照ガイダンスとして画像を使用します。テキストの説明と比較して、画像参照では画像をより正確に編集できます。次の図は、VCT と他のソリューションの比較を示しています。

主語置換タスクの比較

スタイル転送タスクの比較

（３）追加情報は不要：制御を誘導するために追加の制御情報（マスク画像や深度マップなど）を必要とする最近のソリューションと比較して、VCTは融合生成のためにソース画像と参照画像から構造情報と意味情報を直接学習します。次の図はいくつかの比較結果を示しています。このうち、Paint-by-example はソース画像のマスク画像を提供することで、対応するオブジェクトを参照画像のオブジェクトに置き換えます。Controlnet は線画や深度マップなどを通じて生成された結果を制御し、VCT はソース画像と参照画像から構造情報とコンテンツ情報を直接学習して、追加の制限なしにターゲット画像に融合します。

画像誘導画像編集方式の比較結果

ネットイースインタラクティブエンターテインメントAIラボ

2017 年に設立された NetEase Interactive Entertainment AI Lab は、NetEase Interactive Entertainment Group に所属し、ゲーム業界をリードする人工知能研究所です。この研究室は、コンピュータービジョン、音声および自然言語処理、強化学習技術のゲームシーンへの応用に取り組んでおり、AI技術を利用してNetEase Interactive Entertainment傘下の人気のゲームや製品の技術向上に貢献することを目指しています。この技術は、「Fantasy Westward Journey」、「Harry Potter: Magic Awakening」、「Onmyoji」、「Westward Journey Online」など、NetEase Interactive Entertainment傘下の多くの人気ゲームに適用されています。

<<: 1000 以上の AI エージェントが復活、メタバースの OpenAI バージョンがリリースされる? ChatGPT+VR が「ウエストワールド」を 100% 復元

>>: リアルタイム、高精細、高忠実度：より強力なビデオ再構成アルゴリズム、大幅に向上したパフォーマンス