単一の画像ガイド、主題を保持し、スタイルを変更する、VCTはそれを簡単に実現するのに役立ちます

単一の画像ガイド、主題を保持し、スタイルを変更する、VCTはそれを簡単に実現するのに役立ちます

近年、画像生成技術は多くの重要な進歩を遂げました。特に、DALLE2やStable Diffusionなどの大型モデルが発表されて以来、テキストから画像を生成する技術は徐々に成熟し、高品質な画像生成の実用シナリオは幅広くなっています。しかし、既存の画像の詳細な編集は依然として難しい問題です。

一方では、テキスト記述の制限により、既存の高品質テキストベースの画像モデルは、テキストを使用してのみ画像の説明編集を実行でき、特定の効果の一部はテキストで記述することが困難です。一方、実際のアプリケーション シナリオでは、画像改良編集タスクには参照画像が少数しかないことが多く、特に参照画像が 1 つしかない場合、トレーニングに大量のデータを必要とする多くのソリューションでは、少量のデータで動作することが困難になります。

最近、NetEase Interactive Entertainment AI Labの研究者は、単一画像ガイダンスに基づく画像間編集ソリューションを提案しました。単一の参照画像があれば、ソース画像の全体的な構造を変更することなく、参照画像内のオブジェクトまたはスタイルをソース画像に転送できます。この研究論文は ICCV 2023 に採択され、関連コードはオープンソース化されました。

  • 論文アドレス: https://arxiv.org/abs/2307.14352
  • コードアドレス: https://github.com/CrystalNeuro/visual-concept-translator

まずは写真を見てその効果を実感してみましょう。

紙面レンダリング: 各画像グループの左上隅がソース画像、左下隅が参照画像、右側が生成された結果画像です。

メインフレーム

論文の著者らは、反転融合に基づく画像編集フレームワーク、つまり VCT (ビジュアル コンセプト トランスレータ) を提案しました。下の図に示すように、VCT の全体的なフレームワークには、コンテンツ概念の反転とコンテンツ概念の融合という 2 つのプロセスが含まれます。コンテンツ概念反転プロセスでは、2 つの異なる反転アルゴリズムを使用して、元の画像の構造情報の潜在ベクトルと参照画像の意味情報をそれぞれ学習して表現します。コンテンツ概念融合プロセスでは、構造情報と意味情報の潜在ベクトルを融合して最終結果を生成します。

論文の枠組み

反転法は近年、特に生成的敵対的ネットワーク(GAN)の分野で広く使用されている技術であり、多くの画像生成タスクで優れた結果を達成していることは特筆に値します[1]。 GAN Inversion テクノロジーは、トレーニングされた GAN ジェネレーターの潜在空間に画像をマッピングし、潜在空間を制御することで編集の目的を達成します。反転スキームは、事前トレーニング済みの生成モデルの生成機能を最大限に活用できます。この研究では、拡散モデルを事前情報として画像誘導に基づく画像編集タスクに GAN Inversion 技術を実際に移行しました。


反転技術

方法の紹介

VCT は反転の考え方に基づいて、コンテンツ再構築ブランチ B* と編集用のメイン ブランチ B を含む 2 ブランチ拡散プロセスを設計します。これらは、拡散モデルを使用して画像からノイズを計算するアルゴリズムであるDDIM反転[2]から得られた同じノイズxTから開始し、それぞれコンテンツの再構築とコンテンツの編集に使用されます。この論文で使用されている事前トレーニング モデルは、潜在拡散モデル (LDM) です。拡散プロセスは、潜在ベクトル空間 z 空間で発生します。2 分岐プロセスは次のように表現できます。


二重分岐拡散プロセス

コンテンツ再構築ブランチ B* は、T 個のコンテンツ特徴ベクトルを学習して元の画像の構造情報を復元し、ソフト アテンション制御スキームを通じて構造情報を編集メイン ブランチ B に渡します。ソフトアテンション制御スキームはGoogleのprompt2prompt [3]の研究に基づいており、その式は次のようになります。

つまり、拡散モデルのステップ数が一定範囲内にある場合、編集されたメインブランチの注目特徴マップがコンテンツ再構築ブランチの特徴マップに置き換えられ、生成された画像の構造制御が実現されます。編集メインブランチBは、元の画像から学習したコンテンツ特徴ベクトルと参照画像から学習したコンセプト特徴ベクトルを融合して編集画像を生成します。

ノイズ空間融合

拡散モデルの各ステップでは、特徴ベクトルが拡散モデルに入力された後に予測される重み付きノイズであるノイズ空間で特徴ベクトルの融合が行われます。コンテンツ再構成ブランチの特徴混合は、コンテンツ特徴ベクトルと空のテキストベクトル上で発生し、これは分類器フリー拡散ガイダンスの形式と一致している[4]。

エディタのメインブランチの混合は、コンテンツ特徴ベクトルと概念特徴ベクトルの混合であり、

これまでの研究の鍵は、単一のソース画像から構造情報の特徴ベクトルを取得し、単一の参照画像から概念情報の特徴ベクトルを取得する方法です。この論文では、2 つの異なる反転スキームを通じてこの目標を達成します。

ソース画像を復元するために、この論文ではNULLテキスト[5]最適化スキームを参照し、ソース画像に一致して適合するT段階の特徴ベクトルを学習します。ただし、空のテキスト ベクトルを DDIM パスに合うように最適化する NULL テキストとは異なり、この論文では、ソース画像の特徴ベクトルを最適化して、推定されたクリーンな特徴ベクトルに直接適合させます。適合式は次のとおりです。

構造情報の学習とは異なり、参照画像の概念情報は単一の高度に一般化された特徴ベクトルで表現する必要があり、拡散モデルのTステージは1つの概念的特徴ベクトルを共有します。この記事では、既存の反転スキームであるTextual Inversion【6】とDreamArtist【7】を最適化します。参照画像の内容を表すために、マルチコンセプトの特徴ベクトルを使用します。損失関数には、拡散モデルのノイズ推定項と潜在ベクトル空間における推定再構成損失項が含まれます。


実験結果


この論文では、ソース画像の構造情報をより適切に維持しながら、コンテンツを参照画像の主題またはスタイルに変換できる主題の置換および様式化タスクに関する実験を実施しました。


論文実験結果

この記事で提案されている VCT フレームワークには、以前のソリューションに比べて次のような利点があります。

(1)アプリケーションの一般化:従来の画像誘導画像編集タスクと比較して、VCTはトレーニングに大量のデータを必要とせず、生成品質と一般化が優れています。これは反転のアイデアに基づいており、オープンワールドデータで事前トレーニングされた高品質のテキスト画像モデルに基づいています。実際のアプリケーションでは、より優れた画像編集効果を実現するために、1 つの入力画像と 1 つの参照画像のみが必要です。

(2)視覚的正確性:テキストで画像を編集する最近のアプローチと比較して、VCTは参照ガイダンスとして画像を使用します。テキストの説明と比較して、画像参照では画像をより正確に編集できます。次の図は、VCT と他のソリューションの比較を示しています。

主語置換タスクの比較

スタイル転送タスクの比較

(3)追加情報は不要:制御を誘導するために追加の制御情報(マスク画像や深度マップなど)を必要とする最近のソリューションと比較して、VCTは融合生成のためにソース画像と参照画像から構造情報と意味情報を直接学習します。次の図はいくつかの比較結果を示しています。このうち、Paint-by-example はソース画像のマスク画像を提供することで、対応するオブジェクトを参照画像のオブジェクトに置き換えます。Controlnet は線画や深度マップなどを通じて生成された結果を制御し、VCT はソース画像と参照画像から構造情報とコンテンツ情報を直接学習して、追加の制限なしにターゲット画像に融合します。

画像誘導画像編集方式の比較結果

ネットイースインタラクティブエンターテインメントAIラボ

2017 年に設立された NetEase Interactive Entertainment AI Lab は、NetEase Interactive Entertainment Group に所属し、ゲーム業界をリードする人工知能研究所です。この研究室は、コンピュータービジョン、音声および自然言語処理、強化学習技術のゲームシーンへの応用に取り組んでおり、AI技術を利用してNetEase Interactive Entertainment傘下の人気のゲームや製品の技術向上に貢献することを目指しています。この技術は、「Fantasy Westward Journey」、「Harry Potter: Magic Awakening」、「Onmyoji」、「Westward Journey Online」など、NetEase Interactive Entertainment傘下の多くの人気ゲームに適用されています。

<<:  1000 以上の AI エージェントが復活、メタバースの OpenAI バージョンがリリースされる? ChatGPT+VR が「ウエストワールド」を 100% 復元

>>:  リアルタイム、高精細、高忠実度:より強力なビデオ再構成アルゴリズム、大幅に向上したパフォーマンス

ブログ    

推薦する

12年後の人工知能と人間はどうなっているでしょうか? 900人の専門家の意見はこちら

[[253534]]編集:Tailang一部のアナリストは、2030年までに人々は複雑なデジタルシス...

...

Pythonアルゴリズムの正しい実装の紹介

経験豊富な Python プログラマーにとって、Python アルゴリズムの実装は難しくありません。...

...

...

ChatGPTがついにオンラインになり、回答のソースを提供できるようになりました

たった今、OpenAI が重要なニュースを発表しました。ChatGPT が正式にインターネットに接続...

CNNが画像の特徴を自動的に抽出できる理由

1. はじめに従来の機械学習のシナリオのほとんどでは、まず特徴エンジニアリングなどの方法を通じて特徴...

...

IoTとAIを活用した依存症治療

IoT によって促進される相互接続性と AI の学習機能は、幅広い問題を解決する可能性を示しています...

...

...

2023 年にビジネス リーダーが注目すべき IT の注目点トップ 10

選択の余地はありません。2022年は近年で最も激動の年の一つになるでしょう。 テクノロジーもこの混乱...

2021年に予測される6つのテクノロジートレンド

2020年、COVID-19パンデミックは世界各国の経済に壊滅的な影響を及ぼし、業界を問わずビジネス...

テレンス・タオは数学の問題を解くために大規模なモデルを使用しています。コードの生成とLaTeXの数式の編集は非常に便利です。

過去数か月間、数学者のテレンス・タオ氏は、ChatGPT を使用して数学の問題を解くのに何度も試み、...

あるいは人間の目よりも鮮明です!世界初の3D人工眼球が発売され、何百万人もの人々が視力を取り戻す

[[327384]] 5月24日、メディアの報道によると、香港科技大学の研究者らがネイチャー誌に発表...