中国科学院による1万語の説明：最先端の画像拡散モデルのレビュー

中国科学院は、Adobe および Apple の研究者と共同で、画像編集における拡散モデルに関する主要なレビューを発表しました。

全文は26ページ、15,000語以上、297の論文を網羅し、画像編集のさまざまな最先端の手法を包括的に研究しています。

同時に、著者は新しいベンチマークも提案し、研究者に便利な学習参照ツールを提供しました。

このレビューでは、著者らは、理論的および実践的観点から、拡散モデルを使用した画像編集の既存のアプローチを包括的にまとめています。

著者は、学習戦略や入力条件など複数の観点から関連する結果を分類し、詳細な分析を行った。

モデルのパフォーマンスをさらに評価するために、著者らは評価ベンチマークも提案し、将来の研究の潜在的な方向性を期待しました。

△拡散モデルによる画像編集結果の概要

以下では、タスク分類、実装方法、テストベンチマーク、今後の展望という4つの側面から、拡散モデルに基づく画像編集の結果を紹介します。

画像編集の分類

画像の生成、復元、強化における大きな進歩に加えて、拡散モデルは、これまで主流であった生成的敵対的ネットワーク (GAN) よりも優れた制御性を備え、画像編集においても大きな進歩を遂げています。

「ゼロから」画像を生成することや、ぼやけた画像を修復して品質を向上させることを目的とした画像の復元や強化とは異なり、画像編集には、オブジェクトの追加、背景の置き換え、テクスチャの変更などのタスクを含む、既存の画像の外観、構造、またはコンテンツの変更が含まれます。

この調査では、著者らは学習戦略に基づいて画像編集論文を、トレーニングベースの方法、テスト時の微調整方法、トレーニングと微調整なしの方法の 3 つの主要なグループに分類しました。

さらに、著者らは、テキスト、マスク、参照画像、カテゴリ、レイアウト、ポーズ、スケッチ、セグメンテーションマップ、オーディオ、ドラッグポイントなど、編集プロセスを制御するために使用される 10 個の入力条件を調査します。

さらに、著者らは、これらの方法で実行できる最も一般的な 12 種類の編集を調査し、次の 3 つの大まかなカテゴリに分類しました。

意味編集: このカテゴリには、描写されたシーンのストーリー、コンテキスト、またはテーマ要素に影響を与える画像コンテンツと物語の変更が含まれます。このカテゴリ内のタスクには、オブジェクトの追加、オブジェクトの削除、オブジェクトの置き換え、背景の変更、感情表現の変更が含まれます。
スタイル編集: このカテゴリでは、物語の内容を変えずに、画像の視覚的なスタイルと美的要素を強化または変換することに重点を置いています。このカテゴリ内のタスクには、色の変更、テクスチャの変更、全体的なスタイルの変更が含まれ、芸術的なスタイルと現実的なスタイルの両方をカバーします。
構造編集: このカテゴリには、画像内の要素の空間的な配置、配置、視点、特徴の変更が含まれ、シーン内のオブジェクトの編成とプレゼンテーションに重点が置かれます。このカテゴリ内のタスクには、オブジェクトの移動、オブジェクトのサイズと形状の変更、オブジェクトの動きとポーズの変更、および視点/視点の変更が含まれます。

画像編集の実装方法

トレーニングベースの方法

拡散モデルベースの画像編集の分野では、トレーニングベースの方法が大きな注目を集めています。

これらの方法は、安定した拡散モデルのトレーニングと効果的なデータ分布モデリングで有名であるだけでなく、さまざまな編集タスクでも確実に機能します。

これらの方法を徹底的に分析するために、著者らは適用範囲、トレーニング要件、監督タイプに基づいて 4 つの主要なグループに分類しました。

これらの主要なグループ内のメソッドは、コア編集メソッドに基づいてさらにさまざまなタイプに分類できます。

下の図は、2 つの代表的な CLIP ガイダンス方式である DiffusionCLIP と Asyrp のフレームワーク図を示しています。

△ CelebAデータセットのAsyrpからのサンプル画像

下の図は、コマンド画像編集方法の一般的な枠組みを示しています。

△ InstructPix2Pix、InstructAny2Pix、MagicBrush からのサンプル画像。

テスト中に微調整する方法

画像の生成と編集では、画像編集機能を強化するために微調整戦略も使用されます。テスト中に微調整を行うと、精度と制御性が大幅に向上します。

下の図に示すように、微調整方法には、ノイズ除去モデル全体を微調整する方法と、特定のレイヤーまたは埋め込みに焦点を当てる方法の両方が含まれます。

さらに、著者らはハイパーネットワークの統合と直接画像表現の最適化について議論している。

次の図は、さまざまな微調整コンポーネントを使用した微調整フレームワークを示しています。

△カスタム編集のサンプル画像

トレーニング不要で微調整可能な方法

画像編集の分野では、トレーニングや微調整を必要としない方法の出発点は、編集プロセス全体を通じてトレーニング (データセット) や微調整 (ソース画像) の形式が不要であるため、高速かつ低コストであることです。

変更する内容に応じて 5 つのカテゴリに分類でき、編集目標を達成するために、拡散モデルに固有の原則を巧みに活用します。

下の図はトレーニングフリー法の一般的な枠組みです。

△ LEDITS++よりサンプル画像

画像のインペインティングとアウトペインティング

画像の補完と拡張は通常、画像編集のサブタスクと見なされ、コンテキスト駆動型の補完 (上段) とマルチモーダル条件付き補完 (下段) の 2 つのタイプに分けられます。

△ サンプルはそれぞれパレットとイメージエディタからのものです

新しいテストベンチマーク

さまざまな方法の実装原理を分析することに加えて、さまざまな編集タスクにおけるこれらの方法の機能を評価することも重要ですが、既存の画像編集テスト標準には限界があります。

たとえば、EditBench は主にテキストとマスクによるガイド付きの補完を対象としていますが、グローバル編集 (スタイル転送など) を伴うタスクは無視します。TedBench はタスクの範囲を拡張しますが、詳細なガイダンスがありません。EditVal はタスクとメソッドをより包括的にカバーしようとしますが、画像は通常、解像度が低くぼやけています...

これらの問題に対処するために、著者らはEditEvalベンチマークを提案しました。これは、それぞれにテキストプロンプトが付いた 50 枚の高品質画像のデータセットで構成され、7 つの一般的な編集タスクにおけるモデルのパフォーマンスを評価できます。

7 つのタスクには、オブジェクトの追加/削除/置換に加え、背景、スタイル、ポーズ、アクションの変更が含まれます。

さらに、著者らは LMM スコアを提案し、大規模マルチモーダルモデル (LMM) を使用してさまざまなタスクでの編集パフォーマンスを評価し、主観的な評価を組み込むために実際のユーザー調査を実施しました。

△ LMMスコアとユーザー調査間のピアソン相関係数

下の図は、LMM スコア/CLIPScore のピアソン相関係数とユーザー調査を比較したものです。

課題と今後の方向性

著者らは、画像編集に拡散モデルを使用することは成功したものの、今後の研究で対処する必要があるいくつかの欠点がまだ残っていると考えています。

モデル推論ステップを削減

ほとんどの拡散ベースのモデルでは、最終的な画像を取得するために推論中に多数のステップが必要であり、時間がかかり、計算リソースを大量に消費するため、モデルの展開とユーザーエクスペリエンスに課題が生じます。

推論の効率を向上させるために、数ステップまたは1ステップ生成の拡散モデルが研究されました。

最近のアプローチでは、事前にトレーニングされた強力な拡散モデルから知識を抽出することでステップ数を削減し、少数ステップのモデルが強力なモデルの動作を模倣できるようにします。

より挑戦的な方向性としては、事前トレーニング済みモデル（一貫性モデルなど）に依存せずに、数ステップのモデルを直接開発することです。

モデル効率の向上

現実的な結果を生成する拡散モデルのトレーニングには大量の計算が必要であり、大量の高品質データが必要です。

この複雑さにより、画像編集用の拡散モデルの開発は非常に困難になります。

トレーニングコストを削減するために、最近の研究では、拡散モデルのバックボーンとしてより効率的なネットワークアーキテクチャが設計されています。

さらに、もう 1 つの重要な方向性として、パラメータの一部だけをトレーニングするか、元のパラメータを固定して、事前トレーニング済みの拡散モデルの上にいくつかの新しいレイヤーを追加することが挙げられます。

複雑なオブジェクト構造の編集

既存の作業では、画像を編集する際にリアルな色、スタイル、またはテクスチャを合成できますが、指、ロゴ、テキストなどの複雑な構造を扱う場合には、依然として明らかな変更の痕跡が生成されます。

研究者たちはこれらの問題に対処しようとしており、一般的な戦略は、「6 本の指」などの一般的な問題を否定的なプロンプトとして使用して、モデルがそのような画像を生成しないようにすることです。これは場合によっては効果的ですが、十分に堅牢ではありません。

最近の研究では、一部のチームが、画像のグローバルまたはローカル構造を編集するためのガイドとして、レイアウト、エッジ、または高密度ラベルを使用し始めています。

複雑な照明と影の編集

オブジェクトの照明や影を編集するには、シーン内の照明条件を正確に予測する必要があるため、依然として課題が残っています。

Total Relighting[23]などの以前の研究では、ネットワークの組み合わせを使用して、前景オブジェクトの法線、アルベド、および影を推定し、現実的な再照明結果を実現しました。

最近、あるチームが拡散モデルを使用して顔の照明を編集することを提案し、ShadowDiffusion も拡散モデルに基づいて適切なオブジェクトの影を生成できる影の合成を研究しました。

しかし、拡散モデルを使用してさまざまな背景条件下でのオブジェクトの影を正確に編集することは、未解決の問題のままです。

画像編集モデルの一般化可能性

既存の拡散ベースの画像編集モデルは、特定の条件のサブセットに対してリアルな視覚コンテンツを合成できますが、現実世界の多くのシナリオでは依然として失敗します。

この問題の根本的な原因は、モデルが条件付き分布空間内のすべての可能なサンプルを正確にモデル化できないことです。

常に完璧なコンテンツを生成するためにモデルを改善する方法は依然として課題です。この問題を解決するためのアイデアはいくつかあります。

1 つ目は、困難なシナリオをカバーするためにトレーニングデータの規模を拡大することです。この方法は効果的ですが、コストがかかります。たとえば、医療用画像処理や視覚検出などの分野では、データの収集が困難です。

2 番目のアプローチは、構造ガイダンス、3D 認識ガイダンス、テキストガイダンスなどのより多くの条件を受け入れるようにモデルを調整し、より制御可能で決定論的なコンテンツ作成を実現することです。

さらに、反復的な改良や多段階のトレーニングを使用して、モデルの初期結果を徐々に改善することもできます。

信頼できる評価指標

画像編集を正確に評価することは、編集が特定の条件に適合していることを確認するために重要です。

FID、KID、LPIPS、CLIP スコア、PSNR、SSIM などの定量的な指標が利用可能であるにもかかわらず、既存の評価作業のほとんどは依然としてユーザー調査に大きく依存しており、これは効率的でもスケーラブルでもありません。

信頼できる定量的な評価指標は未解決の問題のままです。最近、いくつかのグループが、オブジェクトの知覚的類似性を定量化するためのより正確な測定基準を提案しています。

DreamSim は、レイアウト、ポーズ、セマンティックコンテンツを考慮して 2 つの画像間の中レベルの類似性を測定し、LPIPS よりも優れたパフォーマンスを発揮します。

同様に、前景特徴平均 (FFA) も、オブジェクトの類似性を測定するために使用できるシンプルで効果的な方法です。

また、本稿で筆者が提案した LMM スコアも有効な画像編集指標です。

画像編集のための拡散モデルの詳細については、元の論文を読んでください。また、著者は GitHub で付随するリソースリポジトリもリリースしています。

論文リンク: https://arxiv.org/abs/2402.17525

Github: https://github.com/SiatMMLab/Awesome-Diffusion-Model-Based-Image-Editing-Methods

<<: PyTorch を学ぶには？簡単すぎる

>>: コンシューマーグレードのグラフィックカードが利用可能になりました。李開復のゼロワンエブリシングは、史上最強の数学コードである90億パラメータのYiモデルをリリースし、オープンソース化しました。

ブログ

Rosetta はプライバシーコンピューティングと AI をどのように結び付けるのでしょうか?

ブログ

視覚的な手がかりに「マーカー」を追加することで、Microsoft と他の企業は GPT-4V をより正確かつ詳細にしました。

ブログ

中国科学院による1万語の説明：最先端の画像拡散モデルのレビュー

△拡散モデルによる画像編集結果の概要

画像編集の分類

画像編集の実装方法

トレーニングベースの方法

△ CelebAデータセットのAsyrpからのサンプル画像

△ InstructPix2Pix、InstructAny2Pix、MagicBrush からのサンプル画像。

テスト中に微調整する方法

△カスタム編集のサンプル画像

トレーニング不要で微調整可能な方法

△ LEDITS++よりサンプル画像

画像のインペインティングとアウトペインティング

新しいテストベンチマーク

課題と今後の方向性

Rosetta はプライバシーコンピューティングと AI をどのように結び付けるのでしょうか?

視覚的な手がかりに「マーカー」を追加することで、Microsoft と他の企業は GPT-4V をより正確かつ詳細にしました。

人工知能を使ったチャットボットの構築方法

バイナリ検索アルゴリズムと時間計算量について簡単に説明し、バイナリ検索アルゴリズムを実装する

データが増えるほど、AI は賢くなるのでしょうか?私たちはそれを常に当然のこととして受け止めてきました。

推薦する

人工知能、遺伝子編集、ノーベル賞の画期的な進歩により、80歳でも40歳に見えるようになる

これは人工ニューラルネットワークの非常に簡単な説明です

マルチエージェントコラボレーションフレームワーク：人工知能の次の方向性と課題

速報です！ TensorFlow テクニカルディレクターの Pete Warden 氏は辞職し、博士号取得を目指してスタンフォード大学に戻りました。「Google では難しすぎた」からです。

ディープフェイクは今回、顔を変えるだけでなく、街そのものを変えてしまった。

人工知能の発展の特徴とその3つのタイプの現れについての簡単な分析

機械学習のヒント: モデルパラメータとハイパーパラメータの違いをご存知ですか?

機械学習アルゴリズムの新たな女王 — XGBoost

データが新たな石油なら、AIは新たな核兵器だ

蘇寧電子商取引プラットフォームにおけるAI技術＋短編動画の応用

新たな AI の冬を回避するにはどうすればよいでしょうか?

人工知能、AI、ロボットは雇用に影響を与えるでしょうか?劉強東さんの答えに人々は拍手喝采しました！