北京大学のチームは、より強力な一般化とより高い生成品質を備えたDiffusionでDragGANをアップグレードしました。クリックするだけで「地面から山が立ち上がる」

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

北京大学チームの最新作では、拡散モデルを使用してドラッグアンドドロップによる写真編集を実現しました。

クリックするだけで雪山が高くなります。

あるいは太陽が昇るようにしましょう。

これは、北京大学の張建教授のチーム VILLA (Visual-Information Intelligent Learning LAB) が北京大学深圳大学院-TuZhan Intelligent AIGC 共同実験室、および Tencent ARC Lab の協力を得て開発したDragonDiffusionです。

これはDragGANのバリエーションとして理解できます。

DragGAN には現在 30,000 を超える GitHub スターがあり、その基盤となるモデルは GAN (Generative Adversarial Network) に基づいています。

GAN は、一般化能力と生成画像の品質において常に欠点がありました。

これこそが拡散モデルの強みです。

そこで、張建教授のチームはDragGANパラダイムを拡散モデルに拡張しました。

この成果は発表時にZhihuのホットリストに掲載されました。

これにより、Stable Diffusion によって生成された画像の部分的な不完全性の問題が解決され、再描画をうまく制御できるようになったというコメントもありました。

写真の中でライオンの頭を回す

Dragon Diffusion の効果には、車の前面の形状の変更も含まれます。

ソファを徐々に長くします。

または、手動で顔を細くします。

別の写真にドーナツを置くなど、写真内のオブジェクトを置き換えることもできます。

あるいはライオンの頭を回す:

この方法のフレームワークには、ガイダンスブランチと生成ブランチの 2 つのブランチが含まれます。

まず、編集対象の画像は拡散の逆プロセスを経て、2 つのブランチの入力として拡散潜在空間内の画像の表現を見つけます。

このうち、ガイドブランチは元の画像を再構築し、再構築の過程で元の画像の情報が下の生成ブランチに注入されます。

生成されたブランチの役割は、メインコンテンツを元の画像と一貫性を保ちながら、元の画像を編集するための情報を導くことです。

拡散モデルの中間特徴間の強い対応に従って、DragonDiffusion は、各拡散反復で同じ UNet ノイズ除去装置を介して 2 つのブランチの潜在変数を特徴ドメインに変換します。

次に、2 つのマスクと領域を使用します。ドラッグしたコンテンツは元の画像と編集された画像で調整され、制限されたコンテンツが領域内に表示されます。

この論文では、2 つの領域間の類似性をコサイン距離で測定し、類似性を正規化します。

編集後のコンテンツの変更を制限するだけでなく、編集されていない他の領域も元の画像との一貫性を保つ必要があります。ここでも、対応する領域の類似性によって制約が課せられます。最終的に、総損失関数は次のように設計されます。

編集情報の注入に関しては、この論文では、条件付き拡散プロセスをスコアベースの拡散を介した結合スコア関数として考察しています。

編集信号は、特徴間の強い対応に基づくスコア関数を通じて勾配に変換され、拡散プロセス内の隠れ変数が更新されます。

意味的およびグラフィカルなアライメントの両方を考慮するために、著者らはこのガイド付き戦略に基づくマルチスケールのガイド付きアライメント設計を導入しました。

さらに、編集結果と元の画像との一貫性をさらに確保するために、DragonDiffusion メソッドではクロスブランチ自己注意メカニズムが設計されています。

具体的なアプローチとしては、ガイド付きブランチセルフアテンションモジュールのキーと値を使用して、生成されたブランチセルフアテンションモジュールのキーと値を置き換え、特徴レベルでの参照情報注入を実現することです。

最後に、提案された方法は、効率的な設計により、生成された画像と実際の画像の両方に対して複数の編集モードを提供します。

これには、画像内のオブジェクトの移動、オブジェクトのサイズ変更、オブジェクトの外観の置き換え、画像コンテンツのドラッグが含まれます。

このアプローチでは、すべてのコンテンツ編集および保存信号は画像自体から取得されるため、追加モジュールの微調整やトレーニングは必要なく、編集プロセスが簡素化されます。

研究者たちは実験で、ニューラルネットワークの最初の層が浅すぎて画像を正確に再構築できないことを発見した。しかし、第 4 層まで再構築すると、深すぎるため、効果も同様に悪くなります。 2 番目または 3 番目のレイヤーで最も効果的に機能します。

他の方法と比較して、Dragon Diffusion は除去効果においても優れています。

北京大学張建チーム他

この成果は、北京大学の張建氏のチーム、テンセントARCラボ、北京大学深圳大学院-TuZhanインテリジェントAIGC共同研究室によって共同で達成されました。

張建教授のチームは、拡散モデルによって生成されたコンテンツを正確に制御できるT2I-Adapterの開発を主導しました。

GitHub には 2,000 を超えるスターがあります。

この技術は、落書き作成ツール「Stable Doodle」のコア制御技術として、Stable Diffusion 社によって正式に採用されました。

Tuzhan Intelligenceと北京大学深圳研究所が設立したAIGC共同研究室は最近、画像編集・生成、法定AI製品など多くの分野で画期的な技術成果を達成した。

ほんの数週間前、北京大学-TuZhan AIGC 共同研究室は、Zhihu のホット検索リストで 1 位にランクされた大規模な言語モデル製品である ChatLaw をリリースしました。この製品はネットワーク全体で数千万回の露出を集めただけでなく、一連のソーシャルディスカッションも引き起こしました。

共同研究室は、CVを中核とするマルチモーダル大規模モデルに焦点を当て、言語分野におけるChatLawの背後にあるChatKnowledge大規模モデルを引き続き深く掘り下げ、法律や金融などの垂直分野における幻覚防止、民営化、データセキュリティの問題を解決します。

同研究所では、近い将来、Stable Diffusionに対抗する独自の大型モデルも発売する予定だと報じられている。

論文アドレス: https://arxiv.org/abs/2307.02421

プロジェクトホームページ: https://mc-e.github.io/project/DragonDiffusion/

<<: 清華大学の卒業生は大きな貢献をしました！ Google、14のタスクで初の大規模一般医療モデルSOTAをリリース

>>: レポート: Meta の Llama 2 と OpenAI の ChatGPT の「オープンソース」は透明性に欠ける

OpenAIの最強のライバルトレーニングAIがLLMブラックボックスを分解し、ビッグモデルの「魂」を予期せず垣間見る

ブログ

AIキーボード戦士が登場: DeepMindがエージェントのトレーニングを開始、コンピューターを人間のように「操作」

ブログ

iPhoneで初めての機械学習モデルを構築する方法

ブログ

システムアーキテクト、アルゴリズムエンジニア、人工知能エンジニアはどの程度の数学を学ぶ必要がありますか?

ブログ

北京大学のチームは、より強力な一般化とより高い生成品質を備えたDiffusionでDragGANをアップグレードしました。クリックするだけで「地面から山が立ち上がる」

写真の中でライオンの頭を回す

北京大学張建チーム他

OpenAIの最強のライバルトレーニングAIがLLMブラックボックスを分解し、ビッグモデルの「魂」を予期せず垣間見る

AIキーボード戦士が登場: DeepMindがエージェントのトレーニングを開始、コンピューターを人間のように「操作」

彼は17歳でiOSの脱獄の父となり、25歳で自動運転車を開発した。

実践編 | アポロレーンチェンジの詳しい説明

iPhoneで初めての機械学習モデルを構築する方法

システムアーキテクト、アルゴリズムエンジニア、人工知能エンジニアはどの程度の数学を学ぶ必要がありますか?

推薦する

定量評価、アルゴリズム拡張：強化学習研究の10原則

世界図書デー: スマートテクノロジーがいかにして優れた読書環境を作り出すか

ディープラーニング思考

人工知能の時代、どう生き残るのか？

SaaSベースのAIトレーニングがゲームチェンジャーとなる理由

人工知能の市場推進要因、制約、機会

大手モデルは「チャートをブラッシュアップ」するために近道をとっているのでしょうか?データ汚染問題は注目に値する

Reverse Midjourneyがオンラインになりました！デジタルアーティストがスティーブ・ジョブズに魅了され、写真がボルヘスの精神世界に入る

消費者の95%は買い物中にロボットと話したくない

Twitter が名前を X に変更し、マスク氏が X の世界を爆発させた! AIから宇宙探査まで、ユニバーサルアプリが形になりつつある

人工知能はスマートシティの夢の実現にどのように役立つか

RSA アルゴリズムが解読された場合、暗号化の将来はどうなるでしょうか?