この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 北京大学チームの最新作では、拡散モデルを使用してドラッグアンドドロップによる写真編集を実現しました。 クリックするだけで雪山が高くなります。 あるいは太陽が昇るようにしましょう。 これは、北京大学の張建教授のチーム VILLA (Visual-Information Intelligent Learning LAB) が北京大学深圳大学院-TuZhan Intelligent AIGC 共同実験室、および Tencent ARC Lab の協力を得て開発したDragonDiffusionです。 これはDragGANのバリエーションとして理解できます。 DragGAN には現在 30,000 を超える GitHub スターがあり、その基盤となるモデルは GAN (Generative Adversarial Network) に基づいています。 GAN は、一般化能力と生成画像の品質において常に欠点がありました。 これこそが拡散モデルの強みです。 そこで、張建教授のチームはDragGANパラダイムを拡散モデルに拡張しました。 この成果は発表時にZhihuのホットリストに掲載されました。 これにより、Stable Diffusion によって生成された画像の部分的な不完全性の問題が解決され、再描画をうまく制御できるようになったというコメントもありました。 写真の中でライオンの頭を回すDragon Diffusion の効果には、車の前面の形状の変更も含まれます。 ソファを徐々に長くします。 または、手動で顔を細くします。 別の写真にドーナツを置くなど、写真内のオブジェクトを置き換えることもできます。 あるいはライオンの頭を回す: この方法のフレームワークには、ガイダンス ブランチと生成ブランチの 2 つのブランチが含まれます。 まず、編集対象の画像は拡散の逆プロセスを経て、2 つのブランチの入力として拡散潜在空間内の画像の表現を見つけます。 このうち、ガイドブランチは元の画像を再構築し、再構築の過程で元の画像の情報が下の生成ブランチに注入されます。 生成されたブランチの役割は、メインコンテンツを元の画像と一貫性を保ちながら、元の画像を編集するための情報を導くことです。 拡散モデルの中間特徴間の強い対応に従って、DragonDiffusion は、各拡散反復で同じ UNet ノイズ除去装置を介して 2 つのブランチの潜在変数を特徴ドメインに変換します。 次に、2 つのマスクと領域を使用します。ドラッグしたコンテンツは元の画像と編集された画像で調整され、制限されたコンテンツが領域内に表示されます。 この論文では、2 つの領域間の類似性をコサイン距離で測定し、類似性を正規化します。 編集後のコンテンツの変更を制限するだけでなく、編集されていない他の領域も元の画像との一貫性を保つ必要があります。ここでも、対応する領域の類似性によって制約が課せられます。最終的に、総損失関数は次のように設計されます。 編集情報の注入に関しては、この論文では、条件付き拡散プロセスをスコアベースの拡散を介した結合スコア関数として考察しています。 編集信号は、特徴間の強い対応に基づくスコア関数を通じて勾配に変換され、拡散プロセス内の隠れ変数が更新されます。 意味的およびグラフィカルなアライメントの両方を考慮するために、著者らはこのガイド付き戦略に基づくマルチスケールのガイド付きアライメント設計を導入しました。 さらに、編集結果と元の画像との一貫性をさらに確保するために、DragonDiffusion メソッドではクロスブランチ自己注意メカニズムが設計されています。 具体的なアプローチとしては、ガイド付きブランチセルフアテンションモジュールのキーと値を使用して、生成されたブランチセルフアテンションモジュールのキーと値を置き換え、特徴レベルでの参照情報注入を実現することです。 最後に、提案された方法は、効率的な設計により、生成された画像と実際の画像の両方に対して複数の編集モードを提供します。 これには、画像内のオブジェクトの移動、オブジェクトのサイズ変更、オブジェクトの外観の置き換え、画像コンテンツのドラッグが含まれます。 このアプローチでは、すべてのコンテンツ編集および保存信号は画像自体から取得されるため、追加モジュールの微調整やトレーニングは必要なく、編集プロセスが簡素化されます。 研究者たちは実験で、ニューラルネットワークの最初の層が浅すぎて画像を正確に再構築できないことを発見した。しかし、第 4 層まで再構築すると、深すぎるため、効果も同様に悪くなります。 2 番目または 3 番目のレイヤーで最も効果的に機能します。 他の方法と比較して、Dragon Diffusion は除去効果においても優れています。 北京大学張建チーム他この成果は、北京大学の張建氏のチーム、テンセントARCラボ、北京大学深圳大学院-TuZhanインテリジェントAIGC共同研究室によって共同で達成されました。 張建教授のチームは、拡散モデルによって生成されたコンテンツを正確に制御できるT2I-Adapterの開発を主導しました。 GitHub には 2,000 を超えるスターがあります。 この技術は、落書き作成ツール「Stable Doodle」のコア制御技術として、Stable Diffusion 社によって正式に採用されました。 Tuzhan Intelligenceと北京大学深圳研究所が設立したAIGC共同研究室は最近、画像編集・生成、法定AI製品など多くの分野で画期的な技術成果を達成した。 ほんの数週間前、北京大学-TuZhan AIGC 共同研究室は、Zhihu のホット検索リストで 1 位にランクされた大規模な言語モデル製品である ChatLaw をリリースしました。この製品はネットワーク全体で数千万回の露出を集めただけでなく、一連のソーシャル ディスカッションも引き起こしました。 共同研究室は、CVを中核とするマルチモーダル大規模モデルに焦点を当て、言語分野におけるChatLawの背後にあるChatKnowledge大規模モデルを引き続き深く掘り下げ、法律や金融などの垂直分野における幻覚防止、民営化、データセキュリティの問題を解決します。 同研究所では、近い将来、Stable Diffusionに対抗する独自の大型モデルも発売する予定だと報じられている。 論文アドレス: https://arxiv.org/abs/2307.02421 プロジェクトホームページ: https://mc-e.github.io/project/DragonDiffusion/ |
<<: 清華大学の卒業生は大きな貢献をしました! Google、14のタスクで初の大規模一般医療モデルSOTAをリリース
>>: レポート: Meta の Llama 2 と OpenAI の ChatGPT の「オープンソース」は透明性に欠ける
ついに2020年が到来しました。これは、火星探査、バイオニックロボット、自動運転、遺伝子編集、複合現...
130 億のパラメータを持つモデルが実際にトップの GPT-4 に勝つのでしょうか?下の図に示すよ...
2019年、自動運転分野は谷間に向かうかに見えましたが、わずか数か月で業界は徐々に再び熱を帯び始め、...
技術概要:今回は主に教師なし特徴学習とディープラーニングの最近の発展と、時系列モデル問題におけるそれ...
海外メディアの報道によると、イタリアの研究者らは最近、量子コンピュータ上で特殊なアルゴリズムを実行す...
IDC によると、世界のデータ量は 2018 年の 33ZB から 2025 年には 175ZB に...
適切なプロンプトを作成する技術を習得することが、ChatGPT のような AI ベースのプロンプト ...
核融合は現在一般的に使用されている核分裂法よりも安全で環境に優しいことはよく知られています。しかし、...
セキュリティ分野では、アカウント取引の異常や異なるイベント間の相関関係など、さまざまなシナリオで「グ...
[[255839]] BI中国語ウェブサイトが1月18日に報じた。マイクロソフトのCEOサティア・ナ...
8月29日、国家発展改革委員会、科学技術部、工業情報化部、中国サイバースペース管理局、中国科学院、...
[51CTO.com オリジナル記事] Huawei が成都の開発者に特典を提供! 2020年7月...