DragGANはオープンソース化から3日間で23,000のスターを獲得し、DragDiffusionが登場しました。

DragGANはオープンソース化から3日間で23,000のスターを獲得し、DragDiffusionが登場しました。

AIGC の魔法の世界では、画像を「ドラッグ」することで、必要な画像を変更したり合成したりできます。たとえば、ライオンに頭を向けて口を開けさせるには、次のようにします。

この効果を実現するための研究は、中国人著者が主導する「Drag Your GAN」論文から生まれたもので、先月発表され、SIGGRAPH 2023カンファレンスで採択された。

1か月以上が経過し、研究チームは先日、公式コードを公開しました。わずか3日間で星の数が23,000を超え、その人気ぶりが伺えます。

写真

GitHub アドレス: https://github.com/XingangPan/DragGAN

偶然にも、別の類似の研究である「DragDiffusion」が今日、人々の注目を集めています。以前の DragGAN は、ポイントベースのインタラクティブな画像編集を実装し、ピクセルレベルの精密な編集結果を実現しました。ただし、欠点もあります。DragGAN は生成的敵対的ネットワーク (GAN) に基づいており、その汎用性は事前トレーニング済みの GAN モデルの容量によって制限されます。

新しい研究では、シンガポール国立大学とByteDanceの研究者数名が、このタイプの編集フレームワークを拡散モデルに拡張し、DragDiffusionを提案しました。彼らは、大規模な事前トレーニング済み拡散モデルを活用して、現実世界のシナリオにおけるポイントベースのインタラクティブ編集の適用性を大幅に向上させました。

既存の拡散ベースの画像編集方法のほとんどはテキスト埋め込みに適用できますが、DragDiffusion は拡散潜在表現を最適化し、正確な空間制御を実現します。

写真

  • 論文アドレス: https://arxiv.org/pdf/2306.14435.pdf
  • プロジェクトアドレス: https://yujun-shi.github.io/projects/dragdiffusion.html

研究者らは、拡散モデルは反復的に画像を生成し、拡散潜在表現の「ワンステップ」最適化は首尾一貫した結果を生成するのに十分であり、DragDiffusion は高品質の編集を効率的に完了できると述べています。

彼らは、さまざまな困難なシナリオ (複数のオブジェクト、異なるオブジェクト カテゴリなど) で広範な実験を実施し、DragDiffusion の可塑性と汎用性を検証しました。関連するコードは近日中にリリースされる予定です。

次に、DragDiffusion がどのように機能するかを見てみましょう。

まず、下の写真の子猫の頭をもう少し高く上げたいと思います。これを行うには、ユーザーは赤い点を青い点までドラッグするだけです。

次に、山をもう少し高くしたいと思います。問題ありません。赤いキーポイントをドラッグするだけです。

写真

彫刻の頭を回転させたい場合は、ドラッグすることで回転させることができます。

写真

岸辺の花がもっと広く咲きますように。

方法の紹介

提案された DRAGDIFFUSION は、特定の拡散潜在変数を最適化して、インタラクティブなポイントベースの画像編集を実現することを目的としています。

この目標を達成するために、この研究ではまず、拡散モデルに基づいて LoRA を微調整し、ユーザー入力画像を再構築しました。これにより、入力画像と出力画像のスタイルの一貫性が保たれます。

次に、DDIM 反転 (拡散モデルの逆変換と潜在空間操作を探索する方法) を入力画像に適用して、特定のステップでの拡散潜在変数を取得します。

編集プロセス中、研究者はモーション監視とポイント追跡を繰り返し適用して、以前に取得したt番目のステップの拡散潜在変数を最適化し、処理ポイントのコンテンツをターゲットの場所に「ドラッグ」しました。編集プロセスでは、画像のマスクされていない領域が変更されないようにするために、正規化項も適用されます。

最後に、t 番目のステップの最適化された潜在変数は DDIM によってノイズ除去され、編集された結果が得られます。全体の概要は以下の通りです。

写真

実験結果

入力画像が与えられると、DRAGDIFFUSION はキーポイント (赤) の内容を対応するターゲット ポイント (青) に「ドラッグ」します。例えば、図(1)では子犬の頭を回します、図(7)ではトラの口を閉じます、などです。

写真

以下に、さらにいくつかの例のデモンストレーションを示します。図(4)のように山頂を高くしたり、図(7)のようにペン先を大きくしたりします。

写真

<<:  マイクロソフト、AIを活用してがんの放射線治療時間を短縮:スキャン速度が2.5倍に向上、精度は90%に

>>:  ChatGPT は IT ネットワーク エンジニアの代わりになるのでしょうか?

ブログ    

推薦する

漫画解釈: よく使われる機械学習アルゴリズムのトップ 10 を簡単に理解する

この記事を通じて、ML でよく使用されるアルゴリズムについて常識的に理解することができます。コードや...

天津大学の学部生の論文がCVPR 2022に選出され、ディープラーニングのロングテール分類で新たなSOTAを達成

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

2021年の中国AI音声認識産業の市場現状と発展見通しの分析

2020年、中国のスマート音声市場規模は113.96億元に達し、前年比19.2%増加した。中国のスマ...

もう学べないの? MIT CSおよびEEオンラインコースが利用可能になりました

[[320783]]流行病のため、MIT学長は3月初旬に残りの授業をすべてオンラインに移行するという...

未来はAIエンジニアの手に。しかし変革を成功させるのは簡単ではない

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

DeepGlint: 顔認識の最新の進歩と産業グレードの大規模な顔認識の実践に関する議論

[[380229]] 1. 顔認識の背景紹介簡単に言えば、顔認識の問題は、2 つの顔が与えられたとき...

専門家レベルの機械学習ツールの推奨事項。専門家と同じものを入手しましょう。

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...

AIがDevOpsを加速させる10の方法

今年初めに発表されたデロイトのレポートによると、AIベースのソフトウェア開発ツールを提供するスタート...

人体に入り込んで手術ができる「ソフトロボット」が登場し、2040年には宇宙に送り込まれるかも!

人工知能の活発な発展は大きな論争を引き起こしています。発展の一般的な傾向からすると、これはデメリット...

ビジネスにおける人工知能の主な応用

[[412393]]人工知能を受け入れ、導入する企業が増えており、人工知能の応用が加速する兆しが見え...

JD.comのインテリジェント顧客サービスブランドがリニューアル:「Yanxi」が2020 JDDカンファレンスでデビュー

「言葉の含意は心が繋がっている」という意味で、言葉がテレパシーのような共鳴を呼び起こし、人と人の間の...

ヘッドライトから始めて、自動運転はどのようにして攻撃性を排除するのでしょうか?

これは、鞭で打たれるとどんどん速く回転するコマのような「高離職率」社会です。技術推論において非常に重...

最適化されたアルゴリズムによる高度なデータ分析に視覚化を活用する 5 つのステップ

[[176432]] 【導入】ほとんどの科学研究では、大量の実験データの統計分析は、通常、コンピュー...

OpenAIの謎の新モデルQ*が暴露された。取締役会に警告するにはあまりにも強力だったため、ウルトラマン解任の導火線になるかもしれない

OpenAI 宮殿ドラマが終わったばかりですが、すぐにまた別の騒動が勃発しました。ロイター通信は、ア...