DragGANはオープンソース化から3日間で23,000のスターを獲得し、DragDiffusionが登場しました。

DragGANはオープンソース化から3日間で23,000のスターを獲得し、DragDiffusionが登場しました。

AIGC の魔法の世界では、画像を「ドラッグ」することで、必要な画像を変更したり合成したりできます。たとえば、ライオンに頭を向けて口を開けさせるには、次のようにします。

この効果を実現するための研究は、中国人著者が主導する「Drag Your GAN」論文から生まれたもので、先月発表され、SIGGRAPH 2023カンファレンスで採択された。

1か月以上が経過し、研究チームは先日、公式コードを公開しました。わずか3日間で星の数が23,000を超え、その人気ぶりが伺えます。

写真

GitHub アドレス: https://github.com/XingangPan/DragGAN

偶然にも、別の類似の研究である「DragDiffusion」が今日、人々の注目を集めています。以前の DragGAN は、ポイントベースのインタラクティブな画像編集を実装し、ピクセルレベルの精密な編集結果を実現しました。ただし、欠点もあります。DragGAN は生成的敵対的ネットワーク (GAN) に基づいており、その汎用性は事前トレーニング済みの GAN モデルの容量によって制限されます。

新しい研究では、シンガポール国立大学とByteDanceの研究者数名が、このタイプの編集フレームワークを拡散モデルに拡張し、DragDiffusionを提案しました。彼らは、大規模な事前トレーニング済み拡散モデルを活用して、現実世界のシナリオにおけるポイントベースのインタラクティブ編集の適用性を大幅に向上させました。

既存の拡散ベースの画像編集方法のほとんどはテキスト埋め込みに適用できますが、DragDiffusion は拡散潜在表現を最適化し、正確な空間制御を実現します。

写真

  • 論文アドレス: https://arxiv.org/pdf/2306.14435.pdf
  • プロジェクトアドレス: https://yujun-shi.github.io/projects/dragdiffusion.html

研究者らは、拡散モデルは反復的に画像を生成し、拡散潜在表現の「ワンステップ」最適化は首尾一貫した結果を生成するのに十分であり、DragDiffusion は高品質の編集を効率的に完了できると述べています。

彼らは、さまざまな困難なシナリオ (複数のオブジェクト、異なるオブジェクト カテゴリなど) で広範な実験を実施し、DragDiffusion の可塑性と汎用性を検証しました。関連するコードは近日中にリリースされる予定です。

次に、DragDiffusion がどのように機能するかを見てみましょう。

まず、下の写真の子猫の頭をもう少し高く上げたいと思います。これを行うには、ユーザーは赤い点を青い点までドラッグするだけです。

次に、山をもう少し高くしたいと思います。問題ありません。赤いキーポイントをドラッグするだけです。

写真

彫刻の頭を回転させたい場合は、ドラッグすることで回転させることができます。

写真

岸辺の花がもっと広く咲きますように。

方法の紹介

提案された DRAGDIFFUSION は、特定の拡散潜在変数を最適化して、インタラクティブなポイントベースの画像編集を実現することを目的としています。

この目標を達成するために、この研究ではまず、拡散モデルに基づいて LoRA を微調整し、ユーザー入力画像を再構築しました。これにより、入力画像と出力画像のスタイルの一貫性が保たれます。

次に、DDIM 反転 (拡散モデルの逆変換と潜在空間操作を探索する方法) を入力画像に適用して、特定のステップでの拡散潜在変数を取得します。

編集プロセス中、研究者はモーション監視とポイント追跡を繰り返し適用して、以前に取得したt番目のステップの拡散潜在変数を最適化し、処理ポイントのコンテンツをターゲットの場所に「ドラッグ」しました。編集プロセスでは、画像のマスクされていない領域が変更されないようにするために、正規化項も適用されます。

最後に、t 番目のステップの最適化された潜在変数は DDIM によってノイズ除去され、編集された結果が得られます。全体の概要は以下の通りです。

写真

実験結果

入力画像が与えられると、DRAGDIFFUSION はキーポイント (赤) の内容を対応するターゲット ポイント (青) に「ドラッグ」します。例えば、図(1)では子犬の頭を回します、図(7)ではトラの口を閉じます、などです。

写真

以下に、さらにいくつかの例のデモンストレーションを示します。図(4)のように山頂を高くしたり、図(7)のようにペン先を大きくしたりします。

写真

<<:  マイクロソフト、AIを活用してがんの放射線治療時間を短縮:スキャン速度が2.5倍に向上、精度は90%に

>>:  ChatGPT は IT ネットワーク エンジニアの代わりになるのでしょうか?

ブログ    
ブログ    

推薦する

ニューラルシンボリックシステム、学際的相互作用、李飛飛と他の16人の学者がAIの未来について議論する

昨年、ニューヨーク大学の心理学および神経科学の教授であるゲイリー・マーカス氏と、ディープラーニングの...

この日本のAIは話題になっています: スケッチを2Dの妻にリアルタイムで変換でき、512の調整可能なパラメータがあります

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

強力な人工知能を制御できる者は、世界全体を制御することになるのでしょうか?

人工知能は21世紀における最も重要な技術的成果となりました。したがって、世界規模の開発動向に注目する...

物流の新たな勢いを刺激するGewutaiは、Anjiのインテリジェントマシンビジョンのスマート化を支援します

[[417396]]上海にある新エネルギー車を製造する全自動立体倉庫では、受注から製品出荷までの時間...

無料の Python 機械学習コース 7: アルゴリズムのパフォーマンスが低い場合の対処方法

私たちは機械学習アルゴリズムの開発に多くの時間を費やしました。しかし、導入後にアルゴリズムのパフォー...

機械学習初心者必読: 6 つのシンプルで実用的なアルゴリズムと学習曲線

01 機械学習アルゴリズム1. 分類アルゴリズムこれは教師あり学習法です。 K 最近傍法、決定木、単...

これでブリッジで腹筋運動ができるようになりました!中国初の3Dプリント橋が上海で公開

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能(AI)と機械学習(ML)の最新動向

[[422288]]人工知能 (AI) には、分析モデルの構築を自動化する機械学習 (ML) を含む...

...

【文字列処理アルゴリズム】回文判定のアルゴリズム設計とCコード実装

1. 要件の説明文字列を入力し、その文字列が回文であるかどうかを判断するプログラムを作成します。便宜...

科学者たちは、人間のチームが海洋ゴミを見つけるのを助けるために人工知能を搭載したドローンを開発している

ニューアトラス誌の報道によると、海洋ゴミは、海に漂うゴミと海岸に打ち上げられるゴミの両方の形で大きな...

金融業界における人工知能の革新的な応用トップ 10

[[438117]]人工知能は、よりスマートで、より便利で、より安全な方法でお金を投資、アクセス、...

HUST チーム: 不純物のない LK-99 結晶が鍵です!中国科学院物理研究所がLK-99を「偽造」し、最も検索された

連日続いている「室温超伝導」事件に、新たな続報が続いている。サンプルの半懸濁に成功した華科チームは本...

「脳制御+AI」で人は「本能」で運転できるようになる

「左に曲がれ、左に曲がれ、左に曲がれと言っただろう!」「ステップ!ステップ!ブレーキを踏め!」「手で...