人気の DragGAN は正式にオープンソース化され、GitHub で約 18,000 個のスターを獲得しています。清華大学の卒業生がGANを反撃に導き、象は1秒で方向転換した

人気の DragGAN は正式にオープンソース化され、GitHub で約 18,000 個のスターを獲得しています。清華大学の卒業生がGANを反撃に導き、象は1秒で方向転換した

先月、「Drag Your GAN」と呼ばれる核レベルの研究がAIグラフィックス界で爆発的に広がりました。

この論文は、MPII、MIT、ペンシルバニア大学、Googleなどの研究者によって共同で発表され、SIGGRAPH 2023に採択されました。

これからは、ドラッグアンドドロップだけで完璧な写真編集を実現し、許可されていないものも編集できるようになります。

写真

写真の表情がよくないですか?建てる!顔が細くないですか?建てる!カメラに向いた顔の角度が間違っていませんか?建てる!

そして今、チームは公式コードを正式にリリースしました!

写真

プロジェクトアドレス: https://github.com/XingangPan/DragGAN

まず、事前トレーニング済みの StyleGAN2 の重みをダウンロードする必要があります。

 sh scripts/download_model.sh

StyleGAN-Human および Landscapes HQ (LHQ) データセットを試してみたい場合は、ダウンロードした重み​​を ./checkpoints ディレクトリに配置する必要があります。

次に、DragGAN GUI を起動して、GAN で生成された画像を編集します。

 sh scripts/gui.sh

実際の画像を編集したい場合は、PTI などのツールを使用して GAN 反転を実行する必要があります。新しい潜在コードとモデルの重みが GUI に読み込まれます。

一部のネットユーザーは、試してみたところ、ビデオメモリを6G程度しか消費しないが、効果はあまり理想的ではなく、その後の改善を待つ必要があると述べた。

写真

GANが反撃、1秒で象を方向転換

名前の通り、DragGAN を使用すると、画像を自由にドラッグして編集することができ、オブジェクトの形状、レイアウト、姿勢、表現、位置、サイズを正確に制御できます。

写真

プロジェクトアドレス: https://vcai.mpi-inf.mpg.de/projects/DragGAN/

キーポイントの開始位置と終了位置を決定した後、GAN を使用してオブジェクトの物理的構造に基づいて論理的な画像を生成し、完璧な画像が完成します。

写真

たとえば、優しく引っ張るだけで、垂れ下がった犬の耳を持ち上げたり、犬を立った状態から横たわった状態に変えたり、犬にすぐに口を開けて笑わせたりすることができます。

写真

モデルのポーズは自由に変えることができ、ショートパンツはクロップドパンツに、半袖は長袖に変えることができます。

写真

湖畔の木々は一瞬にして大きく成長し、湖に映る木々の姿も変化します。

写真

元の写真では太陽は顔を見せていないのですか?問題ありません。DragGAN が日の出をお届けします。

写真

これに対しネットユーザーらは「象を振り向かせよう」という甲側の要求がついに実現できるのではないかと冗談を飛ばした。

DragGAN: 画像処理の新時代

この研究で、チームは、画像内の任意の点をターゲット ポイントまでインタラクティブに「ドラッグ」するという、強力だがまだ十分に研究されていない GAN の制御方法を研究しました。

写真

DragGAN は主に次の 2 つの主要コンポーネントで構成されています。

1. 機能ベースのモーションモニタリングにより、動作点を目標位置に移動させる

2. 識別的なGAN特徴を使用して動作点の位置を継続的に特定する新しいポイント追跡方法

DragGAN を使用すると、誰でもピクセル単位の精度で制御し、動物、車、人間、風景など、さまざまなカテゴリのポーズ、形状、表情、レイアウトを編集できます。

これらの操作は GAN の学習された生成画像マニフォールドに対して実行されるため、遮蔽されたコンテンツや変形された画像などの困難なシナリオでも現実的な出力を生成する傾向があります。

定性的および定量的な比較により、DragGAN は画像操作とポイント追跡タスクの両方において従来の方法を大幅に上回ることがわかりました。

ドラッグ編集

DragGAN を使用すると、ユーザーはいくつかの操作ポイント (赤い点)、ターゲット ポイント (青い点)、および移動可能な領域を表すオプションのマスク (明るい領域) を設定するだけで済みます。その後、モデルは後続の画像生成を自動的に完了します。

動的監視ステップでは、動作点 (赤い点) をターゲット ポイント (青い点) に向かって移動し、ポイント追跡ステップでは、動作点を更新して画像内のオブジェクトを追跡します。このプロセスは、動作点が対応する目標点に到達するまで継続されます。

写真

プロセス

具体的には、チームはジェネレーターの特徴マップ上で変位パッチ損失を介して動的モニタリングを実装し、同じ特徴空間内で最近傍検索を介してポイント追跡を実行します。

写真

方法

注目すべきは、ユーザーがマスクを追加することで編集が必要な領域を制御できることです。

犬の頭をマスクすると、編集した画像では頭だけが動き、他の部分は変化しないことがわかります。しかし、マスクがなければ、犬の体全体が一緒に動いてしまいます。

これは、ポイントベースの操作には複数の可能な解決策があることが多く、GAN はトレーニング データから学習した画像マニフォールド内で最も近い解決策を見つける傾向があることも示しています。

写真

マスクの効果

実際の画像の編集では、チームはGAN反転を適用してStyleGANの潜在空間にマッピングし、ポーズ、髪、形状、表情を個別に編集しました。

写真

写真

リアル画像処理

それだけでなく、DragGAN は強力な一般化機能も備えており、トレーニング画像の分布を超えた画像を作成できます。例えば、大きく開いた口や、極限まで拡大された車輪など。

写真

一般化

著者について

パン・シンガン

論文の第一著者である潘新剛氏は、現在、南洋理工大学コンピュータ科学工学部の助教授に正式に就任している。

研究の方向性は主に、生成 AI モデル、AI と人間の共同コンテンツ生成、3D/ビデオ編集と生成、ニューラルシーン表現とレンダリング、物理的に知覚されるコンテンツ生成に焦点を当てています。

これに先立ち、彼は2016年に清華大学で学士号を取得し、2021年に香港中文大学マルチメディア研究所で唐暁教授の指導の下で博士号を取得しました。その後、マックス・プランクコンピュータサイエンス研究所でクリスチャン・テオバルト教授の指導の下、博士研究員として研究を行いました。

劉玲傑

Lingjie Liu 氏は、ペンシルバニア大学コンピューター情報科学部の Aravind K. Joshi 助教授です。同氏はペンシルバニア大学コンピューター グラフィックス研究所の所長であり、一般ロボット工学、自動化、センシング、および知覚 (GRASP) 研究所のメンバーでもあります。

それ以前は、マックス・プランクコンピュータサイエンス研究所のリーゼ・マイトナー博士研究員でした。彼は2019年に香港大学で博士号を取得しました。

<<:  Google、金融機関の内部リスク警告の精度を2~4倍に高められるAIマネーロンダリング対策ツールをリリース

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

決済の未来は生体認証にかかっている

現在、生体認証技術は比較的成熟しており、さまざまな応用シナリオがあります。国内の生体認証市場全体は、...

音声認識データベースが人工知能の中核となる

音声認識データベースと音声合成データベースは、人工知能の重要な技術です。機械が人間のように聞き、話し...

ディープラーニング プロジェクトをゼロから構築するにはどうすればよいでしょうか?詳細なチュートリアルはこちら

ディープラーニングに関する理論コースを受講した後、多くの人が独自のプロジェクトを構築してみることに興...

あるいは人間の目よりも鮮明です!世界初の3D人工眼球が発売され、何百万人もの人々が視力を取り戻す

[[327384]] 5月24日、メディアの報道によると、香港科技大学の研究者らがネイチャー誌に発表...

アリババが自社開発のAIクラスターの詳細を発表:64基のGPU、数百万のカテゴリーのトレーニングを4倍高速化

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能によるモザイク除去ディープ CNN デノイザーと多層隣接コンポーネント埋め込みによるモザイク除去

モザイク除去のための人工知能、ディープ CNN デノイザーとモザイク除去のための多層隣接コンポーネン...

程偉:スマート交通に投資し、世界クラスのモデル都市を構築する

「滴滴出行がユーザーとドライバーをつなぐ旅行プラットフォームになるだけでなく、人、車、道路、信号、そ...

...

ビジネスアナリストにとってAIが意味するもの

[[275322]]今日では、人工知能はもはや流行語ではなく、多くの環境ビジネスアナリストやその他の...

...

GPT-4より18倍高速、世界最速の大型モデルGroqが登場!毎秒500トークンが記録を破る、自社開発LPUはNVIDIA GPUの10倍

気がつくと、1 秒あたり 500 トークンを出力できる Groq モデルがインターネット上に広まって...

理解を助ける7種類の人工知能

[[269361]] [51CTO.com クイック翻訳] 人工知能は、これまでで最も驚くべきイノベ...

推奨システムにおけるTensorFlowの分散トレーニング最適化の実践

著者 | Yifan、Jiaheng、Zhengshao などMeituan の高度にカスタマイズさ...

...

人工知能導入の第一歩:企業で最も一般的な3つのアプリケーション

人工知能はあらゆる業界の基盤になりつつありますが、多くの企業はまだどのように始めればよいかわかってい...