Adobe は GAN をステッチされたモンスターに変え、1024 解像度の全身ポートレートを空中から作り出した

Adobe は GAN をステッチされたモンスターに変え、1024 解像度の全身ポートレートを空中から作り出した

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

顔が変わるのはよく見かけますが、体が変わるのは見たことがありますか?

顔を指定すると、衣服、体型、肌の色に PS の痕跡を残さずに、下半身を自動的に変更できます。

コアテクノロジーは、もちろん私たちがよく知っている GAN ですが、違いは、体のあらゆる部分をフォトショップで加工できるようになったことです。

顔、肌の色、服装、髪、その他の体の部位、さらには体の動きまで、自由にデザインして組み合わせ、最終的に1024 × 1024の解像度の全身写真に「つなぎ合わせる」ことができます。

そして、この「ステッチされたモンスター」には、スプライシング動作によって生じた影や境界線がありません。

上記の顔は、影の境界がほとんどない新しい方法で生成されています。

これはどうやって行うのですか?人体のさまざまな部分を生成するために使用される GANを組み合わせます

これは、Adobe チームが提案した、複数の事前トレーニング済み GAN を組み合わせて画像を生成する新しい方法です。この論文は CVPR 2022 に採択されました。

次に、彼らがそれをどのように達成したかを見てみましょう。

PSを使用して人体を生成する

冒頭で述べたように、これは複数の GAN をつなぎ合わせる手法であり、研究チームはこれをInsetGAN と呼んでいます。

GAN には 2 つの種類があります。

  • 全身GAN   (Full-Body GAN) は、中品質のデータでトレーニングされ、人間の体を生成します。
  • いくつかの GANには、顔、手、足などの特定の部分向けにトレーニングされた複数の GAN が含まれます。

これら 2 種類の GAN が連携して動作する方法は Photoshop に似ています。つまり、フルボディ GAN はベースラインが既に存在するキャンバスであり、部分的な GAN はその上に積み重ねられたレイヤーです。

ただし、境界が異なる「レイヤー」をキャンバス上に重ねると、必ず位置合わせの問題が発生してしまいます。

たとえば、体に顔を追加すると、肌の色の一貫性、衣服の境界、髪の毛の流れの自然さなどの詳細が歪んだり失われたり、アーティファクトが発生したりすることがあります。

複数の GAN をより適切に調整して、一貫したピクセルを生成するにはどうすればよいでしょうか?

研究チームは次のようなアーキテクチャを設計しました。

彼らはまず境界ボックス検出器を導入し、基礎となるキャンバス内で部分GANによって生成された特定領域、つまり全身GANによって生成された領域の位置を検出し、切り取って特定領域を埋め込みました。

このプロセスは、2 つの領域間のランダムな潜在コードを見つけることと同じです。   (潜在コード)選択領域の境界が埋め込み領域と一致し、シームレスな合成が実現されるようにします。

同時に、これら 2 つの領域をダウンサンプリングして、画像ピクセル コンテンツの一貫性をさらに高めます。

この方法に基づいて、InsetGAN はトレーニング後に複数の完全なポートレートを生成し、肌の色、髪、関連する姿勢をそれに応じて調整できます。

研究チームは、人間の体の左側に基づいて顔を置き換える、全身ポートレートを生成する従来の方法である CoModGAN とも比較しました。明らかに、InsetGAN によって生成された顔の方が自然です。

△上がInsetGAN、下がCoModGAN

著者について

この論文の著者は 6 名で、そのうち 5 名は Adob​​e Research から、1 名はキング アブドラ科学技術大学 (KAUST) からである。

その中には、Adobe の主任科学者であり、PS 2020 のスマート ポートレート、スキン スムージング、カラーリング、ニューラル スタイライゼーションなどのフィルターの主要なアルゴリズム貢献者であり、RealBrush ブラシ シンセサイザーの開発者である Jingwan Lu もいます。

彼女が現在率いるチームは、ビッグデータと生成 AI (GAN など) を使用してビジュアル コンテンツを作成することに重点を置いています。

では、家を離れずに体を変える準備はできていますか? (手動犬頭)

論文の宛先:

https://arxiv.org/abs/2203.07293

<<:  自動運転車の意思決定制御システム技術を分析した記事

>>:  このレーシングAIはもはや短期的な楽しみを求めるのではなく、長期的な戦略を考慮することを学んだ。

ブログ    
ブログ    

推薦する

ステップバイステップ | ニューラルネットワーク初心者ガイド

[[252981]]ビッグデータダイジェスト制作編纂者:李磊、大潔瓊、雲周過去数年間にブラウザを開い...

市場規模は100億元を超える可能性あり。これら4種類の医療用ロボットをご存知ですか?

2020年、突然の公衆衛生事件により、医療用ロボットに大きな注目が集まりました。医療用ロボットは、...

...

...

Java プログラミング スキル - データ構造とアルゴリズム「スレッド バイナリ ツリー」

[[388829]]まず質問を見てみましょうシーケンス{1,3,6,8,10,14}を二分木に構築...

OpenAIは、歪んだ見解なしにAIが話すようにするために、わずか80のテキストを使用している

[[405587]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

人間が作成したデータは高価すぎます!開発者はAI合成データをひそかに使用してモデルをトレーニングしている

現在、開発者は AI によって生成されたデータをひそかに使用して AI モデルをトレーニングしていま...

世界初の人工知能地震監視システムが始動:1秒以内に正確な推定

最近、中国科学技術大学の研究チームは中国地震局と協力し、世界初の人工知能地震監視システム「スマート地...

...

...

春の耕作が進むにつれ、農業ロボットが近代的な農業システムの形成に貢献している

春の耕作シーズンとなり、全国各地で春耕作が行われています。農業農村部の最新データによると、国内の春穀...

ChatGPT: 機械学習とディープラーニングを簡単かつ楽しく

ディープラーニングと機械学習は、今日のテクノロジーのホットな話題ですが、初心者にとっては少し複雑で難...

...

ジェネレーティブAIがインテリジェントオートメーションを推進する方法

1997 年、世界は現チェスチャンピオンのガルリ・カスパロフと IBM の Deep Blue AI...

TensorFlowはディープラーニングに基づく画像補完を実装する

[[191845]]目次■ はじめに■ ステップ1: 画像を確率分布のサンプルとして理解する不足して...