顔を自由に編集！ Adobe が新世代の GAN アーティファクトを発表: 最大 35 の顔属性の変更をサポート

画像合成における重要な問題は、画像内のエンタングルメント問題です。

たとえば、人物の顔にあるすべてのひげを自動的に削除したり、ひげを完璧に貼り付けたりすると、ひげと顔の間に何らかの絡み合いがあるため、結果として得られる画像は多かれ少なかれ矛盾したものになります。

さらに、異なるオブジェクトを合成したり削除したりする難しさも異なります。

人生からいくつかの例を挙げれば、簡単に理解できます。牛肉麺からコリアンダーを取り除くのは、牛肉を取り除くよりもはるかに困難です。コーヒーから砂糖をすべて取り除くのは、ほぼ不可能な作業です。

いくつかのものは自然にまとめられており、新しい画像を完璧に作成して合成するには、機械学習モデルがさまざまなオブジェクトを作成し、できれば異なる機能や概念を分離することを学習できる必要があります。

モデルが年齢、性別、髪の色、肌の色、感情などを分離できれば、フレームワーク内でこれらのコンポーネントを自由に変更し、生成された画像をより柔軟に制御し、顔などの画像をより詳細なレベルで作成および編集し、画像の絡み合いを完全に回避できます。

すべてのエンティティの最大のエンタングルメントの場合、モデルがレディー・ガガの写真を識別するなど、画像は実際に分類タスクを実行しています。

中程度のエンタングルメントの場合、モデルは写真をさらに分解して、彼女がブロンドの髪をしていて、笑顔の表情をしているなどを発見できます。その後、GAN モデルはこの情報に基づいて写真を修正し、新しい画像を生成できます。

完全に分離した状態では、モデルは年齢、笑顔の度合いなどの特徴をさらに識別できます。

過去数年間、スライダーやその他の従来のユーザーインターフェイス操作を使用して、対象の顔のコア機能を変更せずに顔の特徴を追加または変更できるインタラクティブな顔編集モデルを作成する試みが数多く行われてきました。

しかし、GAN 潜在空間における潜在的な特徴とスタイルの絡み合いにより、顔の特徴を任意に編集できるほど技術が成熟していません。

たとえば、眼鏡の特徴は高齢者の特徴と絡み合っていることが多く、高レベルの特徴がどれだけうまく分離されているかに応じて、眼鏡を追加すると顔も「老化」する可能性があり、顔を老化させたい場合、顔に眼鏡を追加する可能性もあります。

一番難しいのは、髪の色や髪型を変えることです。髪や顔のレイアウトを再計算せずにキャラクターの「髪を切る」ことはほぼ不可能です。

一度のトレーニングで、あなたの顔を思い通りに変える

最近、Adobe は WACV2022 カンファレンスで、これらの根本的な問題を解決するための新しいアプローチを示す新しい論文を発表しました。 StyleGAN で生成された画像で、アイデンティティを維持しながら多面的な顔属性を編集するための学習マッパー。

論文の宛先:

https://openaccess.thecvf.com/content/WACV2022/papers/Khodadadeh_Latent_to_Latent_A_Learned_Mapper_for_Identity_Preserving_Editing_WACV_2022_paper.pdf 翻訳：

この論文の主著者は、Adobe の応用科学者 Siavash Khodadadeh 氏で、他の Adobe 研究者 4 名とセントラルフロリダ大学コンピューターサイエンス学部の研究者 1 名が執筆しています。

この論文が興味深いのは、Adobe が以前から画像合成に取り組んでおり、それが Adobe 製品によく適合し、この機能が今後数年で Adobe Creative Suite プロジェクトにパッケージ化される可能性が高いからです。しかし、主な理由は、このプロジェクトに提案されているアーキテクチャが、GAN 顔エディターの視覚的な整合性を維持しながら変更を適用するための異なるアプローチを採用している点です。

著者らは、属性が変化した画像に対応する潜在コードを見つけ、潜在意識から潜在意識への翻訳を実行するようにニューラルネットワークを訓練したと主張している。この技術はワンショットであるため、特性が徐々に変化する線形または非線形の軌跡に依存しません。

生成パイプライン全体にわたってネットワークをエンドツーエンドでトレーニングすることにより、システムは既存のジェネレーターアーキテクチャの潜在空間を適応させ、トレーニング損失でエンコードできる人物 ID などのプロパティを保持できるようになります。

潜在的ネットワークがトレーニングされると、微調整なしで任意の画像入力に使用できるようになります。

この機能は、記事で提案されたアーキテクチャがモデルを一度にユーザー端末に展開できることも意味しますが、ニューラルネットワークを実行するには依然としてローカルリソースが必要ですが、新しい画像をモデルに直接投入して自由に変更できます。フレームワークは分離されているため、画像固有のトレーニングをさらに行う必要はありません。

この研究の主な成果の 1 つは、ネットワークがターゲットベクトルの属性のみを変更するだけで、潜在空間内の ID 機能を「固定」できることです。

本質的に、ネットワークは、変換に望ましくない横方向の影響をもたらさない固定重みを持つ事前トレーニング済みコンポーネントを通じてすべての処理要素を調整する、より一般的なアーキテクチャに組み込まれています。

トレーニングプロセスは、シードイメージ (GAN 反転) または既存の初期潜在コードから生成できるトリプレットに依存するため、トレーニングプロセス全体が教師なしとなり、このようなシステムで慣例となっている一連のラベルとキュレーションシステムを効果的に処理できます。このシステムでは、既製の属性回帰器を使用します。

著者らは論文の中で、ネットワークが独立して制御できる属性の数は、認識装置の機能によってのみ制限されると述べています。属性の認識装置があれば、どの顔にもその属性を追加できます。研究者らは実験で、これまでのどのアプローチよりも多くの 35 種類の顔の属性に適応できる潜在的ネットワークを直接トレーニングしました。

システムには、変換による望ましくない「副作用」を防ぐための追加の安全策も組み込まれています。必要な属性の変更がない場合、潜在対潜在ネットワークは潜在ベクトルをそれ自体に投影し、ターゲット ID の安定性と持続性をさらに高めます。

過去数年間、GAN およびエンコーダー/デコーダーベースの顔エディターで繰り返し発生しているもう 1 つの問題は、使用される変換方法によって顔の類似性が低下する傾向があることです。

この問題を解決するために、Adobe プロジェクトでは、FaceNet と呼ばれる組み込みの顔認識ネットワークを識別器として使用し、標準的な顔認識システムや表情認識システムさえも生成ネットワークに統合することができます。

このフレームワークのもう 1 つの重要な機能は、潜在空間で任意の変換を実行できることです。 GAN の空間認識を向上させることで、潜在的な遷移ポイントの範囲内で画像の変更を実行できますが、EQGAN などのモデルは、異なるマテリアルやテクスチャの変更に直面したときに再トレーニングする必要があります。

まったく新しいユーザー画像を受け入れるだけでなく、ユーザーは変換プロセス中に保持したい要素を手動で「フリーズ」することもできます。このようにして、ユーザーは背景などの無関係な要素が変更されないようにすることができます。

属性回帰ネットワークは、FFHQ、CelebAMask-HQ、StyleGAN-V2のZ空間から40万個のベクトルをサンプリングして生成されたローカルGANネットワークの3つのネットワークで構成されています。

分布外 (OOD) 画像は除外され、Microsoft の Face API を使用して属性が抽出され、結果の画像セットは 90/10 に分割され、比較用に 720,000 枚のトレーニング画像と 72,000 枚のテスト画像が残りました。

実験ネットワークの初期構成は 35 個の潜在的な変換に対応できますが、同様のフレームワーク InterFaceGAN、GANSpace、StyleFlow で同様のテストを行うために、変換の数は、年齢、はげ、あごひげ、表情、性別、眼鏡、ピッチ、ヨーの 8 個に簡略化されました。

実験結果は予想と一致し、画像合成により、他の競合モデルアーキテクチャよりも高いレベルのエンタングルメントが得られました。たとえば、あるテストでは、ユーザーがキャラクターの年齢を変更するように要求すると、InterFaceGAN と StyleFlow は対象の性別さえ変更しました。

最終的な定量的な実験結果から、Yaw (ヘッドアングル) 実験を除いて、Latent-to-Latent 効果は理想的ではなく、他の 7 つの属性のパフォーマンスは基本的に sota シーケンスになっていることがわかります。 GANSpace は、年齢やメガネの変化に応じてパフォーマンスが向上します。

<<: 緩い時代は終わった：米国の自動運転規制環境は静かに厳格化している

>>: 炭素クレジット監査における人工知能の応用