偽の顔を正確に生成します! Amazonの新しいGANモデルは死角のないオールラウンドな美しさを提供します

偽の顔を正確に生成します! Amazonの新しいGANモデルは死角のないオールラウンドな美しさを提供します

最近、Amazon One の研究者は、生成された画像を明示的に制御できる GAN をトレーニングするためのフレームワークを提案しました。このフレームワークは、年齢、ポーズ、表情などの正確な属性を設定することで、生成される画像を制御できます。

Amazon One チームは最近、生成された画像の属性を明示的に制御できる GAN トレーニング フレームワークを提案しました。このフレームワークでは、年齢、姿勢、表情などの正確な属性を設定することで、生成された画像を制御できます。

この論文はarxivで公開されており、Google Driveに対応する補足説明があります。

GAN で生成された画像を編集する現在のアプローチのほとんどは、標準的な GAN トレーニング後に暗黙的に獲得される潜在空間分解特性を利用することで部分的な制御を実現します。このメソッドは、特定のプロパティの相対的な強度を変更することはできますが、その値を明示的に設定することはできません。

最近提案された方法は、変形可能な 3D 顔モデルを使用して顔の属性を明示的かつ正確に制御し、GAN でのきめ細かい制御機能を実現するように設計されています。

これまでの方法とは異なり、この制御は変形可能な 3D 顔モデル パラメータに制限されず、人間の顔の領域を超えて拡張できます。

対照学習を使用して、明示的に因数分解された潜在空間を持つ GAN を取得します。この分解は、人間が解釈可能な入力を適切な潜在ベクトルにマッピングし、明示的な制御を可能にする制御エンコーダーをトレーニングするために使用されます。

研究者らは、顔の領域で、身元、年齢、姿勢、表情、髪の色、照明の制御を実証しました。また、肖像画と犬の画像生成領域でフレームワークの制御機能を実証し、新しい方法が質的にも量的にも SOTA を達成できることを証明しました。

最初の段階では、各バッチの各属性は、対応するサブベクトルを共有する潜在ベクトルのペアを使用して構築されます。 敵対的損失に加えて、バッチ内の各画像は、サブベクトルが同じか異なるかを考慮して、属性ごとに対照的に他のすべての画像と比較されます。

第 2 段階では、解釈可能なパラメータを適切な潜在ベクトルにマッピングするようにエンコーダーがトレーニングされます。

推論中、k 番目のエンコーダ入力を目的の値に設定することによって、属性 k の明示的な制御が実現されます。

照明、角度、表現を明示的に制御:

研究者らは ArcFace を使用して、ID 属性を共有する画像と、ポーズ、照明、表情の属性が異なる画像の 10,000 組を生成することで、生成された画像の埋め込みベクトルを抽出しました。

髪の色と年齢コントロールへの効果:

モデルが出力を明確に制御していることを確認するために、研究者は制御の精度を比較しました。 FFHQ から 10,000 枚の画像がランダムに選択され、その属性が予測されて、実際の画像に表示される実行可能な属性のプールが生成されます。

他のプロパティを変更せずに絵画の芸術的なスタイルを変更することも可能です。

ペットを飼うのが好きな人のために、生成された犬の画像のいくつかのプロパティを明示的に制御することもできます。

同時に、1 つのプロパティを変更できるだけでなく、複数のプロパティ値を同時に制御することもできます。

Amazon Oneの制御可能なGANモデルを試してみて、現状の美容ツールはすでに非常に使いやすく、今後もさらに素晴らしい機能が追加されそうな気がしました。

<<:  新素材の画期的な進歩、AIの医療への参入…2021年はどんな新しい技術トレンドを迎えるのでしょうか?

>>:  市場規模は100億元を超える可能性あり。これら4種類の医療用ロボットをご存知ですか?

ブログ    
ブログ    
ブログ    

推薦する

顔認識を禁止した後、サンフランシスコは検察官の事件処理を支援するためにAIを活用

最近、海外メディアの報道によると、サンフランシスコ市は7月1日に導入予定の「偏見削減ツール」を発表し...

認知的ブレークスルー II: 人工知能の時代に私たちが経験している社会的、文化的変化

人類はアフリカでホモ・サピエンスとして誕生して以来、約50万年にわたる進化の過程を経てきました。人類...

Metaは、パラメータを積み重ねたり、トレーニング時間に依存したりすることなくViTトレーニングプロセスを加速し、スループットを4倍に増加させます。

現在、ビジュアルトランスフォーマー(ViT)モデルは、画像分類、オブジェクト検出、セグメンテーション...

...

DeepSpeed ZeRO++: ネットワーク通信を4倍削減し、大規模モデルやChatGPTのようなモデルのトレーニング効率を大幅に向上

大規模な AI モデルがデジタルの世界を変えています。大規模言語モデル (LLM) に基づく Tur...

Testin Cloud TestingがHuawei Hongmeng HarmonyOSイノベーションソリューションチーム賞を受賞

9月10日、ファーウェイHarmonyOSテクノロジーコミュニティの年間優秀共同構築パートナー選定結...

AIはデザインにおいて具体的にどのように使用されるのでしょうか?

人工知能は、過去数十年で最も大きな技術進歩の一つになりました。可能性は刺激的で無限であり、さまざまな...

...

アルゴリズムを使って従業員を解雇する人工知能は、労働者の新たなリーダーになったのだろうか?

最近、外国メディアのゲームワールドオブザーバーは、ロシアのオンライン決済サービス企業エクソラがアルゴ...

...

本物と見間違えるほどリアルなAI変顔技術は本当に完璧なのか?

囲碁界の無敵の「アルファ碁」から、どこにでもある「顔認識」まで、機械学習は人々の生活に驚異的な変化を...

人工知能を活用する準備はできていますか?

[[349302]]今日、職場での学習は課題に直面しています。高度な分析、人工知能、ロボットが職場...

権限の取得方法についての簡単な説明: ファイルのアップロード

概要ファイルアップロードの脆弱性は、アップロード機能を持つアプリケーションで発生します。アプリケーシ...

世界モデルが大きな貢献を果たしました! 20以上の自動運転シナリオの偽データがリアルすぎる…

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

データセンターで自動化できない 5 つのこと

データセンター内外を問わず、自動化に境界はないと考えるのは簡単です。 AI がデータ センターの運用...