顔合成効果はStyleGANに匹敵し、オートエンコーダである

顔合成効果はStyleGANに匹敵し、オートエンコーダである

オートエンコーダー (AE) と生成的敵対的ネットワーク (GAN) は、複雑な分布に対する教師なし学習のための最も有望な 2 つのアプローチであり、よく比較されます。一般的に、画像生成におけるオートエンコーダの適用範囲は GAN よりも狭いと考えられています。では、オートエンコーダは GAN と同じ生成機能を持つことができるのでしょうか?この研究で提案された新しいオートエンコーダ ALAE がその答えを提供します。現在、この論文はCVPR 2020カンファレンスに採択されています。

  • 論文アドレス: https://arxiv.org/pdf/2004.04467.pdf
  • GitHub アドレス: https://github.com/podgorskiy/ALAE

オートエンコーダは、エンコーダージェネレーターグラフを同時に学習することで、生成的側面と表現的側面を組み合わせた教師なしアプローチです。オートエンコーダに関して未回答の質問が 2 つあります。

  • オートエンコーダーには GAN と同じ生成機能がありますか?
  • オートエンコーダは分離した表現を学習できますか?

最近、米国ウェストバージニア大学の研究者らは、上記の問題を解決するために、新しいタイプのオートエンコーダーである敵対的潜在オートエンコーダー (ALAE) を提案しました。 ALAE は、GAN トレーニングの最近の改善を活用した一般的なアーキテクチャです。研究者らは、ALAE は GAN に匹敵する生成能力を持ち、分離した表現を学習できると述べている。

この研究では、ALAE の一般的なアーキテクチャを使用して、MLP エンコーダーに基づくオートエンコーダー 1 つと StyleGAN ジェネレーターに基づくオートエンコーダー (StyleALAE) の 2 つを設計しました。

研究者らは、2 つのアーキテクチャの分離機能を検証し、StyleALAE は StyleGAN が生成したものと同等の品質の 1024x1024 の顔画像を生成できるだけでなく、同じ解像度の実際の画像に基づいて顔の再構築と操作の結果も生成できることを発見しました。

研究者たちは、ALAE がジェネレーター アーキテクチャと同等かそれ以上の性能を持つ最初のオートエンコーダーであると考えています。

ALAE はどれくらい効果的ですか?表示図を見てみましょう。

StyleALAE のスタイルブレンディング効果。

興味のある読者は自分でデモを実行できますが、CUDA 対応 GPU、PyTorch v1.3.1 以上、cuda/cuDNN ドライバーが必要です。詳細については、GitHub アドレスを参照してください。

新しいユニバーサルオートエンコーダALAE

研究者たちは、各 AE 手法が同じ仮定を使用していることを観察しました。つまり、潜在空間の確率分布は事前分布と関連しており、オートエンコーダはそれに一致している必要があるということです。 StyleGAN 関連の論文では、中間潜在空間にはより優れた分離機能が必要であることが証明されています。

そこで研究者たちは、オリジナルのGANパラダイムを修正して新しいAEアーキテクチャを設計しました。

これにより、データから学習した潜在分布に基づいて結合問題を解決し (A)、敵対的戦略を使用して出力データ分布を学習し (B)、GAN の生成能力を維持できます。 (A) と (B) を実現するために、本研究では、データ空間で動作する単純な l_2 ノルムベースの再構成損失の使用を回避するために、潜在空間 (C) に AE 相互性を配置することを提案しています (これらは通常、画像空間では最適ではない選択です)。

下の図 1 に示すように、研究者はジェネレータ G と識別器 D をそれぞれ F、G と E、D の 2 つのネットワークに分解しました。

図 1: ALAE アーキテクチャ。

さらに、研究者らは、以下の表に示すように、ALAE と他のオートエンコーダーとの関係も示しました。

スタイルALAE

研究者らは ALAE を使用して、StyleGAN に基づくジェネレーターを使用するオートエンコーダーを構築しました。具体的なアーキテクチャは以下の図 2 に示されています。

図 2: StyleALAE アーキテクチャ。 StyleALAE エンコーダーのインスタンス正規化 (IN) レイヤーは、マルチスケール スタイル情報を抽出し、学習可能なマルチリニア マップを通じてそれらを潜在コード w に結合するために使用されます。

成し遂げる

ALAE のアルゴリズムトレーニングプロセスを次の図に示します。

ALAE はどれくらい効果的ですか?

この研究では、複数のデータセットで ALAE のパフォーマンスを評価しました。実験コードとデータは GitHub アドレスにあります。

MNIST でのパフォーマンス

研究者らは、MNIST データセットを使用して ALAE をトレーニングし、特徴表現を使用して分類、再構築、分析の分離機能のタスクを実行しました。

表 2: MNIST 分類タスクにおけるさまざまな方法のパフォーマンス。

図3: MNIST再構築結果。

StyleALAEはスタイル表現の能力を学習します

研究者らは、FFHQ、LSUN、CelebA-HQデータセットにおけるStyleALAEのパフォーマンスを評価しました。

表 3: FFHQ および LSUN データセットにおけるさまざまな手法の FID スコア。

表 4: さまざまな方法の知覚パス長 (PPL)。表現の分離の程度を示します。

図5: FFHQ再構築結果。 StyleALAE 1024×1024 未公開画像の再構築結果。

図6: StyleALAEのFFHQ生成結果(解像度1024×1024)。

図 9: StyleALAE のスタイル混合効果。 「粗いスタイル」は、ソース画像からポーズ、一般的な髪型、顔の形などの高レベルの特徴をコピーし、宛先画像からすべての色 (目の色、髪の色、照明) をコピーします。「中程度のスタイル」は、ソース画像から髪型、目の開閉などのより小さな顔の特徴をコピーし、宛先画像から顔の形をコピーします。「細かいスタイル」は、ソース画像から色と微細構造をコピーします。

図 8: CelebA-HQ データセットにおけるさまざまな方法による再構築結果。 1 行目は実際の画像、2 行目: StyleALAE、3 行目: Balanced PIONEER、4 行目: PIONEER。

図からわかるように、StyleALAE で生成された結果はより鮮明で、歪みが最も少なくなっています。

<<:  専門家が最もよく使う機械学習ツール 15 選

>>:  専門家が使用する 15 個の機械学習ツール

ブログ    
ブログ    

推薦する

スマートコミュニティはどれくらい「スマート」なのでしょうか?知能の背後にある技術的応用を解釈する

モノのインターネット技術の発展と普及に伴い、WIFi、GPRS、LoRaWANなどの通信プロトコルが...

我が国の5G基地局は718,000台に達し、人工知能の発展を促進

2020年中国人工知能サミットフォーラム及び中国人工知能競技会結果発表会が23日、厦門で開催された。...

PyTorch を使用した Mixture of Experts (MoE) モデルの実装

Mixtral 8x7B の発売は、オープン AI の分野、特に Mixture-of-Expert...

イスラエルの企業が従業員の病気偽装を見分けるAIツールを開発

[[417923]]イギリスのデイリーメール紙によると、イスラエルのテクノロジー企業ビナーは最近、企...

...

Nvidia テルアビブ AI サミットが中止に!黄氏の社内メールが明らかに:Nvidiaの従業員も誘拐された

少し前、25歳の中国系イスラエル人少女、ノア・アルガマニの誘拐事件がネットユーザーの間で白熱した議論...

Langogo 2019 東京カンファレンス: 4 つの新製品が衝撃的なデビューを飾り、メディア界で話題に

(2019年11月21日、東京)Langogoは現地時間午前11時に神田明神文化交流センターで201...

現実世界の複雑な課題を解決するための LLM+模倣学習: AI2 が SwiftSage を提案

GPT-4 などの大規模言語モデル (LLM) は多くの推論タスクで優れたパフォーマンスを発揮します...

SelfOcc: 純粋な視覚に基づく初の自己教師あり 3D 占有予測 (清華大学)

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

MIT、悪意のあるAI編集から画像を保護する「PhotoGuard」技術を開発

7月25日、AIベースのディープフェイク技術が進化を続ける中、人間が肉眼で「どのコンテンツがAIによ...

画像認識がより正確になりました!楊有氏のチームの最新研究:新しい適応型コンピューティングモデル「AdaTape」

適応型計算とは、環境の変化に応じて ML システムの動作を調整する能力を指します。従来のニューラル ...

ソラ爆発的人気の裏側|世界のモデルとは何かを語ろう!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

AI監視の影響について知っておくべき3つのこと

IDC によると、世界のデータ量は 2018 年の 33ZB から 2025 年には 175ZB に...

新たなAIスタントがあなたの人生と私の人生への影響を加速させる

現在「ホットスポットの中のホットスポット」として、人工知能は絶大な人気を誇っています。モバイルインタ...

Omdia: 2024 年に注目すべき主要な AI トレンド

生成型 AI が人間と機械のコミュニケーション方法を変えるため、今年は人工知能にとって極めて重要な年...