顔合成効果はStyleGANに匹敵し、オートエンコーダである

オートエンコーダー (AE) と生成的敵対的ネットワーク (GAN) は、複雑な分布に対する教師なし学習のための最も有望な 2 つのアプローチであり、よく比較されます。一般的に、画像生成におけるオートエンコーダの適用範囲は GAN よりも狭いと考えられています。では、オートエンコーダは GAN と同じ生成機能を持つことができるのでしょうか?この研究で提案された新しいオートエンコーダ ALAE がその答えを提供します。現在、この論文はCVPR 2020カンファレンスに採択されています。

論文アドレス: https://arxiv.org/pdf/2004.04467.pdf
GitHub アドレス: https://github.com/podgorskiy/ALAE

オートエンコーダは、エンコーダージェネレーターグラフを同時に学習することで、生成的側面と表現的側面を組み合わせた教師なしアプローチです。オートエンコーダに関して未回答の質問が 2 つあります。

オートエンコーダーには GAN と同じ生成機能がありますか?
オートエンコーダは分離した表現を学習できますか?

最近、米国ウェストバージニア大学の研究者らは、上記の問題を解決するために、新しいタイプのオートエンコーダーである敵対的潜在オートエンコーダー (ALAE) を提案しました。 ALAE は、GAN トレーニングの最近の改善を活用した一般的なアーキテクチャです。研究者らは、ALAE は GAN に匹敵する生成能力を持ち、分離した表現を学習できると述べている。

この研究では、ALAE の一般的なアーキテクチャを使用して、MLP エンコーダーに基づくオートエンコーダー 1 つと StyleGAN ジェネレーターに基づくオートエンコーダー (StyleALAE) の 2 つを設計しました。

研究者らは、2 つのアーキテクチャの分離機能を検証し、StyleALAE は StyleGAN が生成したものと同等の品質の 1024x1024 の顔画像を生成できるだけでなく、同じ解像度の実際の画像に基づいて顔の再構築と操作の結果も生成できることを発見しました。

研究者たちは、ALAE がジェネレーターアーキテクチャと同等かそれ以上の性能を持つ最初のオートエンコーダーであると考えています。

ALAE はどれくらい効果的ですか?表示図を見てみましょう。

StyleALAE のスタイルブレンディング効果。

興味のある読者は自分でデモを実行できますが、CUDA 対応 GPU、PyTorch v1.3.1 以上、cuda/cuDNN ドライバーが必要です。詳細については、GitHub アドレスを参照してください。

新しいユニバーサルオートエンコーダALAE

研究者たちは、各 AE 手法が同じ仮定を使用していることを観察しました。つまり、潜在空間の確率分布は事前分布と関連しており、オートエンコーダはそれに一致している必要があるということです。 StyleGAN 関連の論文では、中間潜在空間にはより優れた分離機能が必要であることが証明されています。

そこで研究者たちは、オリジナルのGANパラダイムを修正して新しいAEアーキテクチャを設計しました。

これにより、データから学習した潜在分布に基づいて結合問題を解決し (A)、敵対的戦略を使用して出力データ分布を学習し (B)、GAN の生成能力を維持できます。 (A) と (B) を実現するために、本研究では、データ空間で動作する単純な l_2 ノルムベースの再構成損失の使用を回避するために、潜在空間 (C) に AE 相互性を配置することを提案しています (これらは通常、画像空間では最適ではない選択です)。

下の図 1 に示すように、研究者はジェネレータ G と識別器 D をそれぞれ F、G と E、D の 2 つのネットワークに分解しました。

図 1: ALAE アーキテクチャ。

さらに、研究者らは、以下の表に示すように、ALAE と他のオートエンコーダーとの関係も示しました。

スタイルALAE

研究者らは ALAE を使用して、StyleGAN に基づくジェネレーターを使用するオートエンコーダーを構築しました。具体的なアーキテクチャは以下の図 2 に示されています。

図 2: StyleALAE アーキテクチャ。 StyleALAE エンコーダーのインスタンス正規化 (IN) レイヤーは、マルチスケールスタイル情報を抽出し、学習可能なマルチリニアマップを通じてそれらを潜在コード w に結合するために使用されます。

成し遂げる

ALAE のアルゴリズムトレーニングプロセスを次の図に示します。

ALAE はどれくらい効果的ですか?

この研究では、複数のデータセットで ALAE のパフォーマンスを評価しました。実験コードとデータは GitHub アドレスにあります。

MNIST でのパフォーマンス

研究者らは、MNIST データセットを使用して ALAE をトレーニングし、特徴表現を使用して分類、再構築、分析の分離機能のタスクを実行しました。

表 2: MNIST 分類タスクにおけるさまざまな方法のパフォーマンス。

図3: MNIST再構築結果。

StyleALAEはスタイル表現の能力を学習します

研究者らは、FFHQ、LSUN、CelebA-HQデータセットにおけるStyleALAEのパフォーマンスを評価しました。

表 3: FFHQ および LSUN データセットにおけるさまざまな手法の FID スコア。

表 4: さまざまな方法の知覚パス長 (PPL)。表現の分離の程度を示します。

図5: FFHQ再構築結果。 StyleALAE 1024×1024 未公開画像の再構築結果。

図6: StyleALAEのFFHQ生成結果（解像度1024×1024）。

図 9: StyleALAE のスタイル混合効果。「粗いスタイル」は、ソース画像からポーズ、一般的な髪型、顔の形などの高レベルの特徴をコピーし、宛先画像からすべての色 (目の色、髪の色、照明) をコピーします。「中程度のスタイル」は、ソース画像から髪型、目の開閉などのより小さな顔の特徴をコピーし、宛先画像から顔の形をコピーします。「細かいスタイル」は、ソース画像から色と微細構造をコピーします。

図 8: CelebA-HQ データセットにおけるさまざまな方法による再構築結果。 1 行目は実際の画像、2 行目: StyleALAE、3 行目: Balanced PIONEER、4 行目: PIONEER。

図からわかるように、StyleALAE で生成された結果はより鮮明で、歪みが最も少なくなっています。

<<: 専門家が最もよく使う機械学習ツール 15 選

>>: 専門家が使用する 15 個の機械学習ツール