テルアビブ大学は、SOTAメソッドとアーキテクチャの新たな進歩を完全に理解するためにStyleGANを要約しました。

GAN の高解像度画像を生成する能力は、画像合成および処理の分野に革命をもたらしています。 2019年にKarrasらが提案したStyleGANは、画像合成の最前線に到達し、最も先進的な高品質画像ジェネレーターとして認知されています。まずStyleGANの合成効果を見てみましょう。

StyleGAN は教師なし学習ですが、その潜在空間は驚くほどパフォーマンスに優れています。 StyleGAN は線形潜在アルゴリズムをサポートしていても、非常に優れたパフォーマンスを発揮することがわかりました。たとえば、年齢を表すベクトルを潜在コードのセットに追加して、画像内の人物を高齢で見せることをサポートします。この研究では、StyleGAN は潜在空間を線形に配置するだけでなく、横断方向によって特定の画像属性のみが変更され、他の属性には影響が及ばないような、解きほぐされた方法で配置できることが示されました。これらのプロパティには、グローバルでドメインに依存しない側面（視点など）だけでなく、人の顔の表情や性別、車の色、犬の品種など、ドメイン固有のプロパティも含まれます（図 1 および 2 を参照）。

この記事では、テルアビブ大学の研究者数名が、StyleGAN の現在の成功について説明し、その重大な欠陥を分析しています。この研究では、まずネットワークアーキテクチャ自体について説明し、StyleGAN が登場して以来、高度な生成モデルで果たしてきた役割を分析します。次に、この研究では StyleGAN をトレーニングするために必要なリソースについて説明し、これらのリソースの削減、再利用、リサイクルに関する研究をいくつか挙げています。

論文アドレス: https://arxiv.org/pdf/2202.14020.pdf

StyleGANのアーキテクチャ、手法、アプリケーションの最新情報

この論文は 8 つのセクションに分かれています。セクション 2 では、StyleGAN のアーキテクチャがどのように構築されているかを説明し、このアーキテクチャがなぜこのような最先端の新興技術につながったのか、また、特定のニーズを満たすためにアーキテクチャをどのように改善できるのかを理解しようとします。

セクション 3 では、StyleGAN の潜在空間について説明し、線形編集方向を見つけてそれを強力なセマンティック編集に使用する方法を示します。従来、GAN 全般、特に StyleGAN は、さまざまなスタイルの画像を簡単に生成するために使用できます。これらは、下流のトレーニングのためのデータ拡張の形式として使用できます (セクション 6 を参照)。しかし、研究により、GAN は潜在空間をスムーズに順序付ける傾向があることがわかっています。つまり、潜在空間内の近い領域は同様の画像を表します。

セクション4では主にStyleGANの反転について説明します。 StyleGAN ドメインで特定のリアルな画像を表現するために、研究者はさまざまなアプローチを提案してきましたが、それらはすべてジェネレーターのアーキテクチャを深く分析して活用しています。研究者の中には、潜在コードの最適化、データ駆動型推論の適用、適切な入力シードベクトルの探索などのさまざまなアプローチを提案している者もおり、推論パスの他のポイントで StyleGAN と相互作用し、ネットワークの表現力を大幅に向上させた研究もあります。 StyleGAN の潜在空間の良好な特性は、適切にサンプリングされた分布から遠い領域では減少します。これが実際に意味するのは、実際の画像の場合、再構成の品質 (または歪み) は編集可能性を犠牲にするということです。この再構築と編集可能性のトレードオフにおける異なる期待を見つけることが、このセクションの主な議論のポイントです。

画像を StyleGAN 潜在空間にエンコードすると、画像逆マッピング自体よりも多くの利点があります。多くのアプリケーションでは、エンコードされる画像は、目的の潜在コードが表す画像ではありません。このエンコーディングにより、さまざまな画像間変換方法が可能になります。第4章では、このような教師あり学習法と教師なし学習法を紹介し、議論します。

第 6 章では、StyleGAN の生成能力を実証し、解釈可能性、回帰、セグメンテーションなどのアプリケーションを含む、StyleGAN によって活用できる識別能力について説明します。

ほとんどの作品やアプリケーションでは、事前トレーニング済みの StyleGAN ジェネレーターは固定されたままです。ただし、第 7 章では、StyleGAN ジェネレーターを微調整し、その重みを変更してトレーニングドメイン (ドメイン内) とターゲットドメイン間のギャップを埋める最近の研究が紹介されています。各セクションは初心者と経験豊富な研究者の両方を対象としており、最も確立され有望な方法とその使用方法をまとめています。

以下では、論文のいくつかの章の内容を紹介します。

StyleGANアーキテクチャの開発

スタイルGAN1。スタイルベースのジェネレーターアーキテクチャ (略して StyleGAN) は、2019 年に Karras らによって最初に提案されました。 StyleGAN アーキテクチャの中核はスタイル変調レイヤーであり、StyleGAN の名前の由来となっています。これにより、高品質の画像データを生成し、高レベルの特徴を制御できるようになります。

スタイルGAN2。 StyleGAN が広く使用されるにつれて、アーティファクトの問題など、モデルに固有の欠点が露呈します。さらに、テクスチャ接着効果が観察され、歯や目など、生成された画像の特定の属性は、潜在空間補間によっても解決するのが難しい強い空間バイアスを示します。その後の研究で、Karras らはアーティファクトの原因を特定し、ネットワークを改善するためにアルゴリズムを再設計しました。StyleGAN2 は StyleGAN アーティファクトの問題に対処することに重点を置いており、より高品質の画像データを生成することができました。

スタイルGAN3。当初、StyleGAN2 はテクスチャの固着問題を解決したように見えました。しかし、研究者らは、慎重な分析を通じて、StyleGAN2 は口や目などの大規模なオブジェクトを解決できたものの、髪の毛やひげなどの細かい部分を調べる際にまだ問題があることを発見しました。この問題に対処するために、Karras らは、ネットワークの変換不変性を完全に回復することを目標に、空間情報が畳み込み演算に漏れる可能性のあるさまざまなソースを探しました。 StyleGAN3 [Karras et al. 2021]の新しいアーキテクチャは大幅な改善をもたらし、補間をよりスムーズにします。

StyleGAN3 は、生成された詳細を驚くほど制御します。StyleGAN2 の画像座標と特徴の付着の問題を根本的に解決し、真の画像変換、回転、その他の不変性を実現し、画像合成の品質を大幅に向上させます。

もちろん、モデルのトレーニングはデータと切り離せません。現代の機械学習における公然の秘密は、多くのモデルが標準ベンチマークでは優れたパフォーマンスを発揮するが、実験室の外では一般化できないということであり、StyleGAN も例外ではありません。 StyleGAN では、学習ドメインには厳密な構造が必要である一方、データドメインは凸型である必要があります。つまり、2 つのポイントごとに補間するための有効なサンプルが存在する必要があります。最近の研究では、Sauer らは、モデルをスケーリングすることでデータの課題を克服できることを実証しましたが、StyleGAN の独自の潜在空間特性がそのような変更を通じて持続するかどうかは未解決の問題のままです。将来的には、明示的なデータの問題に対処する研究、つまり、トレーニング中に例を削除または追加してデータランドスケープを平滑化したり、データのマルチモーダル性をより直接的に処理したり、より洗練された注意メカニズムをアーキテクチャに組み込んだりして、StyleGAN を他の種類のデータに適用しようとする研究がさらに増える可能性があります。

通常の GAN とは異なり、StyleGAN には複数の固有の潜在空間があります。さらに、StyleGAN の表現力を高めるために、図 6 に示すように、これらの空間の拡張がよく使用されます。

潜在空間編集

おそらく、GAN が学習する最も興味深い側面は、潜在空間が配置される方法です。従来、GAN 全般、特に StyleGAN は、さまざまな類似した画像を単純に生成するために使用できます。これらは、下流のトレーニングデータ拡張の形式として使用できます (セクション 6 を参照)。しかし、これまでの研究では、GAN は潜在空間を滑らかに配置する傾向があること、つまり潜在空間内の閉じた領域が類似した画像を描くことが示されています。

潜在空間を横断することで、望ましい意味の変化も得られることが判明しました。これらのバリエーションには、視点、照明条件、顔の表情、車の色、建物の幅などのドメイン固有の属性の変化が含まれます。もちろん、最も理想的な編集は、他のプロパティに影響を与えずに 1 つのプロパティを変更する分離編集です。このような強力な編集ツールの用途は、顔画像に笑顔を自動的に追加することから、インテリアデザインの検討、迅速な自動車デザインまで、無限です。

StyleGAN は、適切に構造化されたデータで最も効果的に機能し、そのようなデータでトレーニングすると、帰納的バイアスのみに基づいて、教師なしの方法で高度に分離した潜在空間を構築します。この研究では、編集の技術は多様であり、さまざまな分野から借用した創造的なアプローチを紹介しています。

アプリ

GAN、特に StyleGAN には強力な生成機能がありますが、GAN を使用してどのような非生成タスクを解決できるのか疑問に思う人もいるかもしれません。最も基本的な形式では、基本的に同じターゲット分布から再サンプリングされた大量の画像を生成できる GAN の機能は、下流のトレーニングタスクのデータの強化と拡張に使用できます。実際、初期の研究では、より多くのトレーニングデータを生成するための強化ツールとして GAN を使用することが提案されていました。

Chai らは、GAN の編集機能を活用して、テスト時に入力画像を拡張することで画像分類を行うアンサンブルアプローチを提案しました。入力は事前トレーニング済みのジェネレーターの潜在空間に投影され、スタイルミキシングなどの編集操作が適用されてさまざまなビューが生成されます。結果として得られた画像は分類ネットワークに送られ、モデルの最終的な予測はすべての画像に対するネットワークの予測の集計に基づいて行われます。複数のモデルからの予測を組み合わせて最終結果を生成する従来のディープラーニングのアンサンブルとは異なり、この方法では、同じ画像の異なるビューを使用し（画像のアイデンティティを維持しながら）、テスト時に画像に対する分類子の予測を統合することを提案しています。

StyleGAN の意味理解を新しい方法で活用するために、Peebles らは、高密度の視覚的配置のタスクに取り組むための新しいフレームワークを提案しました。図11cに示すように。両方の操作が視点に収束すると、STN を使用して実際の画像を位置合わせできます。

もう 1 つの重要な側面は、画像の編集されていない部分を歪ませないようにすることです。これは、元のアイデンティティを保持するとも呼ばれます。たとえば、笑っている顔を編集しても、髪型などの属性は変更されません。一部の研究では顔認識ネットワークを使用して身元を評価できる顔画像に焦点を当てています。

もう一つの問題は画質です。 StyleGAN の主な強みの 1 つは、高品質の視覚的結果であり、編集方法はこの効果を維持することを目指す必要があります。ただし、編集すると、編集されたデータと実際のデータの間に大きな偏差が生じ、評価が不正確になる可能性があります。可能であれば、分類器または回帰モデルを使用して、画像コレクションと特定の属性との関係のバランスをとることができます。 Zhu らは補間品質を評価する方法を提案しました。彼らは、補間された画像であっても、編集性が良好であれば StyleGAN の高品質が維持されるはずだと示唆しました。彼らは FID メトリックを使用しました。最後に、編集品質を評価するためにユーザー調査を利用した研究もあります。このアプローチは編集プロセスを深く理解するのに役立ちますが、多くのリソースを消費し、不必要な操作を受けやすくなります。今日まで、基盤となる業務の品質を評価するための広く受け入れられた指標は存在しません。

詳細については原論文をご覧ください。

<<: ヘルスケアにおける人工知能：現在と未来

>>: 言語モデルのパラメータは多ければ多いほど良いのでしょうか?ディープマインドは700億を使い、自社の2800億を上回り、「小さな」モデルを訓練し最適化した。