ついに誰かが様々なStyleGANの大きな概要を作成した

[[435127]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

StyleGAN は、さまざまな画像処理および編集タスクで驚くほど優れたパフォーマンスを発揮します。

しかし、システムを変更して同じ仕事をするために再トレーニングするのは面倒です。

最後に、誰かが詳しく調べて次のことを発見しました。

実際、事前トレーニングと潜在空間のちょっとした操作だけで、StyleGAN はパノラマ生成、単一画像からの生成、特徴補間、画像間の変換など、さまざまなタスクを直接実行できます。

さらに驚くべきことは、これらの「タスク」におけるパフォーマンスが、どの SOTA プレーヤーよりも劣っていないことです。

著者はこの機会を利用して包括的な要約を作成し、論文を執筆しました。関連する議論は Reddit で直接700 回以上閲覧されました。

ネットユーザーたちは「この要約は本当にすごい！」と叫んだ。

必要なもの: 事前トレーニング + ちょっとした空間操作

方法は非常に簡単です。一つずつ見ていきましょう。

前提: fi∈RB×C×H×W は StyleGAN の i 番目の層の中間特徴を表します。

1. 空間操作により直感的でリアルな画像を実現

StyleGAN は完全に畳み込み型であるため、fi の空間次元を調整して、出力画像に対応する空間変化を誘発することができます。

シンプルな空間操作 (パディングやサイズ変更など) を使用すると、より直感的でリアルな画像を生成できます。

たとえば、次の図では、茂みや木を複製して背景を拡大していますが、これにより、テクスチャのぼやけなどのアーティファクトが発生する元のサイズ変更と比較して、フィーチャ空間でよりリアルなテクスチャを維持できます。

2. 特徴補間

StyleGAN中間層のコラージュは画像情報の混合を実現できますが、つなぎ合わせる2つの画像があまりにも異なる場合には効果が良くないことが多いです。

ただし、特徴補間を使用すると問題はありません。

具体的な操作方法：StyleGANの各レイヤーでは、異なる潜在ノイズを使用してfAiとfBiを生成します。次に、次の式を使用して 2 つをスムーズに混合し、同じ操作のために次の畳み込み層に渡します。

ここで、α∈[0, 1]B×C×H×Wはマスクであり、水平混合に使用すると、マスクは左から右に向かって増加します。

対応するモデルとの定性的および定量的比較:

この特徴補間法では 2 つの画像をシームレスにブレンドできますが、Suzuki らの結果では明らかなアーティファクトが発生します。

ユーザー調査でも、87.6% が Suzuki らの方法と比較してこの方法を好みました。

ユーザー調査には 40 人が参加し、各人は異なる方法で 25 組の画像を比較する必要がありました。

3. 1枚の画像から生成する

異なる画像間の特徴を補間するだけでなく、単一の画像内でも適用できます。

仕組み: 一部のフィーチャレイヤーで、関連するパッチを選択し、他の領域とブレンドして空間的に複製します。シフト演算子 Shift (·) を使用します。

これは SinGAN と同じ機能ですが、SinGAN ではサンプリングが行われるのに対し、この方法では特徴補間のためのパッチを手動で選択するだけで済みます。

SinGANとの定性的および定量的比較:

この方法で生成される画像はより多様でリアルです。SinGAN は教会の構造を「意味のある」方法で変更できず、雲や風景のリアルさも劣ります。

ユーザー調査では、83.3% の人がこの方法で生成された新しい画像を好みました。

4. GAN反転の改善

GAN 反転の目的は、W+ 空間でスタイルコードを見つけ、それを通じて特定のターゲットイメージに類似したイメージを合成することです。

Wulff らのモデルでは、単純な非線形変換の下で、W+ 空間をガウス分布を使用してモデル化できると想定しています。しかし、属性転送設定では、ソース画像と参照画像を反転する必要があり、満足のいくものではありません。

最近の研究では、σ を使用した顔操作の方が W+ を使用した場合よりもパフォーマンスが優れていることが示されています。

しかし著者らは、変換なしのσ空間もガウス分布としてモデル化できることを発見した。

同じガウス事前分布が、 GAN 反転中ではなく、この空間に適用されます。

効果比較:

この方法により、画像の再構成と編集性が大幅に向上します。

5. 画像から画像への翻訳

σ 空間の上部部分の効果を利用して、著者らは、画像間の変換中に σ を生成するアフィン変換レイヤーを固定することを提案しています。この単純な変更により、画像変換のセマンティクスをより適切に保持できます (下の図 d の口の形に注目してください)。

さらに、著者らは次のことを発見しました。

（１）すべての空間次元において定数αを用いて連続的な並進運動を行うことができる。
（２）特徴補間を行う領域を選択して局所画像変換を行う。
（３）改良されたGAN反転技術を使用して、実際の顔の顔編集と変換を実行します。

これにより、より良い結果が得られます。

6. パノラマ生成

作者は、図に示すように、2 つの画像の混合 (スパン) を「織り合わせる」ことでパノラマを生成します。

このプロセスを繰り返すことで、任意の長さのパノラマ画像を生成できます。

さらに、この方法は、一度に 2 つの画像を混合することに限定されず、水平方向のみの生成にも限定されません。

例:

7. 属性転送

任意の人間のポーズの画像の属性転送における特徴補間を改善するために、著者らはソース画像と参照画像の間でポーズの位置合わせ、具体的には W+ 空間スタイルコードの最初の 2048 次元の位置合わせを実行することを選択しました。

次に、特徴補間を適用して、選択した特徴をソースイメージからターゲットイメージに転送できます。

既存の方法と比較して：

Collins らの方法では、詳細属性が正確に転送されず、Suzuki らによって生成された画像は、ポーズが一致しない場合には十分に現実的ではありません。

そして著者のアプローチは正確かつ本物です。

現実感と正確さに基づいたユーザーの選択結果も、この方法の優位性をさらに証明しました。

ps. はっきりと異なる目を持つ顔の 2 つの半分をシームレスにブレンドするなど、任意の領域に転送を実行することもできます。

上記は、特定のアーキテクチャやトレーニングパラダイムを使用せずに、StyleGAN モデルの潜在空間でいくつかの操作と微調整を実行することで、他の画像処理タスクと同等以上のパフォーマンスを実現する具体的な方法です。

どう思いますか？他に追加したいことはありますか?

論文の宛先:
https://arxiv.org/abs/2111.01619

プロジェクトアドレス:
https://github.com/mchong6/SOAT

<<: IoTとAI：輸送管理の変革

>>: RELX: 回答者の95%がAI人材の採用は課題であると考えている

上位 10 の古典的なソートアルゴリズムの詳細な説明: バブルソート、選択ソート、挿入ソート

ついに誰かが様々なStyleGANの大きな概要を作成した

必要なもの: 事前トレーニング + ちょっとした空間操作

上位 10 の古典的なソートアルゴリズムの詳細な説明: バブルソート、選択ソート、挿入ソート

新しい近似注意メカニズム HyperAttention: 長いコンテキストに適しており、LLM 推論が 50% 高速化します

2018 年の AI にとって重要なマイルストーンは何でしたか? 2019年に何が起こるでしょうか?

「インテリジェント接続」を理解するにはこの記事で十分です！

タイムトラベルが現実になる？人間はワームホールを通じて「時空の端」に到達できるかもしれないし、量子AIは機械に意識を与えるだろう

人工知能がとても人気ですが、機械学習とディープラーニングの違いがわかりますか?

カリフォルニア工科大学、プロペラアームを使って滑空する二足歩行ロボットを開発

Tech Neo 3月号「人工知能とモバイル」が発売されました

推薦する

AI戦略について尋ねるべき10の質問

コミュニティオーナーの中には顔認識に抵抗する人もいる。「私が家にいないときは、すべて知っている」

Haiyun Jiexun の Ren Zhongping 氏: アイデアから実現まで、AI はわずか 10 クリックで実現します。

人工知能の登場で、自動化は恐怖に震えるべきでしょうか?

5G時代の到来により、携帯電話はどのように人工知能を取り入れることができるのでしょうか?

GitHub のスター数は 10 万近くに達しています。インド人男性がすべての AI アルゴリズムを Python と Java で実装しました。

調査によると、ヨーロッパ人はロボットに対してますます懐疑的になっている

企業における生成AIのセキュリティリスクを管理する方法

確かな情報です! AIテクノロジーアーキテクチャソリューションの実現可能性を判断するのに役立つ3つの重要な要素

NLP に革命を起こす 3 つの AI スタートアップ

企業がビジネスで人工知能をどのように活用しているか

TCP輻輳制御とGoogleのBBRアルゴリズムとは何か