ついに誰かが様々なStyleGANの大きな概要を作成した

ついに誰かが様々なStyleGANの大きな概要を作成した

[[435127]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

StyleGAN は、さまざまな画像処理および編集タスクで驚くほど優れたパフォーマンスを発揮します。

しかし、システムを変更して同じ仕事をするために再トレーニングするのは面倒です。

最後に、誰かが詳しく調べて次のことを発見しました。

実際、事前トレーニングと潜在空間のちょっとした操作だけで、StyleGAN はパノラマ生成、単一画像からの生成、特徴補間、画像間の変換など、さまざまなタスクを直接実行できます。

さらに驚くべきことは、これらの「タスク」におけるパフォーマンスが、どの SOTA プレーヤーよりも劣っていないことです。

著者はこの機会を利用して包括的な要約を作成し、論文を執筆しました。関連する議論は Reddit で直接700 回以上閲覧されました。

ネットユーザーたちは「この要約は本当にすごい!」と叫んだ。

必要なもの: 事前トレーニング + ちょっとした空間操作

方法は非常に簡単です。一つずつ見ていきましょう。

前提: fi∈RB×C×H×W は StyleGAN の i 番目の層の中間特徴を表します。

1. 空間操作により直感的でリアルな画像を実現

StyleGAN は完全に畳み込み型であるため、fi の空間次元を調整して、出力画像に対応する空間変化を誘発することができます。

シンプルな空間操作 (パディングやサイズ変更など) を使用すると、より直感的でリアルな画像を生成できます。

たとえば、次の図では、茂みや木を複製して背景を拡大していますが、これにより、テクスチャのぼやけなどのアーティファクトが発生する元のサイズ変更と比較して、フィーチャ空間でよりリアルなテクスチャを維持できます。

2. 特徴補間

StyleGAN中間層のコラージュは画像情報の混合を実現できますが、つなぎ合わせる2つの画像があまりにも異なる場合には効果が良くないことが多いです。

ただし、特徴補間を使用すると問題はありません。

具体的な操作方法:StyleGANの各レイヤーでは、異なる潜在ノイズを使用してfAiとfBiを生成します。次に、次の式を使用して 2 つをスムーズに混合し、同じ操作のために次の畳み込み層に渡します。

ここで、α∈[0, 1]B×C×H×Wはマスクであり、水平混合に使用すると、マスクは左から右に向かって増加します。

対応するモデルとの定性的および定量的比較:

この特徴補間法では 2 つの画像をシームレスにブレンドできますが、Suzuki らの結果では明らかなアーティファクトが発生します。

ユーザー調査でも、87.6% が Suzuki らの方法と比較してこの方法を好みました。

ユーザー調査には 40 人が参加し、各人は異なる方法で 25 組の画像を比較する必要がありました。

3. 1枚の画像から生成する

異なる画像間の特徴を補間するだけでなく、単一の画像内でも適用できます。

仕組み: 一部のフィーチャ レイヤーで、関連するパッチを選択し、他の領域とブレンドして空間的に複製します。シフト演算子 Shift (·) を使用します。

これは SinGAN と同じ機能ですが、SinGAN ではサンプリングが行われるのに対し、この方法では特徴補間のためのパッチを手動で選択するだけで済みます。

SinGANとの定性的および定量的比較:

この方法で生成される画像はより多様でリアルです。SinGAN は教会の構造を「意味のある」方法で変更できず、雲や風景のリアルさも劣ります。

ユーザー調査では、83.3% の人がこの方法で生成された新しい画像を好みました。

4. GAN反転の改善

GAN 反転の目的は、W+ 空間でスタイル コードを見つけ、それを通じて特定のターゲット イメージに類似したイメージを合成することです。

Wulff らのモデルでは、単純な非線形変換の下で、W+ 空間をガウス分布を使用してモデル化できると想定しています。しかし、属性転送設定では、ソース画像と参照画像を反転する必要があり、満足のいくものではありません。

最近の研究では、σ を使用した顔操作の方が W+ を使用した場合よりもパフォーマンスが優れていることが示されています。

しかし著者らは、変換なしのσ空間もガウス分布としてモデル化できることを発見した。

同じガウス事前分布が、 GAN 反転中ではなく、この空間に適用されます。

効果比較:

この方法により、画像の再構成と編集性が大幅に向上します。

5. 画像から画像への翻訳

σ 空間の上部部分の効果を利用して、著者らは、画像間の変換中に σ を生成するアフィン変換レイヤーを固定することを提案しています。この単純な変更により、画像変換のセマンティクスをより適切に保持できます (下の図 d の口の形に注目してください)。

さらに、著者らは次のことを発見しました。

(1)すべての空間次元において定数αを用いて連続的な並進運動を行うことができる。
(2)特徴補間を行う領域を選択して局所画像変換を行う。
(3)改良されたGAN反転技術を使用して、実際の顔の顔編集と変換を実行します。

これにより、より良い結果が得られます。

6. パノラマ生成

作者は、図に示すように、2 つの画像の混合 (スパン) を「織り合わせる」ことでパノラマを生成します。

このプロセスを繰り返すことで、任意の長さのパノラマ画像を生成できます。

さらに、この方法は、一度に 2 つの画像を混合することに限定されず、水平方向のみの生成にも限定されません。

例:

7. 属性転送

任意の人間のポーズの画像の属性転送における特徴補間を改善するために、著者らはソース画像と参照画像の間でポーズの位置合わせ、具体的には W+ 空間スタイル コードの最初の 2048 次元の位置合わせを実行することを選択しました。

次に、特徴補間を適用して、選択した特徴をソース イメージからターゲット イメージに転送できます。

既存の方法と比較して:

Collins らの方法では、詳細属性が正確に転送されず、Suzuki らによって生成された画像は、ポーズが一致しない場合には十分に現実的ではありません。

そして著者のアプローチは正確かつ本物です。

現実感と正確さに基づいたユーザーの選択結果も、この方法の優位性をさらに証明しました。

ps. はっきりと異なる目を持つ顔の 2 つの半分をシームレスにブレンドするなど、任意の領域に転送を実行することもできます。

上記は、特定のアーキテクチャやトレーニングパラダイムを使用せずに、StyleGAN モデルの潜在空間でいくつかの操作と微調整を実行することで、他の画像処理タスクと同等以上のパフォーマンスを実現する具体的な方法です。

どう思いますか?他に追加したいことはありますか?

論文の宛先:
https://arxiv.org/abs/2111.01619

プロジェクトアドレス:
​​​ https://github.com/mchong6/SOAT​​

​​

<<:  IoTとAI:輸送管理の変革

>>:  RELX: 回答者の95%がAI人材の採用は課題であると考えている

推薦する

...

今日のアルゴリズム: 文字列内の隣接する重複をすべて削除する

[[419471]]小文字で構成される文字列 S が与えられた場合、重複削除操作は隣接する 2 つの...

...

栄創同志、競争は発展を促進する。第1回「AIIAカップ」人工知能ツアー説明会が北京で開催

2月28日、中国人工知能産業発展連盟「AIIAカップ」人工知能ツアー報告会において、中国航天科技集団...

...

...

...

「でたらめ記事ジェネレーター」が GitHub のホットリストのトップに。ワンクリックで 10,000 語の形式主義的な傑作を生成

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能と機械学習でよく使われるアルゴリズムの概要と、よく使われる各アルゴリズムの精度の比較

[[319322]]この記事では、一般的に使用されている機械学習アルゴリズムの概要と、一般的に使用さ...

AI受験者が発狂!上級数学試験の正解率は81%で、競争試験のスコアはコンピュータドクターのスコアよりも高い。

上級数学の試験で悪い成績を取ることは、多くの人にとって悪夢です。高度な数学は AI ほど得意ではない...

...

人工知能は「高度な感情知能」に向かって発展している

[[265376]] [51CTO.com クイック翻訳] 機械知能の分野における現在の成功は主に計...

Nature Sub-Journal | NUS と ByteDance が初めて AI メタ学習を脳画像に導入

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

分析と AI で注意すべき 7 つの致命的な間違い

2017年、『エコノミスト』誌は、データが石油を上回り、世界で最も価値のある資源になったと宣言しまし...

...