Transformerは画像を生成することも可能で、新しいViTGANのパフォーマンスはCNNベースのGANに匹敵する。

[[412196]]

トランスフォーマーはさまざまな自然言語タスクに急速な進歩をもたらし、最近ではコンピュータービジョンの分野にも進出し始め、以前は CNN が主流だったいくつかのタスクに影響を与え始めています。最近、カリフォルニア大学サンディエゴ校と Google Research による研究では、ビジュアル Transformer を使用して GAN をトレーニングすることが提案されました。この方法を効果的に適用するために、研究者らはいくつかの改善技術も提案し、いくつかの指標においてこの新しい方法を最先端の CNN モデルに匹敵するものにした。

畳み込みニューラルネットワーク (CNN) は、畳み込み (重みの共有とローカル接続) とプーリング (変換の等価性) における強力な機能を備えているため、現在ではコンピュータービジョンの分野で主流のテクノロジーとなっています。しかし最近では、Transformer アーキテクチャが画像およびビデオ認識タスクで CNN と競合し始めています。その中でも特に注目すべきは Visual Transformer (ViT) です。この技術は、画像をトークンのシーケンス（自然言語の単語に類似）として解釈します。 Dosovitskiy らは、ViT がより低い計算コストで ImageNet ベンチマークと同等の分類精度を達成できることを示しました。 CNN のローカル接続とは異なり、ViT はグローバルコンテキストで考慮される表現に依存しており、各パッチは同じ画像内のすべてのパッチに関連して処理される必要があります。

ViT とそのバリアントはまだ初期段階ではありますが、非ローカルなコンテキスト依存性のモデリングにおいて有望性を示しており、優れた効率性とスケーラビリティを実証しています。 ViT はしばらく前に誕生して以来、物体検出、ビデオ認識、マルチタスクの事前トレーニングなど、さまざまなタスクで使用されてきました。

最近、カリフォルニア大学サンディエゴ校と Google Research による研究では、ビジュアル Transformer を使用して GAN をトレーニングすることが提案されました。この論文の研究テーマは、「畳み込みやプーリングを使用せずに、Visual Transformer を使用して画像生成タスクを完了できるか?」です。もっと具体的に言うと、ViT を使用して、広く研究されている CNN ベースの GAN と同等の品質で敵対的生成ネットワーク (GAN) をトレーニングできるでしょうか?

論文リンク: https://arxiv.org/pdf/2107.04589.pdf

この目的のために、研究者は最も独創的な ViT 設計に従い、純粋な基本 ViT を使用して GAN をトレーニングしました (図 2(A) を参照)。難しさは、GAN のトレーニングプロセスが ViT と結合した後に非常に不安定になり、識別器トレーニングの後期段階で高分散勾配 (またはスパイク勾配) によって敵対的トレーニングが妨げられることが多いことです。さらに、勾配ペナルティやスペクトル正規化などの従来の正則化手法は、CNN ベースの GAN モデルで効果的に使用できますが (図 4 に示すように)、これらの正則化手法では前述の不安定性の問題を解決することはできません。 CNN ベースの GAN では、適切な正規化手法を使用するとトレーニングが不安定になることは珍しくないため、これは ViT ベースの GAN に特有の課題です。

これらの問題に対処するために、本論文では、トレーニングダイナミクスを安定させ、ViT ベースの GAN の収束を促進するために必要ないくつかの変更を提案します。

識別器では、研究者らは自己注意の Lipschitz 特性を再検討し、それに基づいて Lipschitz 連続性を強化するスペクトル正規化を設計しました。不安定な状況に対処するのが難しい従来のスペクトル正規化方法とは異なり、これらの手法は ViT ベースの識別器のトレーニングダイナミクスを安定化するのに非常に効果的です。さらに、新しく提案された技術の効果を検証するために、研究者らは制御変数研究も実施しました。 ViT ベースのジェネレーターについては、研究者らはいくつかの異なるアーキテクチャ設計を試し、レイヤー正規化レイヤーと出力マッピングレイヤーに 2 つの重要な変更があることを発見しました。実験では、使用される識別器が ViT または CNN のどちらに基づいているかに関係なく、修正されたバージョンの ViT に基づくジェネレーターの方が敵対的トレーニングをより容易にできることが示されています。

より説得力を持たせるために、研究者らは 3 つの標準的な画像合成ベンチマークで実験を実施しました。結果は、新たに提案されたモデル ViTGAN が、以前の Transformer ベースの GAN モデルを大幅に上回り、畳み込みやプーリングを使用せずに StyleGAN2 などの主要な CNN ベースの GAN と同等のパフォーマンスを達成することを示しています。著者らは、新たに提案された ViTGAN は、GAN でビジュアル Transformer を使用する最も初期の試みの 1 つであると述べています。さらに重要なことは、この研究により、Transformer が CIFAR、CelebA、LSUN ベッドルームデータセットなどの標準的な画像生成ベンチマークで現在の最高の畳み込みアーキテクチャを上回ることができることが初めて示されたことです。

方法

図 1 は、ViT 弁別器と ViT ベースのジェネレーターで構成される、提案された ViTGAN アーキテクチャを示しています。研究者たちは、ViT を識別器として直接使用するとトレーニングが不安定になることを発見しました。訓練ダイナミクスを安定させ、収束を促進するために、研究者らはジェネレーターとディスクリミネーターの両方に新しい技術を導入しました：（1）ViTディスクリミネーターの正規化と（2）新しいジェネレーターアーキテクチャ。

図 1: 新しく提案された ViTGAN フレームワークの概略図。ジェネレーターとディスクリミネーターは両方とも Visual Transformer (ViT) に基づいて設計されています。識別器スコアは分類埋め込み（図では * で表示）から導出され、ジェネレーターはパッチ埋め込みに基づいてパッチごとにピクセルを生成します。

Transformer 識別子の Lipschitz プロパティを強化します。 GAN 識別器では、Lipschitz 連続性が重要な役割を果たします。これは、WGAN で Wasserstein 距離を近似するための条件として最初に注目され、その後 Wasserstein 損失以上のものを使用する他の GAN 設定でも確認されました。その中で特に注目すべきは、ICML 2019 論文「Lipschitz 生成敵対的ネット」です。この研究では、Lipschitz 識別器が最適な識別関数と一意のナッシュ均衡の存在を保証できることを証明しています。しかし、ICML 2021 の論文「自己注意の Lipschitz 定数」では、標準のドット積自己注意層の Lipschitz 定数が無制限になる可能性があることが示されており、これにより ViT の Lipschitz 連続性が破壊されます。 ViT 識別器の Lipschitz 特性を強化するために、研究者らは上記の論文で提案された L2 注意を採用しました。式7に示すように、ドット積類似度はユークリッド距離に置き換えられ、投影行列の重みも自己注意のクエリとキーに関連付けられます。この改善により、GAN 識別器で使用されるトランスフォーマーの安定性が向上します。

スペクトル正規化が改善されました。リプシッツ連続性をさらに強化するために、研究者らは識別器のトレーニングでスペクトル正規化も使用しました。標準的なスペクトル正規化では、べき乗反復法を使用してニューラルネットワークの各層の投影行列のスペクトルノルムを推定し、推定されたスペクトルノルムを使用して重み行列を除算して、結果として得られる投影行列の Lipschitz 定数が 1 になるようにします。研究者らは、Transformer モジュールは Lipschitz 定数のサイズに非常に敏感であり、スペクトル正規化を使用するとトレーニング速度が非常に遅くなることを発見しました。同様に研究者らは、ViT ベースの識別器が使用された場合、R1 勾配ペナルティ項が GAN トレーニングに悪影響を与えることも発見しました。他の研究では、MLP モジュールの Lipschitz 定数が小さい場合、Transformer の出力がランク 1 の行列に崩壊する可能性があることが判明しています。この問題を解決するために、研究者は投影行列のスペクトルノルムを増やすことを提案しました。

彼らは、初期化時に各層の正規化された重み行列にスペクトルノルムを単純に掛け合わせるだけで、この問題を解決するのに十分であることを発見しました。具体的には、スペクトル正規化の更新規則は次のとおりです。ここで、σ は重み行列を計算するための標準スペクトルノルムです。

重なり合う画像パッチ。 ViT 識別器は学習能力が高すぎるため、過剰適合になりがちです。この研究では、識別器と生成器は同じ画像表現を使用し、事前に定義されたネットワーク P×P に従って画像を重複しないパッチのシーケンスに分割します。慎重に設計されていない場合、これらの任意のネットワークパーティションによって、識別器がローカルキューを記憶せざるを得なくなり、ジェネレーターに意味のある損失を提供できなくなる可能性があります。この問題を解決するために、研究者たちはパッチを重ね合わせるという簡単なトリックを使用しました。パッチの各エッジは o ピクセルずつ拡張され、有効なパッチサイズは (P+2o)×(P+2o) になります。

これにより、元のシーケンスと同じ長さのシーケンスが生成されますが、事前定義されたグリッドに対する感度は低くなります。これにより、Transformer は現在のパッチに隣接するパッチをより適切に理解できるようになり、ローカル機能をより適切に理解できるようになります。

発電機の設計

ViT アーキテクチャに基づくジェネレーターの設計は簡単な作業ではありません。大きな課題の 1 つは、ViT の機能をカテゴリラベルのセットを予測することから空間領域内のピクセルを生成することに移行することです。

図 2: ジェネレータのアーキテクチャ。左の図は、研究者が研究した 3 つのジェネレータアーキテクチャを示しています。(A) 各位置埋め込みに中間隠し埋め込み w を追加する、(B) シーケンスの先頭に w を追加する、(C) w によって学習されたアフィン変換から計算された自己変調層ノルム (SLN/自己変調層ノルム) で正規化を置き換える (図の A)。右の図は、Transformer モジュールで使用される自己変調動作の詳細を示しています。

研究者たちはまずさまざまなジェネレーターのアーキテクチャを研究し、それらが CNN ベースのジェネレーターほど優れていないことを発見しました。そこで彼らは、ViT の設計原則に従った新しいジェネレータを提案しました。図2(c)はViTGANジェネレータを示しています。これは、Transformerモジュールと出力マッピング層という2つの主要コンポーネントで構成されています。

トレーニングプロセスを容易にするために、研究者は提案されたジェネレーターに 2 つの改良を加えました。

自己変調層ノルム (SLN)。新しいアプローチは、ノイズベクトル z を ViT への入力として送信するのではなく、z を使用してレイヤーノルム操作を調整することです。このような操作は、プロセスに外部情報が必要ないため、自己変調と呼ばれます。
パッチ生成のための暗黙的なニューラル表現。パッチ埋め込みからパッチピクセル値への連続マッピングを学習するために、暗黙的なニューラル表現を使用します。暗黙的表現は、フーリエ特性または正弦波活性化関数と組み合わせて使用すると、生成されたサンプル空間を滑らかに変化する自然信号空間に制限できます。この研究では、暗黙的表現は ViT ベースのジェネレータを使用して GAN をトレーニングするときに特に有用であることがわかりました。

ジェネレータとディスクリミネータの画像グリッドが異なるため、シーケンスの長さも異なることに注意してください。さらなる研究により、高解像度の画像用にモデルを拡張する必要がある場合、識別器のシーケンス長または特徴次元を増やすだけで十分であることがわかりました。

実験結果

表 1: 無条件画像生成ベンチマークにおけるいくつかの代表的な GAN アーキテクチャの結果の比較。 Conv と Pool はそれぞれ畳み込みとプーリングを表します。 ↓は低いほど良いことを意味し、↑は高いほど良いことを意味します。

表 1 は、画像合成の 3 つの標準ベンチマークの主な結果を示しています。この論文で提案された新しい方法は、次のベースラインアーキテクチャと比較できます。 TransGAN は現在、畳み込みをまったく使用せず、完全に Transformer 上に構築された唯一の GAN です。ここでは、最良のバリアントである TransGAN-XL を比較します。 Vanilla-ViT は ViT をベースにした GAN であり、図 2(A) のジェネレータと ViT 識別子の純粋バージョンを使用しますが、この論文で提案されている改良された手法は使用しません。

表3aは図2(B)に示したジェネレータアーキテクチャを比較したものです。さらに、CNN ベースの GAN の最良のモデルである BigGAN と StyleGAN2 も比較に含まれています。

図3: 定性的な比較。 CIFAR-10 32 × 32、CelebA 64 × 64、および LSUN Bedroom 64 × 64 データセットでの StyleGAN2 を使用した ViTGAN、最良の Transformer ベースライン、ナイーブジェネレーター、および識別器を使用した ViT の比較。

図 4: (ac) トレーニング反復における ViT 識別器の勾配の大きさ (すべてのパラメータに対する L2 ノルム) と (df) FID スコア (低いほど良い)。

提案された方法は、R1 ペナルティとスペクトルノルムを使用した 2 つの純粋な ViT 識別器ベースラインと同等のパフォーマンスを発揮することがわかります。アーキテクチャの残りの部分はすべてのメソッドで同じです。新しい方法は、勾配振幅のピークを克服し、大幅に低い FID (CIFAR および CelebA の場合) または同様の FID (LSUN の場合) を達成できることがわかります。

表 3: CIFAR-10 データセットにおける ViTGAN のコントロール変異研究。左: ジェネレータアーキテクチャの制御変数の調査。右: 識別器アーキテクチャの制御変数の調査。

<<: UiPath: 自動化とは、退化を拒否し、価値の高い仕事の創出に専念することです

>>: 選択ガイド：機械学習をサポートする8つのデータベースの詳細解説