たった 1 回のトレーニングで 4K から 16K まで対応できる、初のシングルサンプルの超高解像度画像合成フレームワークが登場

論文リンク: https://arxiv.org/pdf/2202.13799.pdf

従来の生成モデルでは、通常、パッチ分布学習に基づいて比較的小さな画像データセットから大きな画像を生成するため、視覚的に一貫性のある画像を生成することが困難です。 OUR-GAN は、低解像度で視覚的に一貫した画像を生成し、その後、超解像度によって徐々に解像度を上げていきます。 OUR-GAN は実際の UHR 画像から学習するため、長距離の一貫性を維持しながら、大規模な形状を細部まで合成できます。

OUR-GAN は、シームレスなサブ領域超解像を適用して、メモリ制約条件下で 4K 以上の解像度の UHR 画像を合成し、境界の不連続性の問題を解決します。さらに、OUR-GAN は特徴マップに垂直位置の埋め込みを追加することで、多様性と視覚的な一貫性を向上させます。 ST4K および RAISE データセットでの実験結果によると、OUR-GAN は既存の方法と比較して、より高い忠実度、視覚的な一貫性、多様性を示しています。

OUR-GANの合成効果を見てみましょう。次の図（上）はOUR-GANのトレーニングに使用した単一の4K画像、（下）はOUR-GANで合成した16K（16384 x 10912）画像です。

以下のグループはOUR-GANで合成された4K風景画像です。

OUR-GAN は、さまざまなパターンの高品質なテクスチャ画像を合成することに成功しました。

ワンショット超解像生成敵対ネットワーク

OUR-GANフレームワーク

OUR-GAN は、下の図 3 に示すように、限られた GPU メモリを占有する UHR 画像を 3 つのステップで合成します。まず、OURGAN は低解像度のグローバル構造を生成します。次に、メモリ内の超解像度により、メモリの制約内で解像度が可能な限り向上します。最後に、OURGAN はサブ領域ごとに超解像を適用して UHR 画像を合成し、メモリ制限を超えて解像度をさらに向上させます。

超解像度モデルの出力解像度は、トレーニング画像の解像度によって制限されます。しかし、ZSSR と MZSR は、情報の内部ループを利用することで、超解像モデルがトレーニング画像の 2 ～ 4 倍の大きさの画像を生成できることを実証しました。

グローバル構造生成

単一のトレーニング画像から全体的に一貫した形状を持つさまざまな画像を合成することを学習することは、困難な作業です。この研究の初期実験では、単一の画像でトレーニングできる複数のモデルを比較しました。その中でも、HP-VAE-GAN は他のモデルよりも多様性が高いものの、全体的な一貫性に欠けています。そのため、本研究では、第一段階としてHP-VAE-GANをベースラインモデルとして選択し、垂直座標畳み込みを適用することで全体的な一貫性を向上させます。 HP-VAE-GANは、式(1)～(3)に示すように、階層化されたパッチベースの生成方式によって画像を合成します。ここで、、はそれぞれジェネレータ、合成画像、スケールmのガウスノイズベクトルを表します。 ↑記号はアップサンプリングを表します。

まず、HP-VAE-GANは式(1)に示すようにガウスノイズから初期画像を生成し、次に式(2)(3)に示すように徐々に解像度を上げていきます。 1≤m≤Lの初期段階では、モード崩壊問題によりGANモデルの多様性が制限されるため、HP-VAE-GANは式(2)に示すように、多様性のためにパッチVAE [19]を適用する。しかし、L<m≤Mとなる後の段階では、式(3)に示すように、詳細保存のためにパッチGAN[22]を適用する。

メモリ内サブ領域レベルの超解像

2 番目と 3 番目のステップでは、OUR-GAN は忠実度に重点を置き、細かい詳細を追加することで、以前に合成された画像の解像度を向上させます。 3 番目のステップでは、OUR-GAN はサブ領域の超解像度を適用して、メモリ制限を超えて画像の解像度を高めます。これらのステップの中で最大の技術的課題は、単一のトレーニング画像を使用して超解像度モデルを学習することです。この研究では、優れた出力品質で知られる超解像モデルである ESRGAN を事前にトレーニングし、その後単一のトレーニング画像を使用して微調整することで、高い忠実度を実現しています。これまでの研究では、ZSSRやMZSR[21]など、単一の画像から学習できる超解像モデルが存在します。しかし、予備実験では、事前トレーニング済みの ESRGAN はゼロショット超解像モジュールよりも高い画像品質を示しています。この研究では、DIV2K および Flickr2K データセットを使用して ESRGAN を事前トレーニングしました。

2 番目のステップでは、研究者らは以前に合成した画像にランダムノイズを追加し、その後、超解像モデルを使用して解像度を向上させました。 3 番目のステップでは、画像をサブ領域に分割し、各サブ領域画像に対して超解像度処理を実行し、スケーリングされたサブ領域画像をつなぎ合わせて、より高解像度の画像を作成します (図 5 を参照)。このような分割された超解像度を複数回繰り返すことで、4K 以上の解像度の UHR 画像を作成できます。

ただし、慎重に設計しないと、このような領域ごとの超解像度では境界で不連続性が生じる可能性があります。これまでの研究では、不連続性を防ぐためのいくつかの方法がありました。以前の研究では、不連続性の主な原因は入力特徴マップの周囲のゼロパディングであることが示され、いくつかの解決策が提案されました。 [28]は、境界でのゼロパディングの影響を防ぐために、入力サブ領域を拡張するオーバーラップタイル戦略を適用しました。 [12]は、交互畳み込みと転置畳み込みを備えたネットワークを慎重に設計することでゼロパディングを排除した。

後者はネットワークの再設計を必要とするため、研究者らは前者を改良した。研究者らは、Wenjie Luo ら (2016) に触発されて、図 6 に示すように、オーバーラップサイズを ERF の半径に設定しました。これは TRF よりも大幅に小さくなっています。図 7 の実験結果は、ERF 半径に等しい重なりが不連続性を防ぐのに十分であることを示しています。 ERF の漸近近似は O(√depth) ですが、TRF の漸近近似は O(depth) であり、これは私たちの方法の利点が無視できないことを示しています。

研究者らは、ERF 半径の重複がない場合と重複がある場合のサブ領域超解像の結果を比較しました。図7は、サブ領域超解像出力画像と画像全体を拡大した通常の超解像出力画像の違いを示しています。図 7 (a) は、重複がない場合、サブ領域の超解像によってサブ領域の境界で大きな違いが生じることを示しています。しかし、重複するサブ領域によってこの差は弱まりました。

実験結果

ワンショット 4K 非反復画像合成下の図 8 は、OUR-GAN によって生成された 4K サンプル、ベースラインモデル、およびグラウンドトゥルース画像を示しています。

図 8. OUR-GAN によって生成された 4K サンプル、ベースラインモデルによって生成されたサンプル、およびグラウンドトゥルース画像。

InGAN は、小さなサンプルでトレーニングして学習した小規模なパターンを繰り返して画像を合成するため、視覚化のために多数の形状を含む超高解像度の画像を合成することができません。 SinGAN は大規模なパターンを生成できますが、構造の詳細を捉えることはできません。しかし、OUR-GAN は視覚的に一貫した形状と細かいディテールを備えた高品質の画像を合成することに成功しました。他のモデルと比較して、OUR-GAN は最も視覚的に魅力的な画像を合成します。

下の表 1 に示すように、OUR-GAN は定量的研究でも他のモデルを上回り、すべての構成の中で最高のスコアを達成しました。これは、OUR-GAN がグローバルな形状とローカルな詳細の両方を備えた高品質の画像を組み合わせていることを示しています。

世界的な一貫性と多様性

垂直座標畳み込みの効果を評価するために、研究者らはOUR-GANの最初のステップモデルを他のモデル（SinGAN、ConSinGAN、HP-VAE-GAN、SIV-GAN）に置き換え、合成画像の違いを比較しました。

図9.

図9は生成された画像を示しています。 ConSinGAN と SIV-GAN によって生成されるパターンは多様性が限られていますが、HPVAE-GAN によって合成された歪んだ構造は関連のないパターンを組み合わせています。図 10 に示すように、OUR-GAN は HP-VAE-GAN と比較してパターンの全体的な一貫性を大幅に改善し、ConSinGAN や SIV-GAN と比較してより多様なパターンを生成します。

図 10: 垂直座標畳み込みを使用した効果。 OUR-GAN は、垂直座標畳み込みの空間バイアスを通じて視覚的な一貫性を向上させます。

表2.

表2に定量評価の結果を示します。OUR-GANは定量的な結果の点では優れたパフォーマンスを発揮します。 OUR-GAN は SIFID スコアが最も低く、これは OUR-GAN がトレーニング画像の内部統計を学習するのに効果的であることを示しています。 LPIPS の他のベースラインと比較して、OUR-GAN では大きな違いは見られません。ただし、視覚的に不一致なパターンをペナルティの対象としないため、LPIPS が高いからといって、必ずしもモデルが高品質の画像を生成するとは限りません (付録 H に、LPIPS が高い視覚的に不一致なサンプルを示します)。 OUR-GAN は HP-VAE-GAN に比べて多様性に欠けますが、視覚的に一貫性のある画像を合成できます。