たった 1 回のトレーニングで 4K から 16K まで対応できる、初のシングルサンプルの超高解像度画像合成フレームワークが登場

たった 1 回のトレーニングで 4K から 16K まで対応できる、初のシングルサンプルの超高解像度画像合成フレームワークが登場


論文リンク: https://arxiv.org/pdf/2202.13799.pdf

従来の生成モデルでは、通常、パッチ分布学習に基づいて比較的小さな画像データセットから大きな画像を生成するため、視覚的に一貫性のある画像を生成することが困難です。 OUR-GAN は、低解像度で視覚的に一貫した画像を生成し、その後、超解像度によって徐々に解像度を上げていきます。 OUR-GAN は実際の UHR 画像から学習するため、長距離の一貫性を維持しながら、大規模な形状を細部まで合成できます。

OUR-GAN は、シームレスなサブ領域超解像を適用して、メモリ制約条件下で 4K 以上の解像度の UHR 画像を合成し、境界の不連続性の問題を解決します。さらに、OUR-GAN は特徴マップに垂直位置の埋め込みを追加することで、多様性と視覚的な一貫性を向上させます。 ST4K および RAISE データセットでの実験結果によると、OUR-GAN は既存の方法と比較して、より高い忠実度、視覚的な一貫性、多様性を示しています。

OUR-GANの合成効果を見てみましょう。次の図(上)はOUR-GANのトレーニングに使用した単一の4K画像、(下)はOUR-GANで合成した16K(16384 x 10912)画像です。

以下のグループはOUR-GANで合成された4K風景画像です。

OUR-GAN は、さまざまなパターンの高品質なテクスチャ画像を合成することに成功しました。

ワンショット超解像生成敵対ネットワーク

OUR-GANフレームワーク

OUR-GAN は、下の図 3 に示すように、限られた GPU メモリを占有する UHR 画像を 3 つのステップで合成します。まず、OURGAN は低解像度のグローバル構造を生成します。次に、メモリ内の超解像度により、メモリの制約内で解像度が可能な限り向上します。最後に、OURGAN はサブ領域ごとに超解像を適用して UHR 画像を合成し、メモリ制限を超えて解像度をさらに向上させます。

超解像度モデルの出力解像度は、トレーニング画像の解像度によって制限されます。しかし、ZSSR と MZSR は、情報の内部ループを利用することで、超解像モデルがトレーニング画像の 2 ~ 4 倍の大きさの画像を生成できることを実証しました。

グローバル構造生成

単一のトレーニング画像から全体的に一貫した形状を持つさまざまな画像を合成することを学習することは、困難な作業です。この研究の初期実験では、単一の画像でトレーニングできる複数のモデルを比較しました。その中でも、HP-VAE-GAN は他のモデルよりも多様性が高いものの、全体的な一貫性に欠けています。そのため、本研究では、第一段階としてHP-VAE-GANをベースラインモデルとして選択し、垂直座標畳み込みを適用することで全体的な一貫性を向上させます。 HP-VAE-GANは、式(1)~(3)に示すように、階層化されたパッチベースの生成方式によって画像を合成します。ここで、、それぞれジェネレータ、合成画像、スケールmのガウスノイズベクトルを表します。 ↑記号はアップサンプリングを表します。

まず、HP-VAE-GANは式(1)に示すようにガウスノイズから初期画像を生成し、次に式(2)(3)に示すように徐々に解像度を上げていきます。 1≤m≤Lの初期段階では、モード崩壊問題によりGANモデルの多様性が制限されるため、HP-VAE-GANは式(2)に示すように、多様性のためにパッチVAE [19]を適用する。しかし、L<m≤Mとなる後の段階では、式(3)に示すように、詳細保存のためにパッチGAN[22]を適用する。

メモリ内サブ領域レベルの超解像

2 番目と 3 番目のステップでは、OUR-GAN は忠実度に重点を置き、細かい詳細を追加することで、以前に合成された画像の解像度を向上させます。 3 番目のステップでは、OUR-GAN はサブ領域の超解像度を適用して、メモリ制限を超えて画像の解像度を高めます。これらのステップの中で最大の技術的課題は、単一のトレーニング画像を使用して超解像度モデルを学習することです。この研究では、優れた出力品質で知られる超解像モデルである ESRGAN を事前にトレーニングし、その後単一のトレーニング画像を使用して微調整することで、高い忠実度を実現しています。これまでの研究では、ZSSRやMZSR[21]など、単一の画像から学習できる超解像モデルが存在します。しかし、予備実験では、事前トレーニング済みの ESRGAN はゼロショット超解像モジュールよりも高い画像品質を示しています。この研究では、DIV2K および Flickr2K データセットを使用して ESRGAN を事前トレーニングしました。

2 番目のステップでは、研究者らは以前に合成した画像にランダム ノイズを追加し、その後、超解像モデルを使用して解像度を向上させました。 3 番目のステップでは、画像をサブ領域に分割し、各サブ領域画像に対して超解像度処理を実行し、スケーリングされたサブ領域画像をつなぎ合わせて、より高解像度の画像を作成します (図 5 を参照)。このような分割された超解像度を複数回繰り返すことで、4K 以上の解像度の UHR 画像を作成できます。

ただし、慎重に設計しないと、このような領域ごとの超解像度では境界で不連続性が生じる可能性があります。これまでの研究では、不連続性を防ぐためのいくつかの方法がありました。以前の研究では、不連続性の主な原因は入力特徴マップの周囲のゼロパディングであることが示され、いくつかの解決策が提案されました。 [28]は、境界でのゼロパディングの影響を防ぐために、入力サブ領域を拡張するオーバーラップタイル戦略を適用しました。 [12]は、交互畳み込みと転置畳み込みを備えたネットワークを慎重に設計することでゼロパディングを排除した。

後者はネットワークの再設計を必要とするため、研究者らは前者を改良した。研究者らは、Wenjie Luo ら (2016) に触発されて、図 6 に示すように、オーバーラップ サイズを ERF の半径に設定しました。これは TRF よりも大幅に小さくなっています。図 7 の実験結果は、ERF 半径に等しい重なりが不連続性を防ぐのに十分であることを示しています。 ERF の漸近近似は O(√depth) ですが、TRF の漸近近似は O(depth) であり、これは私たちの方法の利点が無視できないことを示しています。

研究者らは、ERF 半径の重複がない場合と重複がある場合のサブ領域超解像の結果を比較しました。図7は、サブ領域超解像出力画像と画像全体を拡大した通常の超解像出力画像の違いを示しています。図 7 (a) は、重複がない場合、サブ領域の超解像によってサブ領域の境界で大きな違いが生じることを示しています。しかし、重複するサブ領域によってこの差は弱まりました。

実験結果

ワンショット 4K 非反復画像合成下の図 8 は、OUR-GAN によって生成された 4K サンプル、ベースライン モデル、およびグラウンド トゥルース画像を示しています。

図 8. OUR-GAN によって生成された 4K サンプル、ベースライン モデルによって生成されたサンプル、およびグラウンド トゥルース画像。

InGAN は、小さなサンプルでトレーニングして学習した小規模なパターンを繰り返して画像を合成するため、視覚化のために多数の形状を含む超高解像度の画像を合成することができません。 SinGAN は大規模なパターンを生成できますが、構造の詳細を捉えることはできません。しかし、OUR-GAN は視覚的に一貫した形状と細かいディテールを備えた高品質の画像を合成することに成功しました。他のモデルと比較して、OUR-GAN は最も視覚的に魅力的な画像を合成します。

下の表 1 に示すように、OUR-GAN は定量的研究でも他のモデルを上回り、すべての構成の中で最高のスコアを達成しました。これは、OUR-GAN がグローバルな形状とローカルな詳細の両方を備えた高品質の画像を組み合わせていることを示しています。

世界的な一貫性と多様性

垂直座標畳み込みの効果を評価するために、研究者らはOUR-GANの最初のステップモデルを他のモデル(SinGAN、ConSinGAN、HP-VAE-GAN、SIV-GAN)に置き換え、合成画像の違いを比較しました。

図9.

図9は生成された画像を示しています。 ConSinGAN と SIV-GAN によって生成されるパターンは多様性が限られていますが、HPVAE-GAN によって合成された歪んだ構造は関連のないパターンを組み合わせています。図 10 に示すように、OUR-GAN は HP-VAE-GAN と比較してパターンの全体的な一貫性を大幅に改善し、ConSinGAN や SIV-GAN と比較してより多様なパターンを生成します。

図 10: 垂直座標畳み込みを使用した効果。 OUR-GAN は、垂直座標畳み込みの空間バイアスを通じて視覚的な一貫性を向上させます。

表2.

表2に定量評価の結果を示します。OUR-GANは定量的な結果の点では優れたパフォーマンスを発揮します。 OUR-GAN は SIFID スコアが最も低く、これは OUR-GAN がトレーニング画像の内部統計を学習するのに効果的であることを示しています。 LPIPS の他のベースラインと比較して、OUR-GAN では大きな違いは見られません。ただし、視覚的に不一致なパターンをペナルティの対象としないため、LPIPS が高いからといって、必ずしもモデルが高品質の画像を生成するとは限りません (付録 H に、LPIPS が高い視覚的に不一致なサンプルを示します)。 OUR-GAN は HP-VAE-GAN に比べて多様性に欠けますが、視覚的に一貫性のある画像を合成できます。

ワンショット高忠実度4Kテクスチャ画像合成

この研究では、高忠実度の UHR テクスチャ画像を合成する際の OUR-GAN のパフォーマンスも評価しました。 OUR-GAN は ST4K テクスチャ画像と合成 UHR 画像から学習し、2 つの合成サンプルが図 11 に示されています。

研究の詳細については原著論文を参照してください。

<<:  地図やGPSは信頼できないが、それは問題ではない:カリフォルニア大学バークレー校のロボットが未知の環境で3キロメートル以上を移動

>>:  自動運転車の意思決定制御システム技術を分析した記事

ブログ    
ブログ    
ブログ    

推薦する

AIの急速な発展によってもたらされるエネルギー需要をどう解決するか?

生成 AI テクノロジーは、単純なフレーズを驚くほどリアルな画像に変換し、世界中の人々の想像力をかき...

一般相対性理論の予測に沿って、M87ブラックホールの最新の研究結果がネイチャー誌に掲載されました。

9月27日、ネイチャー誌は45の機関からなる国際科学研究チームの最新の研究成果を発表した。 200...

問題が VPN の問題であることを証明するにはどうすればよいですか?コンピュータ科学者は簡単な方法を発見した

P/NP 問題は、計算複雑性の分野における未解決の問題です。人々は、「すべての計算問題を妥当な時間内...

人事におけるAI技術の重要性

[[401318]]人工知能はリアルタイムで意思決定を行う能力があり、事前にプログラムされたアルゴリ...

AIに「子犬」を認識させますか? Facebookは変化を感知できるAIを構築

[[388981]]今まで見たことのない犬種や色であっても、私たちは一目見てその犬を認識することがで...

ルーティングテーブルとルーター選択アルゴリズム

標準ルーティングテーブル1.次駅経路選定の基本的な考え方ルーティング テーブルは、宛先までの完全なパ...

コードを入力すること、詩を書くこと、論文を書くこと、すべてが可能です!史上最大のAIモデルGPT-3がGithubを席巻

[[334935]]最近、GPT-3が人気になってきました!インターネット上で GPT-3 のさまざ...

NYU のポスドクが、arXiv に 30 分遅れて論文を提出したというだけで ACL に拒否されたのですか?学者たちは憤慨し、ACLに二度と投票しないと誓う

ACL は国民を怒らせた!今朝、この投稿のせいで AI コミュニティ全体が騒然となった——ニューヨー...

ディープラーニングはフロントエンド開発ツールになりました:UI設計図に基づいてコードを自動生成します

UI デザイナーとフロントエンド エンジニアの間にニューラル ネットワークが必要になる場合があります...

AIを使って株取引で不正行為をしよう!この世代のプログラマーは本当に楽しみ方を知っている

ディープラーニングを使用して株価を予測することは、以前は少し神秘的に思えたかもしれませんが、新しいこ...

AIが再び大学入試小論文に挑戦、強力なハードコア技術で「数秒」の文章作成を実現

昨日(6月7日)、2022年度全国大学入学試験が始まりました。午前中に中国語科目試験が終了し、中国語...

マイクロソフトがML.NETクロスプラットフォーム機械学習フレームワークをオープンソース化し、AIをさらに一歩前進させる

現地時間5月7日、米国シアトルでMicrosoft Buildカンファレンスが開催され、マイクロソフ...

機械学習に必須: TensorFlow を使用するための 11 のヒント

[[326623]] TensorFlow 2.x は、モデルの構築と全体的な使用において多くの利便...

AIはイスラエルとパレスチナの紛争の偽画像を生成し、それが非常にリアルであるためメディアで引用されている

イスラエルとパレスチナの紛争が続く中、関連ニュースが次々と報道され、中には虚偽の内容も混じり始め、真...