このモデルはGAN、ETH超解像モデルSRFlowよりも想像能力が強い

最近、ETH チューリッヒのコンピュータービジョン研究所の研究者が超解像度モデル SRFlow を提案しました。このモデルはGANよりも強力な想像力を持ち、低解像度の入力に基づいて出力の条件付き分布を学習できます。この論文はECCV 2020に採択されました。

超解像度は、与えられた低解像度画像に対して複数の予測を可能にする不適切設定問題です。この基本的な事実は、再構成と敵対的損失を組み合わせて決定論的マッピングをトレーニングする、現在の最先端のディープラーニング手法の多くではほとんど無視されています。

最近、ETH チューリッヒのコンピュータービジョン研究所の研究者が、新しい超解像度モデル SRFlow を提案しました。このモデルは正規化フローに基づく超解像手法であり、GANよりも強力な想像力を持ち、低解像度の入力に基づいて出力の条件付き分布を学習することができます。

論文アドレス: https://arxiv.org/pdf/2006.14200.pdf

プロジェクトアドレス: https://github.com/andreas128/SRFlow?

研究者らは、単一の損失関数、負の対数尤度を使用してモデルをトレーニングしました。 SRFlow は、超解像度問題の不適切性を直接考慮し、さまざまな忠実度の高解像度画像を予測することを学習します。さらに、研究者らは、SRFlow によって学習された強力な画像事後確率を使用して、他の画像のコンテンツを転送することで超解像度画像を強化できる柔軟な画像処理技術を設計しました。

この研究では、顔画像やその他の超解像度画像に基づく実験を紹介します。結果は、SRFlow が PSNR と知覚品質指標の両方で現在の最適な GAN 手法よりも優れていることを示しています。同時に、SRFlow は超解像度ソリューション空間の探索を可能にし、生成された画像の多様性を実現します。

次の図は、GAN に基づく ProgFSR と正規化フローに基づく SRFlow の比較結果を示しています。

SRFlowメソッドの紹介

研究者らは、低解像度（LR）入力画像を与えられた高解像度（HR）画像の条件付き確率分布を学習する問題として超解像度を定式化した。この方法は、自然画像多様体に基づいてすべての可能な超解像 (SR) 画像をキャプチャすることにより、超解像問題の不適切性を明示的に解決することを目的としています。

この目的のために、研究者らは、対数尤度ベースのトレーニングを使用して豊富な分布を学習する条件付き正規化フローアーキテクチャを設計しました。

超解像のための条件付き正規化フロー

超解像の目的は、欠落している高周波の詳細を生成することで、与えられた低解像度画像 x の高解像度バージョン y を予測することです。現在のほとんどの方法は決定論的なマッピング x→y を学習しますが、この研究では、LR 画像 x に対応する自然な HR 画像 y の完全な条件付き分布を取得することを目的としています。

これは、モデルが単一の SR 出力を予測するのではなく、複数の可能性のある HR 画像をキャプチャする必要があるため、難しい問題です。この研究の目的は、多数の LR-HR トレーニングペアを与えられた場合に、分布のパラメーター θ を純粋にデータ駆動型の方法でトレーニングすることです。

条件付きフロー層

フロー層 f^n_θ の設計は、条件が適切に整った逆行列と扱いやすいヤコビアンを確保するために特に注意する必要があります。この課題は[10,11]で初めて取り上げられ、最近では多くの研究の関心を集めています[5,14,21]。

この研究は、RealNVP [11]をベースにした無条件Glowアーキテクチャ[21]から始まります。これらのアーキテクチャで使用されるフロー層は、簡単な方法で条件付きにすることができます[3、49]。研究者らは、その概要を説明し、研究で提案されたアフィンインジェクターレイヤーを紹介しました。

建築

SRFlow のアーキテクチャを図 2 に示します。

アプリケーションと画像処理

研究者らは、SRFlowネットワークを複数のアプリケーションと画像処理タスクに使用しました。この研究で使用された技術は、GANベースの超解像法では利用できないSRFlowネットワークの2つの重要な利点を活用しました[47]。

まず、私たちのネットワークは、単一の画像を予測するのではなく、HR 画像空間内の分布をモデル化します。したがって、複数の可能性のある HR 予測をキャプチャすることで、優れた柔軟性が得られます。これにより、追加のガイダンスやランダムサンプリングを使用して、さまざまな予測を検討できるようになります。

第二に、フローネットワークf_θ(y; x)は完全に可逆なエンコーダー/デコーダーです。したがって、任意の HR 画像は潜在空間にエンコードされ、として正確に再構築できます。この全単射対応により、潜在空間と画像空間の両方で柔軟な操作が可能になります。

確率的超解像

LR 画像 x が与えられた場合、さまざまな SR 予測をサンプリングすることで、SRFlow によって学習された分布を調査できます。フローベースのモデルで観察されているように、分散が小さいサンプリングで最良の結果が得られます[21]。したがって、分散 τ (温度とも呼ばれる) を持つガウス分布を使用します。 τ = 0.8 の場合、結果は以下の図 3 に示されます。

LR 一貫性スタイル転送

LR 画像 x を超解像する場合、SRFlow を使用すると、既存の HR 画像のスタイルを転送できます。

下の図 4 は、画像内の顔の特徴、髪の色、目の色のスタイル転送を示しています。

潜在空間の正規化

研究者らは、SRFlow ネットワーク f_θ の可逆性と学習した超解像事後分布を利用して、より高度な画像処理技術を開発しました。この方法の中心的な考え方は、目的のコンテンツを含む任意の HR 画像を潜在空間にマッピングすることです。潜在空間では、潜在的な統計が、指定された LR 画像内の低周波情報と一致するように正規化されます。 x を低解像度画像、を任意の高解像度画像（LR 画像 x と同じである必要はありません）とします。この研究の目的は、LR 画像 x と一致する画像コンテンツを含む HR 画像 y を取得することです。

画像コンテンツの移行

この研究は、他の画像の内容を転送することで HR 画像を操作することを目的としています。 x を LR 画像、y を対応する HR 画像とします。超解像画像を処理している場合は、x の SR サンプルになります。ただし、x を y の縮小バージョンに設定することで、既存の HR 画像 y を操作することもできます。研究者たちは、下の図 5 に示すように、他の画像の内容を y の画像空間に直接埋め込むことで y を操作しました。

画像の復元

研究者らは学習した画像事後分布を画像復元タスクに適用し、その機能をさらに向上させました。ここで研究者らは、超解像のためだけにトレーニングされた同じ SRFlow ネットワークを使用したことに注意してください。研究者らは、ノイズや圧縮アーティファクトなど、画像内の高周波情報に大きな影響を与える要因を調査した。

実験

研究者らは、提案した方法を現在の SOTA 方法と比較し、制御変数分析を実行しました。

顔の超解像

この研究では、CelebAテストセットの5000枚の画像に基づいて顔超解像画像タスクにおけるSRFlowのパフォーマンスを評価し、バイキュービック、RRDB [47]、ESRGAN [47]、ProgFSR [19]と比較しました。

一般的な超解像度

研究者らは、DIV2K 検証セットでの一般的な超解像タスクにおける SRFlow のパフォーマンスを評価し、Bicubic、EDSR、RRDB、ESRGAN、RankSRGAN と比較しました。

GANベースの方法[47,56]と比較して、SRFlowはPSNR、LPIPS、LR-PSNRの結果が大幅に改善され、PIQUEとBRISQUEでも優れた結果が得られました。

図 8 の視覚化結果は、EDSR と RRDB の知覚効果が乏しく、これらの結果では高周波の詳細がほとんど生成されないことを示しています。対照的に、SRFlow は ESRGAN と比較して豊富な詳細を生成し、優れた知覚結果を達成できます。

最初の行に示されているように、ESRGAN によって生成された画像には、複数の場所にひどい変色アーティファクトとリンギングパターンがあります。一方、SRFlow はより安定した一貫性のある結果を生成できます。

制御変数研究

さらに、深さと幅という2つの要因の影響を研究するために、研究者らは制御変数実験を実施しました。図9はCelebAデータセットの結果を示しています。

タスクの要件に応じて適切なタイプのデータベースを選択するにはどうすればよいでしょうか?

AWS が公開したホワイトペーパー「特化データベースの時代へ」では、リレーショナル、キーバリュー、ドキュメント、インメモリ、グラフ、時系列、台帳、ドメインワイドカラムの 8 種類のデータベースが紹介され、それぞれの利点、課題、主なユースケースが一つずつ分析されています。

<<: Python で多層パーセプトロンニューラルネットワークを実装する

>>: ロボットと触覚センシング技術の衝突、人間とロボットの触覚センシングを初めて探る記事

人工知能について知っておくべき基礎知識はすべてここにあります

ブログ

このモデルはGAN、ETH超解像モデルSRFlowよりも想像能力が強い

人工知能について知っておくべき基礎知識はすべてここにあります

普通のプログラマーがAIを活用する方法

集める！ 2017 年の主要な AI イベントを総ざらい！（動画付き）

Midjourneyが中国のバレンタインデーのために魔法のような絵を描き、ネットユーザーを驚かせた！ローカル再描画機能が新たに開始、マスクとザッカーバーグが八角形の檻の中で戦う

Google CEO ピチャイが、Google 史上最強のモデル「ジェミニ」と人工知能の時代を深く分析

データサイエンティストが最もよく使用するデータマイニングアルゴリズム10選

人工知能が企業のバックオフィスへの参入を加速

2020 Forrester Wave レポート: Dynatrace が AI を活用した IT 運用 (AIOps) のリーダーに選出

推薦する

GPT-4 が Nature の査読者になる？スタンフォード大学と清華大学の卒業生による約5,000の論文がテストされ、その結果の50％以上が人間の査読者と一致した。

あなたは知っていますか？注文するテイクアウトはすべて、ディープラーニングとの美しい出会いです

データサイエンスと人工知能はヘルスケア業界をどのように変えるのでしょうか?

AI投資から利益を得るための3つの鍵

中国のこの場所で：人工知能の新たな革命が起こる - 中国におけるAIの現状分析

マイクロソフト、Bing Chat と Bing Search にダークモードを導入開始

あなたの AI は規制に対応できる準備ができていますか?

がん治療のブレークスルー：AIGCの医薬品開発における役割

ビッグデータとディープラーニングは、仕事帰りの交通渋滞の回避にどのように役立つのでしょうか?