このモデルはGAN、ETH超解像モデルSRFlowよりも想像能力が強い

このモデルはGAN、ETH超解像モデルSRFlowよりも想像能力が強い

最近、ETH チューリッヒのコンピューター ビジョン研究所の研究者が超解像度モデル SRFlow を提案しました。このモデルはGANよりも強力な想像力を持ち、低解像度の入力に基づいて出力の条件付き分布を学習できます。この論文はECCV 2020に採択されました。

超解像度は、与えられた低解像度画像に対して複数の予測を可能にする不適切設定問題です。この基本的な事実は、再構成と敵対的損失を組み合わせて決定論的マッピングをトレーニングする、現在の最先端のディープラーニング手法の多くではほとんど無視されています。

最近、ETH チューリッヒのコンピューター ビジョン研究所の研究者が、新しい超解像度モデル SRFlow を提案しました。このモデルは正規化フローに基づく超解像手法であり、GANよりも強力な想像力を持ち、低解像度の入力に基づいて出力の条件付き分布を学習することができます

論文アドレス: https://arxiv.org/pdf/2006.14200.pdf

プロジェクトアドレス: https://github.com/andreas128/SRFlow?

研究者らは、単一の損失関数、負の対数尤度を使用してモデルをトレーニングしました。 SRFlow は、超解像度問題の不適切性を直接考慮し、さまざまな忠実度の高解像度画像を予測することを学習します。さらに、研究者らは、SRFlow によって学習された強力な画像事後確率を使用して、他の画像のコンテンツを転送することで超解像度画像を強化できる柔軟な画像処理技術を設計しました。

この研究では、顔画像やその他の超解像度画像に基づく実験を紹介します。結果は、SRFlow が PSNR と知覚品質指標の両方で現在の最適な GAN 手法よりも優れていることを示しています。同時に、SRFlow は超解像度ソリューション空間の探索を可能にし、生成された画像の多様性を実現します。

次の図は、GAN に基づく ProgFSR と正規化フローに基づく SRFlow の比較結果を示しています。

SRFlowメソッドの紹介

研究者らは、低解像度(LR)入力画像を与えられた高解像度(HR)画像の条件付き確率分布を学習する問題として超解像度を定式化した。この方法は、自然画像多様体に基づいてすべての可能な超解像 (SR) 画像をキャプチャすることにより、超解像問題の不適切性を明示的に解決することを目的としています。

この目的のために、研究者らは、対数尤度ベースのトレーニングを使用して豊富な分布を学習する条件付き正規化フロー アーキテクチャを設計しました。

超解像のための条件付き正規化フロー

超解像の目的は、欠落している高周波の詳細を生成することで、与えられた低解像度画像 x の高解像度バージョン y を予測することです。現在のほとんどの方法は決定論的なマッピング x→y を学習しますが、この研究では、LR 画像 x に対応する自然な HR 画像 y の完全な条件付き分布を取得することを目的としています。

これは、モデルが単一の SR 出力を予測するのではなく、複数の可能性のある HR 画像をキャプチャする必要があるため、難しい問題です。この研究の目的は、多数の LR-HR トレーニング ペアを与えられた場合に、分布のパラメーター θ を純粋にデータ駆動型の方法でトレーニングすることです。

条件付きフロー層

フロー層 f^n_θ の設計は、条件が適切に整った逆行列と扱いやすいヤコビアンを確保するために特に注意する必要があります。この課題は[10,11]で初めて取り上げられ、最近では多くの研究の関心を集めています[5,14,21]。

この研究は、RealNVP [11]をベースにした無条件Glowアーキテクチャ[21]から始まります。これらのアーキテクチャで使用されるフロー層は、簡単な方法で条件付きにすることができます[3、49]。研究者らは、その概要を説明し、研究で提案されたアフィンインジェクターレイヤーを紹介しました。

建築

SRFlow のアーキテクチャを図 2 に示します。

アプリケーションと画像処理

研究者らは、SRFlowネットワークを複数のアプリケーションと画像処理タスクに使用しました。この研究で使用された技術は、GANベースの超解像法では利用できないSRFlowネットワークの2つの重要な利点を活用しました[47]。

まず、私たちのネットワークは、単一の画像を予測するのではなく、HR 画像空間内の分布をモデル化します。したがって、複数の可能性のある HR 予測をキャプチャすることで、優れた柔軟性が得られます。これにより、追加のガイダンスやランダム サンプリングを使用して、さまざまな予測を検討できるようになります。

第二に、フローネットワークf_θ(y; x)は完全に可逆なエンコーダー/デコーダーです。したがって、任意の HR 画像は潜在空間にエンコードされ、 として正確に再構築できます。この全単射対応により、潜在空間と画像空間の両方で柔軟な操作が可能になります。

確率的超解像

LR 画像 x が与えられた場合、さまざまな SR 予測をサンプリングすることで、SRFlow によって学習された分布を調査できます。フローベースのモデルで観察されているように、分散が小さいサンプリングで最良の結果が得られます[21]。したがって、分散 τ (温度とも呼ばれる) を持つガウス分布を使用します。 τ = 0.8 の場合、結果は以下の図 3 に示されます。

LR 一貫性スタイル転送

LR 画像 x を超解像する場合、SRFlow を使用すると、既存の HR 画像のスタイルを転送できます。

下の図 4 は、画像内の顔の特徴、髪の色、目の色のスタイル転送を示しています。

潜在空間の正規化

研究者らは、SRFlow ネットワーク f_θ の可逆性と学習した超解像事後分布を利用して、より高度な画像処理技術を開発しました。この方法の中心的な考え方は、目的のコンテンツを含む任意の HR 画像を潜在空間にマッピングすることです。潜在空間では、潜在的な統計が、指定された LR 画像内の低周波情報と一致するように正規化されます。 x を低解像度画像、 を任意の高解像度画像(LR 画像 x と同じである必要はありません)とします。この研究の目的は、LR 画像 x と一致する画像コンテンツを含む HR 画像 y を取得することです。

画像コンテンツの移行

この研究は、他の画像の内容を転送することで HR 画像を操作することを目的としています。 x を LR 画像、y を対応する HR 画像とします。超解像画像を処理している場合は、x の SR サンプルになります。ただし、x を y の縮小バージョンに設定することで、既存の HR 画像 y を操作することもできます。研究者たちは、下の図 5 に示すように、他の画像の内容を y の画像空間に直接埋め込むことで y を操作しました。

画像の復元

研究者らは学習した画像事後分布を画像復元タスクに適用し、その機能をさらに向上させました。ここで研究者らは、超解像のためだけにトレーニングされた同じ SRFlow ネットワークを使用したことに注意してください。研究者らは、ノイズや圧縮アーティファクトなど、画像内の高周波情報に大きな影響を与える要因を調査した。

実験

研究者らは、提案した方法を現在の SOTA 方法と比較し、制御変数分析を実行しました。

顔の超解像

この研究では、CelebAテストセットの5000枚の画像に基づいて顔超解像画像タスクにおけるSRFlowのパフォーマンスを評価し、バイキュービック、RRDB [47]、ESRGAN [47]、ProgFSR [19]と比較しました。

一般的な超解像度

研究者らは、DIV2K 検証セットでの一般的な超解像タスクにおける SRFlow のパフォーマンスを評価し、Bicubic、EDSR、RRDB、ESRGAN、RankSRGAN と比較しました。

GANベースの方法[47,56]と比較して、SRFlowはPSNR、LPIPS、LR-PSNRの結果が大幅に改善され、PIQUEとBRISQUEでも優れた結果が得られました。

図 8 の視覚化結果は、EDSR と RRDB の知覚効果が乏しく、これらの結果では高周波の詳細がほとんど生成されないことを示しています。対照的に、SRFlow は ESRGAN と比較して豊富な詳細を生成し、優れた知覚結果を達成できます。

最初の行に示されているように、ESRGAN によって生成された画像には、複数の場所にひどい変色アーティファクトとリンギング パターンがあります。一方、SRFlow はより安定した一貫性のある結果を生成できます。

制御変数研究

さらに、深さと幅という2つの要因の影響を研究するために、研究者らは制御変数実験を実施しました。図9はCelebAデータセットの結果を示しています。

タスクの要件に応じて適切なタイプのデータベースを選択するにはどうすればよいでしょうか?

AWS が公開したホワイトペーパー「特化データベースの時代へ」では、リレーショナル、キーバリュー、ドキュメント、インメモリ、グラフ、時系列、台帳、ドメインワイドカラムの 8 種類のデータベースが紹介され、それぞれの利点、課題、主なユースケースが一つずつ分析されています。

<<:  Python で多層パーセプトロン ニューラル ネットワークを実装する

>>:  ロボットと触覚センシング技術の衝突、人間とロボットの触覚センシングを初めて探る記事

ブログ    
ブログ    
ブログ    

推薦する

オープンソースの Gemma モデル: Google の言語の奇跡。命令チューニング、低ランク適応、Switch Transformer を使用して小さなモデルで遊ぶことができます。

言語は人間にとって最も重要なコミュニケーションツールであり、人工知能の分野における最も挑戦的な研究対...

Testin Cloud Testing: テクノロジーを活用して企業の飛躍を支援

急速に発展するデジタル時代において、ビジネスの成功にとって高品質で効率的なテスト サービスが重要であ...

ヤン・ルカン:私は畳み込みニューラルネットワークの父ですが、その特許にも縛られてきました

[[409963]]学術研究の特許所有権は、研究者の研究成果を保護し、保証するものであるため、研究者...

35258 スター!これはITアーキテクトの技術知識マップのコレクションです

ソフトウェア アーキテクチャは、あらゆるソフトウェア プロジェクトの重要な部分になっています。アーキ...

画像セグメンテーションのためのディープラーニング: ネットワークアーキテクチャ設計の概要

この論文では、画像セマンティックセグメンテーションに CNN を使用する際のネットワーク構造の革新に...

ChatGPTに「カスタムコマンド」機能が追加されました

海外メディアの報道によると、7月21日、OpenAIはユーザーにChatGPTの応答に対する強化され...

機械学習とAIが飲食業界に与える影響

[[354952]]一般的に、食品業界について考えるとき、私たちはおそらく顧客サービスや食品配達のギ...

さまざまな分野とフレームワーク、これはディープラーニングモデルの超完全なGitHubコレクションです

研究者や開発者は常に GitHub リポジトリで興味深いプロジェクトや実装を検索してきましたが、特定...

教育ロボットとベテラン教師の戦い:学習の効率を高めるのはどちらでしょうか?

[51CTO.com]地理的制約と教師の制約により、中国では質の高い教育資源が常に極めて不足してい...

人工知能がリスク管理分野に参入すると、生身の人間は職を失うことになるのでしょうか?

スティーブ・ジョブズの「電話の再発明」は携帯電話を再定義しただけでなく、世界を変え、人類をモバイルイ...

JD.comクラウドファンディング599元、業界最安値を突破、Nokelock X1セルフパワースマートドアロックがイノベーション革命をリード

2019年5月15日、深センIoTロックテクノロジー株式会社は北京金宇シェラトンホテルで「nokel...

...

水中ロボットが登場し、「新しいインフラ」の助けを借りてその開発が加速する可能性がある

経済、社会、技術の急速な発展に伴い、世界人口は急速に増加し、天然資源の消費も増加しています。現在、陸...

自動化されたAIで予期せぬ収益機会を発見

急速に変化する今日の市場で競争力を維持するために、企業は次の大きな成長機会や運用上の優位性を発見する...

5Gベアラネットワークの運用は難しいが、機械学習技術で解決できる

5G の商用化が近づいており、通信事業者が 5G ベアラ ネットワークを構築するための時間はあまり残...