このモデルはGAN、ETH超解像モデルSRFlowよりも想像能力が強い

このモデルはGAN、ETH超解像モデルSRFlowよりも想像能力が強い

最近、ETH チューリッヒのコンピューター ビジョン研究所の研究者が超解像度モデル SRFlow を提案しました。このモデルはGANよりも強力な想像力を持ち、低解像度の入力に基づいて出力の条件付き分布を学習できます。この論文はECCV 2020に採択されました。

超解像度は、与えられた低解像度画像に対して複数の予測を可能にする不適切設定問題です。この基本的な事実は、再構成と敵対的損失を組み合わせて決定論的マッピングをトレーニングする、現在の最先端のディープラーニング手法の多くではほとんど無視されています。

最近、ETH チューリッヒのコンピューター ビジョン研究所の研究者が、新しい超解像度モデル SRFlow を提案しました。このモデルは正規化フローに基づく超解像手法であり、GANよりも強力な想像力を持ち、低解像度の入力に基づいて出力の条件付き分布を学習することができます

論文アドレス: https://arxiv.org/pdf/2006.14200.pdf

プロジェクトアドレス: https://github.com/andreas128/SRFlow?

研究者らは、単一の損失関数、負の対数尤度を使用してモデルをトレーニングしました。 SRFlow は、超解像度問題の不適切性を直接考慮し、さまざまな忠実度の高解像度画像を予測することを学習します。さらに、研究者らは、SRFlow によって学習された強力な画像事後確率を使用して、他の画像のコンテンツを転送することで超解像度画像を強化できる柔軟な画像処理技術を設計しました。

この研究では、顔画像やその他の超解像度画像に基づく実験を紹介します。結果は、SRFlow が PSNR と知覚品質指標の両方で現在の最適な GAN 手法よりも優れていることを示しています。同時に、SRFlow は超解像度ソリューション空間の探索を可能にし、生成された画像の多様性を実現します。

次の図は、GAN に基づく ProgFSR と正規化フローに基づく SRFlow の比較結果を示しています。

SRFlowメソッドの紹介

研究者らは、低解像度(LR)入力画像を与えられた高解像度(HR)画像の条件付き確率分布を学習する問題として超解像度を定式化した。この方法は、自然画像多様体に基づいてすべての可能な超解像 (SR) 画像をキャプチャすることにより、超解像問題の不適切性を明示的に解決することを目的としています。

この目的のために、研究者らは、対数尤度ベースのトレーニングを使用して豊富な分布を学習する条件付き正規化フロー アーキテクチャを設計しました。

超解像のための条件付き正規化フロー

超解像の目的は、欠落している高周波の詳細を生成することで、与えられた低解像度画像 x の高解像度バージョン y を予測することです。現在のほとんどの方法は決定論的なマッピング x→y を学習しますが、この研究では、LR 画像 x に対応する自然な HR 画像 y の完全な条件付き分布を取得することを目的としています。

これは、モデルが単一の SR 出力を予測するのではなく、複数の可能性のある HR 画像をキャプチャする必要があるため、難しい問題です。この研究の目的は、多数の LR-HR トレーニング ペアを与えられた場合に、分布のパラメーター θ を純粋にデータ駆動型の方法でトレーニングすることです。

条件付きフロー層

フロー層 f^n_θ の設計は、条件が適切に整った逆行列と扱いやすいヤコビアンを確保するために特に注意する必要があります。この課題は[10,11]で初めて取り上げられ、最近では多くの研究の関心を集めています[5,14,21]。

この研究は、RealNVP [11]をベースにした無条件Glowアーキテクチャ[21]から始まります。これらのアーキテクチャで使用されるフロー層は、簡単な方法で条件付きにすることができます[3、49]。研究者らは、その概要を説明し、研究で提案されたアフィンインジェクターレイヤーを紹介しました。

建築

SRFlow のアーキテクチャを図 2 に示します。

アプリケーションと画像処理

研究者らは、SRFlowネットワークを複数のアプリケーションと画像処理タスクに使用しました。この研究で使用された技術は、GANベースの超解像法では利用できないSRFlowネットワークの2つの重要な利点を活用しました[47]。

まず、私たちのネットワークは、単一の画像を予測するのではなく、HR 画像空間内の分布をモデル化します。したがって、複数の可能性のある HR 予測をキャプチャすることで、優れた柔軟性が得られます。これにより、追加のガイダンスやランダム サンプリングを使用して、さまざまな予測を検討できるようになります。

第二に、フローネットワークf_θ(y; x)は完全に可逆なエンコーダー/デコーダーです。したがって、任意の HR 画像は潜在空間にエンコードされ、 として正確に再構築できます。この全単射対応により、潜在空間と画像空間の両方で柔軟な操作が可能になります。

確率的超解像

LR 画像 x が与えられた場合、さまざまな SR 予測をサンプリングすることで、SRFlow によって学習された分布を調査できます。フローベースのモデルで観察されているように、分散が小さいサンプリングで最良の結果が得られます[21]。したがって、分散 τ (温度とも呼ばれる) を持つガウス分布を使用します。 τ = 0.8 の場合、結果は以下の図 3 に示されます。

LR 一貫性スタイル転送

LR 画像 x を超解像する場合、SRFlow を使用すると、既存の HR 画像のスタイルを転送できます。

下の図 4 は、画像内の顔の特徴、髪の色、目の色のスタイル転送を示しています。

潜在空間の正規化

研究者らは、SRFlow ネットワーク f_θ の可逆性と学習した超解像事後分布を利用して、より高度な画像処理技術を開発しました。この方法の中心的な考え方は、目的のコンテンツを含む任意の HR 画像を潜在空間にマッピングすることです。潜在空間では、潜在的な統計が、指定された LR 画像内の低周波情報と一致するように正規化されます。 x を低解像度画像、 を任意の高解像度画像(LR 画像 x と同じである必要はありません)とします。この研究の目的は、LR 画像 x と一致する画像コンテンツを含む HR 画像 y を取得することです。

画像コンテンツの移行

この研究は、他の画像の内容を転送することで HR 画像を操作することを目的としています。 x を LR 画像、y を対応する HR 画像とします。超解像画像を処理している場合は、x の SR サンプルになります。ただし、x を y の縮小バージョンに設定することで、既存の HR 画像 y を操作することもできます。研究者たちは、下の図 5 に示すように、他の画像の内容を y の画像空間に直接埋め込むことで y を操作しました。

画像の復元

研究者らは学習した画像事後分布を画像復元タスクに適用し、その機能をさらに向上させました。ここで研究者らは、超解像のためだけにトレーニングされた同じ SRFlow ネットワークを使用したことに注意してください。研究者らは、ノイズや圧縮アーティファクトなど、画像内の高周波情報に大きな影響を与える要因を調査した。

実験

研究者らは、提案した方法を現在の SOTA 方法と比較し、制御変数分析を実行しました。

顔の超解像

この研究では、CelebAテストセットの5000枚の画像に基づいて顔超解像画像タスクにおけるSRFlowのパフォーマンスを評価し、バイキュービック、RRDB [47]、ESRGAN [47]、ProgFSR [19]と比較しました。

一般的な超解像度

研究者らは、DIV2K 検証セットでの一般的な超解像タスクにおける SRFlow のパフォーマンスを評価し、Bicubic、EDSR、RRDB、ESRGAN、RankSRGAN と比較しました。

GANベースの方法[47,56]と比較して、SRFlowはPSNR、LPIPS、LR-PSNRの結果が大幅に改善され、PIQUEとBRISQUEでも優れた結果が得られました。

図 8 の視覚化結果は、EDSR と RRDB の知覚効果が乏しく、これらの結果では高周波の詳細がほとんど生成されないことを示しています。対照的に、SRFlow は ESRGAN と比較して豊富な詳細を生成し、優れた知覚結果を達成できます。

最初の行に示されているように、ESRGAN によって生成された画像には、複数の場所にひどい変色アーティファクトとリンギング パターンがあります。一方、SRFlow はより安定した一貫性のある結果を生成できます。

制御変数研究

さらに、深さと幅という2つの要因の影響を研究するために、研究者らは制御変数実験を実施しました。図9はCelebAデータセットの結果を示しています。

タスクの要件に応じて適切なタイプのデータベースを選択するにはどうすればよいでしょうか?

AWS が公開したホワイトペーパー「特化データベースの時代へ」では、リレーショナル、キーバリュー、ドキュメント、インメモリ、グラフ、時系列、台帳、ドメインワイドカラムの 8 種類のデータベースが紹介され、それぞれの利点、課題、主なユースケースが一つずつ分析されています。

<<:  Python で多層パーセプトロン ニューラル ネットワークを実装する

>>:  ロボットと触覚センシング技術の衝突、人間とロボットの触覚センシングを初めて探る記事

ブログ    

推薦する

USTCのニューラルネットワークとエンドツーエンドのトレーニングフレームワークは、教育環境が学生の能力に与える影響を調査する

[[424271]]中国科学技術大学の研究者らは、教育コンテキスト認識型認知診断フレームワークを提案...

初心者の機械学習エンジニアが犯しがちな6つの間違い

機械学習では、製品やソリューションを構築する方法が多数あり、それぞれが異なることを前提としています。...

モバイルロボットソフトウェアの自動テストの課題への対応

自動化されたモバイル ホーム ロボットの複雑さを探り、セットアップの特有の課題と制約の克服に焦点を当...

潜在能力を解き放つ: 人工知能がパーソナライズされた学習に与える影響

急速に進化する今日の教育環境では、テクノロジーの統合がかつてないほど普及しています。さまざまな技術の...

...

[GPT-4理論] GPT-4のコア技術を探る

序文GPT-4はリリースされてからしばらく経ちますが、セキュリティなどのさまざまな理由から、Open...

3月にGithubで最も人気のあるデータサイエンスと機械学習のプロジェクト

Analytics Vidhya は最近、3 月の GitHub で上位 5 つのデータ サイエンス...

鳥の巣のような大きな会場で迷う心配はありません。AI+AR技術が冬季オリンピックを助けます

北京冬季オリンピックの開会式では、人工知能、5G、クラウドコンピューティングなど数多くの最新技術が活...

人工知能時代の到来とともに、私たちはどんな知識を学ぶべきでしょうか?

将来、AI知能ロボット翻訳は根本的な進歩を遂げ、筆記翻訳、口頭通訳、同時通訳など、人間による翻訳作業...

Huawei Cloud TechWave人工知能スペシャルデーでは、インテリジェントプロセスロボットが効率的に動作する方法を紹介します

新興テクノロジーは何千もの業界に影響を及ぼしています。近年、AI+自動化はますます多くの企業や組織で...

...

世界初、上海が人工知能の教科書を出版! 2000年代以降は新たなスキルを使って世界を変えるのでしょうか?

「無力で、自分のやりたいことができない」。これは、世界一の囲碁プレイヤーである柯潔氏が4月27日に...

...

ハッカーはパニックに陥っています!サイバーセキュリティにおける機械学習の包括的な説明

[51CTO.com からのオリジナル記事] 現在、インターネット上には機械学習 (ML)、人工知能...

AIサークルが爆発した!マイクロソフトがトランスフォーマーのブロックを解除、シーケンスの長さが10億以上に拡大

ビッグデータダイジェスト制作AIサークルが爆発した! Microsoft が立ち上げた LONGNE...