ETHは、画像の超解像と画像の再スケーリングを考慮して、新しい統合フレームワークHCFlowを提案しています。

ETHは、画像の超解像と画像の再スケーリングを考慮して、新しい統合フレームワークHCFlowを提案しています。

[[423154]]

近年、正規化フローモデルは、画像超解像(画像SR)[SRFlow、ECCV2020]および画像再スケーリング[IRN、ECCV2020]タスクで驚くべき結果を達成しました。これら 2 つのタスクは根本的に異なりますが、非常に多くの類似点があります。上記2つの研究を基に、 ETHチューリッヒのコンピュータビジョン研究所の研究者らは、統一されたフレームワークを使用して画像の超解像と画像の再スケーリングを処理するHCFlowを提案し、一般的な画像の超解像、顔画像の超解像、画像の再スケーリングなどのタスクで最高の結果を達成しました。この論文はICCV2021に採択されました。

  • 論文アドレス: https://arxiv.org/abs/2108.05301
  • Githubアドレス: https://github.com/JingyunLiang/HCFlow

まとめ

最近、Normalizing Flow モデルは低レベルビジョンの分野で驚くべき成果を達成しました。画像超解像(画像SR)では、低解像度画像とは異なるディテールを持つ高品質で多様なフォトリアリスティック画像を予測するために使用できます。画像の再スケーリングでは、ダウンサンプリングとアップサンプリングのプロセスを共同でモデル化してパフォーマンスを向上させるために使用できます。

この論文では、これら 2 つの問題に対処するために使用できる統合フレームワーク HCFlow を提案します。具体的には、HCFlow は、低解像度画像と失われた高周波情報を確率的にモデル化することで、高解像度画像と低解像度画像間の一対一変換を学習します。高頻度情報のモデリング プロセスは、条件付きで低解像度の画像に複数レベルで依存します。トレーニング中、この研究では最適化のために最大尤度損失関数を使用し、知覚損失と生成的敵対的損失 (GAN 損失) を導入してモデル効果をさらに向上させました。

実験結果によると、HCFlow は一般的な画像の超解像度、顔画像の超解像度、画像の再スケーリングなどのタスクで最高の結果を達成しました。

画像の超解像度と画像の再スケーリング

画像超解像の目的は、低解像度の画像から高解像度の画像を再構築することです。通常は低解像度の画像空間が与えられます。たとえば、バイキュービックダウンサンプリング画像などです。

画像の再スケーリングの目的は、高解像度の画像を視覚効果の高い低解像度の画像にダウンサンプリングし、元の高解像度の画像を適切に復元できるようにすることです。画像超解像タスクとは異なり、画像再スケーリングにおける低解像度画像空間は自分で定義できます。主な適用シナリオは、画像のストレージと帯域幅を削減することです。

方法

正規化フローの簡単な紹介

正規化フロー モデルは、ターゲット空間 (高解像度画像 x など) と潜在空間 (ガウス分布に従う潜在変数 z など) 間の一対一の関係を学習することを目的としています。そのモデル構造は通常、可逆変換の複数の層で構成された可逆ニューラル ネットワークです。

変数変換式と連鎖律に従って、モデルパラメータは次の最大尤度損失関数によって最適化できます。

詳しい入門情報については、以下を参照してください。

  • RealNVP 論文: https://arxiv.org/abs/1605.08803
  • グロー論文: https://arxiv.org/abs/1807.03039
  • エリック・ジャンのブログ: https://blog.evjang.com/2018/01/nf1.html
  • ウォータールー大学 CS480: https://www.youtube.com/watch?v=3KUvxIOJD0k

低解像度画像空間モデリング

画像の超解像度化と画像の再スケーリングのタスクには、実際には画像の劣化 (ダウンサンプリング) と画像の超解像度化 (アップサンプリング) のプロセスがあります。本研究では、正規化フローモデルに基づいて、高解像度画像 x と低解像度画像 y の間の可逆な全単射変換と、高頻度情報をエンコードする潜在変数 a を学習することができます。

。自然画像に対して直接確率モデリングを行うことは難しいため、本研究では実際の低解像度画像y*に基づいた条件付き分布モデルを設計した。

理想的には、研究者はyとy*が可能な限り近いことを望んでいるので、p(y|y*)をディラック関数として表現する。

そしてp(y|y*)は分散が非常に小さいガウス分布で近似されます。

高頻度情報p(a|y)は別の正規化フローモデルを通じてガウス分布p(z)に変換できるため、モデル全体は次のように定義できます。

このようにして、高解像度の画像 x は、可逆ニューラル ネットワークを通じて低解像度の画像 y と高頻度情報をエンコードする潜在変数 z に変換され、両方とも既知のパラメータを持つガウス分布に従います。したがって、最大尤度損失関数を計算することで、モデルを簡単に最適化できます。

多層ネットワーク構造

低解像度画像と高頻度情報(すなわちp(a|y))の関係をより適切にモデル化するために、本研究ではさらに、多段階の条件付き依存性モデリングフレームワークを提案した。ネットワーク全体の可逆性を保ちながら、高周波情報を段階的に復元し、高解像度の画像を再構築します。下の図に示すように、正規化されたフローの順方向プロセスはバイナリ ツリーの深さ優先トラバーサルに似ていますが、逆方向プロセスは最深層から最初の層まで段階的に計算されます。 y と a は、それぞれ各層の低周波情報と高周波情報を表します。数字は計算順序を表し、青い矢印は条件依存関係を表します。

具体的なネットワーク構造を下図に示します。

実験

画像超解像

この研究では、最大尤度損失関数を使用してモデルをトレーニングし、L1損失関数、知覚損失関数、生成的敵対的損失関数(GAN損失)を使用してモデル効果をさらに向上させました。パラメータ数を1/3に削減したHCFlowは、一般画像超解像と顔画像超解像の両方で最高の結果を達成しました。異なるランダムサンプリングでは、さまざまな詳細を持つ高品質で高解像度の画像を生成できます。 GAN ベースのモデルと同様に、正規化フロー ベースのモデルは主に視覚効果に焦点を当てており、通常は PSNR が低下することに注意してください。

画像の再スケーリング

画像の再スケーリングでは通常、再構成結果の多様性に重点が置かれないため、HCFlow は IRN (ECCV2020) と一致するトレーニング戦略を採用し、順方向プロセスと逆方向プロセスをそれぞれエンコード プロセスとデコード プロセスとして扱います。トレーニング損失関数には、高解像度画像と低解像度画像に対する L1 損失関数と、潜在変数に対する制約が含まれます。同様のモデルパラメータで、0.10~0.34dBの改善が達成されました

モデルの詳細については、[原著論文]とオープンソースの[コード]をお読みください。

<<:  LSTMとトランスフォーマーの利点を組み合わせることで、DeepMindの強化学習エージェントはデータ効率を向上させます

>>:  ポストエピデミック時代のスマートエネルギー管理にエッジAIを活用する方法

ブログ    
ブログ    

推薦する

...

AIは急速に発展しています。AIは人間のやりとりに取って代わることができるのでしょうか?

実際、AI と ML はほとんどの人間によるやりとりを置き換えつつあります。市場にはチャットボットや...

変革管理における生成AIの課題

AI が社会に重大なリスクをもたらすという警告が見出しで報じられているにもかかわらず、ボストン コン...

北京冬季オリンピックのブラックテクノロジーが外国人に賞賛される:このロボットがある限り、防疫は安全

昨日、北京冬季オリンピックはブラックテクノロジーでいっぱいだとネットユーザーが言っているのを見ました...

ドローンは思考によって制御される新しい方法を経験しており、その商業的展望は非常に刺激的です。

近年、ドローン業界は非常に急速な発展を遂げていると言えます。製品面では数量が大幅に増加し、種類もます...

AI技術がピカソの隠された絵画の発見を助ける

[[429170]]最近、外国メディアの報道によると、有名になる前のパブロ・ピカソは、必ずしも画材を...

アルゴリズムの問​​題を解決するための Python 3 コード フレームワーク

序文現在インターンシップをしており、仕事量はそれほど多くないので、空き時間を利用してPATのウェブサ...

人工知能は最終的に人間に取って代わるのでしょうか?現時点では、あらゆる面で人間を超えることは難しいでしょう。

ここ数年、人工知能技術が徐々に発展するにつれ、社会の中で人工知能に対するさまざまな見方が現れ始めまし...

ネットワーク人工知能とは何ですか?

今日、ますます多くの企業が人工知能 (AI) とネットワークの相乗効果を活用しています。ユーザーデバ...

知識とスキルの限界を押し広げる 24 の機械学習プロジェクト

導入データサイエンス (機械学習) プログラムは、この分野でのキャリアをスタートさせる有望な方法を提...

...

...

...

...

2021年の10のAIトレンド

[[361168]] IDCは2019年9月の時点で、2023年までに人工知能技術への支出が3倍以上...