CVPR で最も興味深い論文 | AI はぼやけた写真を復元できる

CVPR で最も興味深い論文 | AI はぼやけた写真を復元できる

人生で、私たちは誰でもぼやけた画像に遭遇します。昔は、ぼやけた画像を復元することは不可能でした。PSで修復すると、変形や差異が生じていました。しかし、今ではAIが盲目の顔を正確かつ完全に復元できます。

1. 概要

B  リンド顔 これらは通常、顔の幾何学的事前分布や参照事前分布などの顔の事前分布に依存して、現実的で真実の詳細を回復します。ただし、高品質の参照にアクセスできない場合、非常に低品質の入力では正確な幾何学的事前分布を提供できず、現実的なシナリオでの適用性が制限されます。

そのため、一部の研究者は、事前トレーニング済みの顔 GAN にカプセル化された豊富で多様な事前確率を使用してブラインド顔回復を実行する GFP-GAN を提案しました。生成顔事前確率 (GFP) は、新しいチャネル分割空間特徴変換レイヤーを通じて顔の復元プロセスに統合され、新しい方法でリアリズムと忠実度の適切なバランスを実現できます。強い 地球外生命体 慎重に設計することで、GFP-GAN は顔の詳細を復元し、色を一度に強調することができますが、GAN 反転法では推論時に高価な画像固有の最適化が必要になります。広範囲にわたる実験により、この新しい方法は合成データセットと実際のデータセットの両方において最先端の方法よりも優れたパフォーマンスを達成することが示されました。

2.まず効果を知る

ハイフェイスGAN   69   ]:   Lingbo Yang、Chang Liu、Pan Wang、Shanshe Wang、Peiran Ren、Siwei Ma、Wen Gao。Hifacegan:協調的な抑制と補充による顔の再生。ACM Multimedia、2020

DFDネット  46   ]:   Xiaoming Li、Chaofeng Chen、Shangchen Zhou、Xianhui Lin、Wangmeng Zuo、Lei Zhang。ディープマルチスケールコンポーネント辞書によるブラインド顔復元。ECCV、2020年

ワンら  63   ]:  ワン・ズーユ、張博、陳東東、潘張、董陳、廖静、方文。古い写真を蘇らせる。CVPR、2020年

  54   ]:   Sachit Menon、Alexandru Damian、Shijia Hu、Nikhil Ravi、Cynthia Rudin。Pulse: 生成モデルの潜在空間探索による自己教師あり写真アップサンプリング。CVPR、2020年

この研究では、GFP を現実世界のブラインド フェイス復元に利用します。ここでは、事前確率が StyleGAN などの事前トレーニング済みの顔生成敵対ネットワーク (GAN) モデルに暗黙的にカプセル化されています。これらの顔 GAN は、形状、顔の質感、色などの豊富で多様な事前情報を提供し、バリエーションに富んだ忠実な顔を生成することができ、顔の詳細を共同で復元し、色を強調することができます (上図参照)。

しかし、そのような生成事前確率を回復プロセスに組み込むことは困難です。これまでの試みでは、通常、GAN 反転が使用されていました。まず、劣化した画像を、事前トレーニング済みの GAN の潜在コードに「反転」し、次に、コストのかかる画像固有の最適化を実行して画像を再構築します。視覚的にリアルな出力が得られるにもかかわらず、低次元の潜在コードでは正確な回復を導くのに不十分なため、忠実度の低い画像が生成されることがよくあります。

3. 新しいフレームワーク

GFP-GAN  フレームワークの概要: 劣化除去モジュールと、顔の事前学習として事前トレーニングされた顔 GAN で構成されます。これらは、潜在コード マッピングと複数のチャネル分割空間特徴変換 (CSSFT) レイヤーで構成されています。提案された CS-SFT 変調は、忠実度と忠実度の間の良好なバランスを実現します。トレーニング中は、1) ピラミッド復元ガイダンスを使用して現実世界の複雑な劣化を除去し、2) 顔のコンポーネント損失と識別子を使用して顔の詳細を強調し、3) アイデンティティ保存損失を使用して顔のアイデンティティを保存します。

敵対的損失

顔面構成の喪失

アイデンティティ保持喪失

全体的なモデルの目的は、上記の損失の組み合わせです。

トレーニングデータ

これまでのほとんどの研究と同様に、GFP-GAN は合成データ トレーニングを使用します。研究者たちは、適切な範囲の合成データでトレーニングすれば、現実世界のほとんどの顔をカバーできることを発見した。 GFP-GAN のトレーニングでは、ガウスぼかしとダウンサンプリングという古典的な劣化モデルを採用しています。  次にノイズを追加し、最後に JPEG 圧縮を使用します。

4. 実験と効果の可視化

合成における定量化 指標の点では、本研究で提案された方法は、LPIPS、FID、NIQEにおいて最良の結果を達成することができる。Deg.は顔認識を指す。   ArcFace モデルのコサイン距離。値が小さいほど、アイデンティティが適切に維持されていることを示します。

<<:  移転可能で適応性のある運転行動予測

>>:  米国の改正規則:自動運転車は人間の制御を必要としない

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

クラウド コンピューティングにおいて人工知能はどのような役割を果たすことができますか?

人工知能の台頭により、誰もがその将来に大きな期待を抱いています。クラウド コンピューティングに関する...

「林季」が中国国際サービス貿易交易会に登場しました! Orange Cloud AIエコシステムが従来の産業の束縛を打ち破る

9月3日午後、「オレンジクラウドテクノロジーイノベーションプラットフォームが産業企業のデジタル変革を...

再現可能なロボット合成のために化学者とロボットが理解できる汎用化学プログラミング言語

化学合成に関する文献の量は急速に増加していますが、新しいプロセスを研究室間で共有し評価するには長い時...

新型コロナウイルスが猛威を振るう中、AI技術は流れを変えることができるのか?

最近、謎の新型コロナウイルスが驚くべき速さで猛威を振るっています。先週木曜日、世界保健機関(WHO)...

0 コーパスで「ラベル付け」してより良い多言語翻訳結果を得る方法

[[409976]]今日の多言語翻訳モデルのほとんどは、英語中心のデータセットで統合モデルをトレーニ...

焦点: 注目すべき 6 つのスマート セキュリティ トレンド

スマート セキュリティは、新しい AI 機能のおかげで、静的なセキュリティ ビデオ録画からリアルタイ...

ディープラーニングと靴を組み合わせると、誰かがそれを使ってストレスレベルを検出しようとします。ワイヤレス操作、84%の精度

ビッグデータダイジェスト制作著者: カレブ現代人の生活プレッシャーはますます大きくなっていると言わざ...

...

AIがクラウドコンピューティングを再定義し、ビジネス効率を向上させる方法

長年にわたり、クラウド コンピューティングは現代のビジネスに欠かせないツールとなり、2020 年には...

AI誇大宣伝はサイバーセキュリティのデフレにおけるバブルなのか?

人工知能は、その概念が最初の電子メールウイルスと同じくらい古いにもかかわらず、「ネットワークにおける...

もう読み間違えないでください!人工知能と人間の知能の違いを理解する

人工知能が賢くなるにつれて、人類を絶滅させるだろうという主張が次々と現れています。実際、多くの有力者...

PaLMを超えて!北京大学のマスターがDiVeRSeを提案し、NLP推論ランキングを一新した。

1,750億のパラメータを持つGPT-3や5,400億のパラメータを持つPaLMなど、大規模言語モ...

あなたは人工知能の前で「透明な人」ですか?

プライバシーがないと感じる人が増えているのは紛れもない事実です。最も直接的な例は、買い物をしたい場合...

C#アルゴリズムに関する面接の質問の簡単な分析

C# アルゴリズムの面接の質問: プログラミング: 猫が叫び、ネズミが全員逃げ出し、飼い主は目を覚ま...