反復コラボレーション法に基づく顔の超解像

反復コラボレーション法に基づく顔の超解像

2020CVPR 受理論文「Deep Face Super-Resolution with Iterative Collaboration between Attentive Recovery and Landmark Estimation」を共有します。この論文では、反復的なコラボレーションに基づく顔の超解像アルゴリズムを提案しています。

この方法は、16x16 の低解像度画像を 128x128 に超解像度化し、CelebA データセットと Helen データセットでそれぞれ27.37 と 26.69の PSNR 指標を達成し、既存の顔超解像度アルゴリズムを上回ります。

コードは現在オープンソースです:

https://github.com/Maclory/Deep-Iterative-Collaboration

(現在72個の星があります)

論文著者情報:

著者は、清華大学オートメーション学院、国家インテリジェント技術・システム重点実験室、北京国家情報科学技術研究センター、清華大学深圳国際大学院に所属しています。

01

モチベーション

これまでの顔の超解像アルゴリズムでは、顔のキーポイントなどの顔の事前情報が通常導入され、ネットワークがよりリアルな超解像画像を生成できるように支援していました。しかし、これらの方法には 2 つの問題があります。

  • 低解像度画像LRや粗い超解像度画像SRから得られる顔の事前情報は必ずしも正確ではない
  • ほとんどの方法では、単純な連結操作で面の事前情報を使用しますが、事前情報を十分に活用することはできません。

上記の 2 つの問題を解決するために、著者らは反復協力に基づく顔超解像アルゴリズムDICを提案しました。また、生成された画像をよりリアルにするために、ネットワークの GAN バージョンであるDICGANも提案しました。

02

方法

ネットワーク構造図からわかるように、事前ネットワークが粗いSRから正確な事前情報を取得できない問題を解決するために、著者はフィードバック反復ネットワークを設計しました。これにより、生成された超解像画像は実際の画像にますます近づき、より現実的な画像は事前ネットワークを通じてより正確な事前情報を抽出して画像の品質をさらに向上させることができます。

下の図は、この反復メカニズムの利点を示しています。反復回数が増えるにつれて、キーポイントの予測はますます正確になり、生成される画像の品質もますます向上します。著者はまた、反復回数が 3 を超えるとネットワーク パフォーマンスの向上が制限されることを実験によって証明しました。

一方、顔の事前情報を最大限に活用するために、著者は次の図に示すように Attentive Fusion モジュールを提案しました。

顔のキーポイント予測ネットワーク(ネットワーク構造図の Face Alignment モジュール)によって出力された特徴マップを、左目、右目、口、鼻、顔の輪郭の 5 つのグループに分割していることがわかります。次に、各グループの特徴マップをソフトマックス後に合計して、各注意行列を取得します。

これら 5 つの注意行列を使用して、ネットワーク内の 5 つのブランチの特徴マップをそれぞれ再重み付けし、それらを合計して融合された特徴を取得します。では、キーポイント予測ネットワークによって出力された特徴マップのどのチャネルが左目用で、どのチャネルが右目用であるかを、著者はどのようにして判断するのでしょうか。作者のオープンソースコードからは、32番目から41番目のチャネルが左目のキーポイントであると規定するなど、これらのチャネルが手動で指定されていることがわかります。  

  1. heatmap.size( 1 ) == 5 の場合:
  2. デタッチする場合はheatmap.detach()を返し、そうでない場合は heatmap を返します。
  3. elifヒートマップ.size( 1 ) == 68 :
  4. 新しいヒートマップ = torch.zeros_like(ヒートマップ[:, : 5 ])
  5. new_heatmap[:, 0 ] = heatmap[:, 36 : 42 ].sum( 1 ) # 左目
  6. new_heatmap[:, 1 ] = heatmap[:, 42 : 48 ].sum( 1 ) # 右目
  7. new_heatmap[:, 2 ] = heatmap[:, 27 : 36 ].sum( 1 ) # 鼻
  8. new_heatmap[:, 3 ] = heatmap[:, 48 : 68 ].sum( 1 ) # マウス
  9. new_heatmap[:, 4 ] = heatmap[:, : 27 ].sum( 1 ) # 顔のシルエット
  10. デタッチする場合はnew_heatmap.detach()を返し、そうでない場合は new_heatmap を返します。
  11. elif heatmap.size( 1 ) == 194 : # ヘレン
  12. 新しいヒートマップ = torch.zeros_like(ヒートマップ[:, : 5 ])
  13. tmp_id = torch.cat((torch.arange( 134 , 153 ), torch.arange( 174 , 193 )))
  14. new_heatmap[:, 0 ] = heatmap[:, tmp_id].sum( 1 ) # 左目
  15. tmp_id = torch.cat((torch.arange( 114 , 133 ), torch.arange( 154 , 173 )))
  16. new_heatmap[:, 1 ] = heatmap[:, tmp_id].sum( 1 ) # 右目
  17. tmp_id = トーチ.arange( 41 , 57 )
  18. new_heatmap[:, 2 ] = heatmap[:, tmp_id].sum( 1 ) # 鼻
  19. tmp_id = トーチ.arange( 58 , 113 )
  20. new_heatmap[:, 3 ] = heatmap[:, tmp_id].sum( 1 ) # マウス
  21. tmp_id = torch.arange( 0 , 40 )
  22. new_heatmap[:, 4 ] = heatmap[:, tmp_id].sum( 1 ) # 顔のシルエット
  23. デタッチする場合はnew_heatmap.detach()を返し、そうでない場合は new_heatmap を返します。
  24. それ以外
  25. NotImplementedError が発生します ( '顔のランドマーク番号 %d の融合は実装されていません!' % heatmap.size( 1 ))

上記は、この論文の最も重要な 2 つの革新です。ネットワーク全体の動作原理を理解すると、ネットワーク損失関数は簡単に理解できます。

03

結果

次の図は、DIC/DICGAN の結果と他の方法の結果を比較したものです。

DIC/DICGAN によって生成された画像は、より多くの詳細を復元し、よりリアルであることがわかります。 DICGAN は GAN ベースの手法であるため、PSNR 方式の FSRNet よりもインデックスは若干低くなりますが、生成される画像はよりリアルです。これは、現在の超解像タスクでも問題になっています。GAN ベースの方法で生成された画像は視覚的な品質は優れていますが、PSNR インジケーターは低くなります。

04

リソース

  • 論文リンク: https://arxiv.org/pdf/2003.13063.pdf
  • プロジェクトリンク: https://github.com/Maclory/Deep-Iterative-Collaboration

<<:  ロボットが仕事を独占するなら、私たちの仕事は誰が守ってくれるのでしょうか?

>>:  2021 年に注目すべき 4 つの自動化問題

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

百度がナレッジグラフをひっそりとリリース、次世代検索エンジンのプロトタイプを公開

一部のネットユーザーが「Crazy Guess the Idiom」ゲームを解読する最新の戦略を明ら...

生成型人工知能とは何かについて話しましょう

ジェネレーティブ AI は、これまでビジネス パーソンに依存していたモデルをアルゴリズム担当者が生成...

ビジネスニーズに基づいて AI ソリューションを選択するにはどうすればよいでしょうか?

現在、企業では人工知能(AI)をますます幅広く活用しており、自動化する傾向もあります。既存のデータ開...

ソフトマックスボトルネックを超えて: 高ランク RNN 言語モデル

因数分解に基づいて、リカレントニューラルネットワーク (RNN) に基づく言語モデルは、複数のベンチ...

...

工業情報化部:我が国のAIコア産業規模は5000億元に達し、2,500以上のデジタルワークショップとスマートファクトリーが建設されました

2023年中国(太原)人工知能会議が本日、山西省太原で開幕しました。中国工業情報化部科学技術部の任愛...

NLP入門: 中国語のルールベースの単語分割法を3つ教えます

自然言語理解において、トークンは独立して動作できる意味のある最小の言語コンポーネントです。単語の識別...

AIとデジタルワークスペースがパンデミック後の世界のリモートワーカーをサポート

従業員にとってリモートワークが実現可能であることを示す証拠は豊富にあります。 Zoom や Micr...

可観測性はAIの成功の重要な要素の一つである

ますます多くの企業が自社のインフラストラクチャやビジネス プロセスに人工知能を統合するにつれて、シス...

古代から皇帝の寿命は短かった。皇帝も負荷分散アルゴリズムを理解していたら...

[51CTO.com オリジナル記事] 古代の皇帝はハーレムに3000人の美女を抱えていたことは誰...

AIによる教育革命:自己主導型およびガイド型適応型学習の包括的分析

適応型学習は、人工知能などの高度なテクノロジーを活用して、パーソナライズされた学習体験を生み出す教育...

AIと情報サービスが出会うとき:百度脳産業イノベーションフォーラムが成都であなたを待っています

注目の人工知能がインターネットの「伝統的なプロジェクト」情報サービスと出会うと、業界にどのような A...

最強モデル育成チップH200発売! 141Gの大容量メモリ、AI推論が最大90%向上、H100にも対応

Nvidia の Huang 氏は、新世代の GPU チップ H200 で再び市場に参入しました。公...

AIモデルの「レッドチーム」からの迅速な修正を期待しないでください

ホワイトハウスの関係者らが人工知能チャットボットが引き起こす可能性のある社会的危害を懸念する中、シリ...