テンセントの古い写真修復アルゴリズムはオープンソースで、髪の毛まで詳細に再現されており、3つの事前トレーニング済みモデルがダウンロード可能

テンセントの古い写真修復アルゴリズムはオープンソースで、髪の毛まで詳細に再現されており、3つの事前トレーニング済みモデルがダウンロード可能

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

古い写真を細部まで復元できるGFPGANを覚えていますか?

現在、そのコードは正式にオープンソースになっています。

公式はGitHubに3つの学習済みモデルをアップロードしています。3つのバージョンの効果は以下のとおりです。

その中で、V1.3は最も最近に更新されたバージョンであり、修復効果はより自然です。同時に、低品質の入力でも高品質の結果を出力できます。

GFPGAN はリリース以来、GitHub で17,000 を超えるスターを獲得し、ホット リストのトップにもなりました。

Twitter 上では試用プレイの熱狂の波も巻き起こしました。

このプロジェクトはTencent PCG ARC Laboratoryによって提案され、関連論文がCVPR2021に掲載されました。

3つの事前トレーニング済みモデルから選択可能

オープンソース コードは、主に事前トレーニングとトレーニングの 2 つの部分に分かれています。

事前トレーニングでは、GFPGAN の V1.3 バージョンを例として取り上げ、事前トレーニング済みモデルのダウンロード アドレスを示します。

 wget https://github.com/TencentARC/GFPGAN/releases/download/v1.3.0/GFPGANv1.3.pth -P Experiments/pretrained_models

次に、たった 1 行のコードで事前トレーニング済みモデルの推論を開始できます。

 python inference_gfpgan.py - i 入力/ whole_imgs - o 結果- v 1.3 - s 2

詳細は以下の通りです。

 使用方法: python inference_gfpgan.py - i inputs / whole_imgs - o results - v 1.3 - s 2 [ options ] ...

-h このヘルプを表示
-i input 入力画像またはフォルダ デフォルト: inputs / whole_imgs
-o output 出力フォルダ デフォルト: results
-v version GFPGAN モデルのバージョンオプション: 1 | 1.2 | 1.3デフォルト: 1.3
-s アップスケール画像最終的なアップサンプリングスケール デフォルト: 2
- bg_upsampler 背景アップサンプラーデフォルト: realesrgan
- bg_tile 背景サンプラータイルサイズテスト中にタイルがない場合は0 ですデフォルト: 400
-suffix 復元された接尾辞
-only_center_face 中心のみ復元します
- 整列入力整列です
-ext 画像拡張子オプション: auto | jpg | pngauto は入力同じ拡張子使用することを意味しますデフォルト: auto

ここで、公式は 3 つの事前トレーニング済みモデル間の違いも示しています。

初期バージョンと比較すると、後者の 2 つのバージョンでは復元精度が大幅に向上しました。

V1.2ではシャープネスがより顕著になり、美容効果も加わったため、場合によっては不自然に見えてしまいます。

バージョン 1.3 ではこの問題は明らかに解決されており、出力がより自然になり、二次修復も可能になりました。ただし、欠点としては、顔の特徴が変わることがあることです (下の写真のアン・ハサウェイの例など)。

つまり、V1.3 は V1.2 よりも完全に優れているわけではなく、必要に応じて適切なモデルを選択できます。

次はトレーニングの部分です。

まず、選択されたデータセットは FFHQ です。

次に、ダウンロードした事前トレーニング済みモデルとその他のデータを experiments/pretrained_models フォルダーに配置します。

その他のデータは次のとおりです:

事前トレーニング済みの StyleGAN2 モデル、FFHQ 顔位置合わせモデル ファイル、ArcFace モデル。

次に、対応する構成ファイル options/train_gfpgan_v1.yml を変更します。

ここでは、顔の位置合わせオプションのないシンプルなバージョン (train_gfpgan_v1_simple.yml) を試すこともできます。

ついにトレーニングを開始できます。

 python -m torch.distributed.launch --nproc_per_node = 4 --master_port = 22021 gfpgan /train.py -opt options /train_gfpgan_v1.yml --launcher pytorch また 公式には2つ注意事項があります

まず、より高品質な顔画像を入力することで、復元効果を高めることができます。

第二に、トレーニング中に美化などの画像の前処理が必要になる場合があります。

V1.2 バージョンをトレーニングすることを選択した場合、公式では微調整ガイドも提供されます。

GFPGAN V1.2 は、導入が容易なクリーンなアーキテクチャを使用しています。これは双線形モデルから変換されたものなので、変換前に元のモデルを微調整する必要があります。

デモ

オープンソースコードに加えて、公式は複数のオンライン試用チャネルも開設しました。

ここでは、HuggingFace を使用して具体的な効果を示します。

まずは修復されたモナ・リザを見てみましょう。顔のノイズが除去されただけでなく、髪に巻かれたスカーフまではっきりと見えます。

修復されたアインシュタインの顔のしわは笑うとより目立つようになり、髪の毛や無精ひげも修復された。

最後に、復元された若き日の馬化騰の写真を見てみましょう。写真はまるで昨日撮影されたかのように鮮明です。

盲目の顔の修復 + 大量の事前情報

GFPGANは、主にブラインドフェイス修復を使用して、さまざまな顔画像を迅速かつ高解像度で修復できます。   (盲目の顔の修復)。

従来の顔の復元方法は、主に同じシーン内の特定の劣化した顔画像を復元することに重点を置いています。

たとえば、これまでの顔の復元方法では、オバマ氏の写真が白人の顔に復元されてしまうことがありました。これは、データセットの偏りに加えて、アルゴリズムが各顔の特徴をモデル化できなかったことが原因である可能性もあります。

ブラインド顔復元はこの問題を非常にうまく解決します。これは、点広がり関数が不明または不確実な場合に、復元する低品質の顔画像から鮮明で高品質のターゲット顔画像を復元するプロセスを指します。

これは本質的には非マッチング顔復元方法です。

しかし、これまでのブラインド顔復元法の中には細部の性能が十分でなかったものもあったため、著者は GFPGAN に豊富な事前情報を導入し、高品質の出力効果を確保しました。

具体的には、GFP-GAN モデル フレームワークでは、劣化除去モジュールと事前トレーニング済みの GAN が主に事前確率として使用されます。

2 つのモジュールは、潜在エンコーディング マッピングと複数のチャネル分割空間特徴変換レイヤー (CS-SFT) を介して接続されます。

トレーニングの過程では、まず低品質の顔に対してノイズ低減などの大まかな処理を施し、その後顔情報を保持する必要があります。

忠実度に関しては、研究者は顔の構成要素の損失を導入して、どの詳細を強調して保持する必要があるかを判断し、次にアイデンティティ保持損失を使用してそれらを修復しました。

チームについて

この論文の筆頭著者は、Tencent ARC Lab(深圳アプリケーション研究センター)の研究者である Xintao Wang 氏です。

彼は浙江大学で学士号を取得し、香港中文大学で博士号を取得しました。

博士課程では、Tang Xiaoou教授とChen Change Loy教授に師事しました。

彼の研究対象にはコンピュータービジョンとディープラーニングがあり、特に画像とビデオの復元に重点を置いています。

GitHub アドレス:

https://github.com/TencentARC/GFPGAN

論文の宛先:

https://arxiv.org/abs/2101.04061

トライアルアドレス:

https://huggingface.co/spaces/akhaliq/GFPGAN

<<:  日本のCGマスターがまた登場!リアルタイムの顔キャプチャのための 3D モデリング ソフトウェア

>>:  GPT-3 ハイパーパラメータは単一の GPU で解決できます。まず小さなモデルをトレーニングし、ワンクリックで移行します

推薦する

今後数年間の人工知能研究が避けられない3つの重要な問題

現在、人工知能は産業のアップグレードを積極的に推進しており、製品の品質とコア能力を向上させています。...

PaLMを超えて!北京大学のマスターがDiVeRSeを提案し、NLP推論ランキングを一新した。

1,750億のパラメータを持つGPT-3や5,400億のパラメータを持つPaLMなど、大規模言語モ...

...

...

Google、検索結果にAIベースの「要約」機能を追加

Googleは8月4日、今年のGoogle I/Oで「Search Generative Engin...

Google Gemini の大きな転換? Stanford Meta Chinese は推論性能が GPT-3.5 よりも優れていることを証明

Gemini の推論能力は本当に GPT-4 よりも弱いのでしょうか?以前、Google の大ヒット...

Androidスマートフォンを開くと、画面全体に「Big Model」という3つの単語が表示されます。

最近では、Android メーカーは大きなモデルなしで携帯電話の発表会を開催しようとはしません。 O...

...

...

...

...

手紙を開かずに読むことはできますか? MITのX線技術がネイチャー誌に掲載される

2世紀前に折りたたまれた手紙の内容を、開かずに読むにはどうすればよいでしょうか?アルゴリズムはそれを...