テンセントの古い写真修復アルゴリズムはオープンソースで、髪の毛まで詳細に再現されており、3つの事前トレーニング済みモデルがダウンロード可能

テンセントの古い写真修復アルゴリズムはオープンソースで、髪の毛まで詳細に再現されており、3つの事前トレーニング済みモデルがダウンロード可能

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

古い写真を細部まで復元できるGFPGANを覚えていますか?

現在、そのコードは正式にオープンソースになっています。

公式はGitHubに3つの学習済みモデルをアップロードしています。3つのバージョンの効果は以下のとおりです。

その中で、V1.3は最も最近に更新されたバージョンであり、修復効果はより自然です。同時に、低品質の入力でも高品質の結果を出力できます。

GFPGAN はリリース以来、GitHub で17,000 を超えるスターを獲得し、ホット リストのトップにもなりました。

Twitter 上では試用プレイの熱狂の波も巻き起こしました。

このプロジェクトはTencent PCG ARC Laboratoryによって提案され、関連論文がCVPR2021に掲載されました。

3つの事前トレーニング済みモデルから選択可能

オープンソース コードは、主に事前トレーニングとトレーニングの 2 つの部分に分かれています。

事前トレーニングでは、GFPGAN の V1.3 バージョンを例として取り上げ、事前トレーニング済みモデルのダウンロード アドレスを示します。

 wget https://github.com/TencentARC/GFPGAN/releases/download/v1.3.0/GFPGANv1.3.pth -P Experiments/pretrained_models

次に、たった 1 行のコードで事前トレーニング済みモデルの推論を開始できます。

 python inference_gfpgan.py - i 入力/ whole_imgs - o 結果- v 1.3 - s 2

詳細は以下の通りです。

 使用方法: python inference_gfpgan.py - i inputs / whole_imgs - o results - v 1.3 - s 2 [ options ] ...

-h このヘルプを表示
-i input 入力画像またはフォルダ デフォルト: inputs / whole_imgs
-o output 出力フォルダ デフォルト: results
-v version GFPGAN モデルのバージョンオプション: 1 | 1.2 | 1.3デフォルト: 1.3
-s アップスケール画像最終的なアップサンプリングスケール デフォルト: 2
- bg_upsampler 背景アップサンプラーデフォルト: realesrgan
- bg_tile 背景サンプラータイルサイズテスト中にタイルがない場合は0 ですデフォルト: 400
-suffix 復元された接尾辞
-only_center_face 中心のみ復元します
- 整列入力整列です
-ext 画像拡張子オプション: auto | jpg | pngauto は入力同じ拡張子使用することを意味しますデフォルト: auto

ここで、公式は 3 つの事前トレーニング済みモデル間の違いも示しています。

初期バージョンと比較すると、後者の 2 つのバージョンでは復元精度が大幅に向上しました。

V1.2ではシャープネスがより顕著になり、美容効果も加わったため、場合によっては不自然に見えてしまいます。

バージョン 1.3 ではこの問題は明らかに解決されており、出力がより自然になり、二次修復も可能になりました。ただし、欠点としては、顔の特徴が変わることがあることです (下の写真のアン・ハサウェイの例など)。

つまり、V1.3 は V1.2 よりも完全に優れているわけではなく、必要に応じて適切なモデルを選択できます。

次はトレーニングの部分です。

まず、選択されたデータセットは FFHQ です。

次に、ダウンロードした事前トレーニング済みモデルとその他のデータを experiments/pretrained_models フォルダーに配置します。

その他のデータは次のとおりです:

事前トレーニング済みの StyleGAN2 モデル、FFHQ 顔位置合わせモデル ファイル、ArcFace モデル。

次に、対応する構成ファイル options/train_gfpgan_v1.yml を変更します。

ここでは、顔の位置合わせオプションのないシンプルなバージョン (train_gfpgan_v1_simple.yml) を試すこともできます。

ついにトレーニングを開始できます。

 python -m torch.distributed.launch --nproc_per_node = 4 --master_port = 22021 gfpgan /train.py -opt options /train_gfpgan_v1.yml --launcher pytorch また 公式には2つ注意事項があります

まず、より高品質な顔画像を入力することで、復元効果を高めることができます。

第二に、トレーニング中に美化などの画像の前処理が必要になる場合があります。

V1.2 バージョンをトレーニングすることを選択した場合、公式では微調整ガイドも提供されます。

GFPGAN V1.2 は、導入が容易なクリーンなアーキテクチャを使用しています。これは双線形モデルから変換されたものなので、変換前に元のモデルを微調整する必要があります。

デモ

オープンソースコードに加えて、公式は複数のオンライン試用チャネルも開設しました。

ここでは、HuggingFace を使用して具体的な効果を示します。

まずは修復されたモナ・リザを見てみましょう。顔のノイズが除去されただけでなく、髪に巻かれたスカーフまではっきりと見えます。

修復されたアインシュタインの顔のしわは笑うとより目立つようになり、髪の毛や無精ひげも修復された。

最後に、復元された若き日の馬化騰の写真を見てみましょう。写真はまるで昨日撮影されたかのように鮮明です。

盲目の顔の修復 + 大量の事前情報

GFPGANは、主にブラインドフェイス修復を使用して、さまざまな顔画像を迅速かつ高解像度で修復できます。   (盲目の顔の修復)。

従来の顔の復元方法は、主に同じシーン内の特定の劣化した顔画像を復元することに重点を置いています。

たとえば、これまでの顔の復元方法では、オバマ氏の写真が白人の顔に復元されてしまうことがありました。これは、データセットの偏りに加えて、アルゴリズムが各顔の特徴をモデル化できなかったことが原因である可能性もあります。

ブラインド顔復元はこの問題を非常にうまく解決します。これは、点広がり関数が不明または不確実な場合に、復元する低品質の顔画像から鮮明で高品質のターゲット顔画像を復元するプロセスを指します。

これは本質的には非マッチング顔復元方法です。

しかし、これまでのブラインド顔復元法の中には細部の性能が十分でなかったものもあったため、著者は GFPGAN に豊富な事前情報を導入し、高品質の出力効果を確保しました。

具体的には、GFP-GAN モデル フレームワークでは、劣化除去モジュールと事前トレーニング済みの GAN が主に事前確率として使用されます。

2 つのモジュールは、潜在エンコーディング マッピングと複数のチャネル分割空間特徴変換レイヤー (CS-SFT) を介して接続されます。

トレーニングの過程では、まず低品質の顔に対してノイズ低減などの大まかな処理を施し、その後顔情報を保持する必要があります。

忠実度に関しては、研究者は顔の構成要素の損失を導入して、どの詳細を強調して保持する必要があるかを判断し、次にアイデンティティ保持損失を使用してそれらを修復しました。

チームについて

この論文の筆頭著者は、Tencent ARC Lab(深圳アプリケーション研究センター)の研究者である Xintao Wang 氏です。

彼は浙江大学で学士号を取得し、香港中文大学で博士号を取得しました。

博士課程では、Tang Xiaoou教授とChen Change Loy教授に師事しました。

彼の研究対象にはコンピュータービジョンとディープラーニングがあり、特に画像とビデオの復元に重点を置いています。

GitHub アドレス:

https://github.com/TencentARC/GFPGAN

論文の宛先:

https://arxiv.org/abs/2101.04061

トライアルアドレス:

https://huggingface.co/spaces/akhaliq/GFPGAN

<<:  日本のCGマスターがまた登場!リアルタイムの顔キャプチャのための 3D モデリング ソフトウェア

>>:  GPT-3 ハイパーパラメータは単一の GPU で解決できます。まず小さなモデルをトレーニングし、ワンクリックで移行します

ブログ    

推薦する

大企業の面接官によく聞かれるアルゴリズム図:スタック内の最小値を見つける方法がまだわかりませんか?

今日のインタビューの質問はこれです...トピックスタックデータ構造を定義します。この型でスタックの最...

機械学習、データサイエンス、人工知能、ディープラーニング、統計などの違い。

データ サイエンスは幅広い分野であるため、まずはあらゆるビジネスで遭遇する可能性のあるデータ サイエ...

顔認識エンジンのトップ 5 (テキストにイースター エッグあり)

[51CTO.com クイック翻訳] ご存知のとおり、顔の特徴は指紋ほどユニークで永続的ではありま...

Huggingfaceの機械学習科学者が、ホットなラマ2を特集する分析記事を執筆

Meta は無料の商用バージョンである Llama 2 をリリースし、ネットワーク全体を席巻しました...

金融ロボアドバイザーは3つのトレンドによって増加傾向にある

編集者注: ロボット アドバイザーの登場により、従来のアドバイザーはどこへ向かうのでしょうか。これは...

機械学習のバックボーン: モデル構築のためのインフラストラクチャ ツールは何ですか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...

...

GPT-3: 高く評価されている交通の星ですが、大きな欠陥があり、非常に危険です...

昨年、最も人気があったトラフィックスターはGPT-3でした。GPT-3は質問に答えたり、記事を書いた...

不動産会社のデジタル変革は差し迫っています。これらの AI イノベーションは試してみる価値があるかもしれません。

不動産会社のデジタル変革は差し迫っています。試してみるべき革新的な方法をいくつかご紹介します。今日の...

人工知能が企業コミュニケーションに及ぼす10の影響

職場にソフトウェア ロボットや人工知能 (AI) が導入されると考えると、一部の労働者は不安を感じる...

2021年のAI展望

人工知能は進歩し続け、企業の運営方法や私たち自身の日常の経験を変えています。実際、AI はほぼすべて...

モノのインターネット、人工知能、ブロックチェーン、どれがあなたにぴったりでしょうか?

今はお金を稼ぐのが難しく、ビジネスも簡単ではないと言う人もいますが、今こそ最高の時代だと言う人もいま...

人工知能が私たちの日常生活を変える5つの方法

人工知能はもはや未来的な概念ではなく、私たちの日常生活に欠かせないものとなっています。私たちが目覚め...