MDFR: 顔画像復元と顔回転の結合モデルに基づく顔認識法

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

現実の世界では、ポーズが大きい、照明が悪い、解像度が低い、ぼやけている、ノイズがあるなど、多くの要因が顔認識システムの認識性能に影響を与える可能性があります。これらの課題に対処するために、従来の顔認識方法では通常、まず低品質の顔画像を高品質の顔画像に復元してから顔認識を実行します。しかし、これらの方法のほとんどは段階的であり、顔認識に最適なソリューションではありません。

AI Technology Review は本日、この問題に対する優れた解決策を提示する論文を紹介します。この論文では、著者は、これらすべての影響要因を一度に解決するためのマルチ劣化顔復元モデル (Multi-Degradation Face Restoration、MDFR) を提案しています。

原題: 認識のための顔画像復元と正面化の共同作業

論文アドレス: https://ieeexplore.ieee.org/document/9427073/

MDFR は、複数の低品質要因の影響を受ける複数のポーズの顔画像から、高品質の正面顔画像を復元できます。 MDFR は、適切に設計されたエンコーダー/デコーダーネットワーク構造です。

モデルの構築において、著者らは、ポーズ残差学習戦略と 3D ベースのポーズ正規化モジュール (PNM) を導入しました。これにより、入力された顔のポーズと正面の顔のポーズの違いを認識し、この違いを使用して顔の回転学習をガイドできます。

実験では、トレーニング後、MDFR は統合ネットワークを通じて、複数の低品質要因の影響を受けた側面顔画像から高解像度の正面顔画像を一度に復元し、顔アルゴリズムの認識率を効果的に向上できることが示されています。

1.背景と概要

制限のない条件下での顔認識は、コンピュータービジョンにおける重要なタスクです。実際のアプリケーションでは、収集された顔画像には、大きな姿勢、不十分な照明、低解像度、ぼやけ、ノイズなどが含まれる場合があります。顔画像の品質に影響を与えるこれらの要因は、顔認識アプリケーションの失敗につながる可能性があります。これらの問題を解決するために、段階的なモデルを使用して、対応する低品質要因の影響を受けた顔画像を個別に処理する方法、つまり、最初に低品質の顔を高品質の顔画像に復元し、次に顔補正を実行して顔認識に使用する方法が多数あります。

しかし、これらの方法は顔認識の単一の要素のみを考慮しており、顔認識に影響を与える複数の要素に同時に対処できる方法はほとんどありません。したがって、単一の要素に基づくこのタイプの顔処理方法は、制限のない条件下での顔認識には適していません。本論文では、複数の劣化要因に対処し、任意のポーズが与えられた低品質の顔画像から高品質の正面顔を復元する顔復元モデル (MDFR) を提案しました。

この記事の貢献は次のとおりです。

任意のポーズと複数の低品質要因を持つ顔画像を正面からの高品質の画像に復元するための、マルチ劣化顔復元 (MDFR) モデルが提案されています。
顔の回転の過程では、姿勢残差学習戦略が使用され、3Dベースの姿勢正規化モジュールが提案されます。
顔の再構築と正規化のタスクを統合ネットワークに統合する効果的な統合トレーニング戦略が提案されています。この方法により、出力される顔の品質とその後の顔認識効果がさらに向上します。

2.方法の説明

MDFR 構造を図 1 に示します。トレーニングプロセス中、MDFR は主に、デュアルエージェントジェネレーターとデュアルエージェントディスクリミネーターの 2 つのモジュールで構成されます。顔のポーズを正規化するために、ポーズ正規化モジュール (PNM) がネットワークに組み込まれています。

図 1. デュアルエージェントジェネレーター、ポーズ正規化モデル、およびデュアルエージェントディスクリミネーターを含む MDFR モデルの構造。

（１）デュアルエージェントジェネレータ

デュアルエージェントジェネレーターは、顔復元サブネットワーク (FRN) と顔正面化サブネットワーク (FFN) で構成されています。 FRN ネットワークの機能は、低品質の顔画像を高品質の顔画像に再構築することであり、FFN ネットワークは、FRN によって生成された横顔画像を修正することです。各サブネットワークには、エンコーダーとデコーダーが含まれています。前者は入力を特徴空間にマッピングするために使用され、後者は主にエンコードされた特徴を対応するターゲットの顔画像に再構築します。 2 つのサブネットワークは同じネットワーク構造を持ちますが、入力は異なります。 FRN のエンコーダーは入力された顔画像をエンコードし、デコーダーはエンコーダーの特徴をデコードします。 FFN デコーダーの入力には、エンコードされた顔の特徴に加えて、図 2 に示すように、顔の 2 つの姿勢のエンコードされた残差も含まれます。

図2 生成されたネットワークのネットワーク構造

（２）姿勢正常化モジュール

著者らは、姿勢を正常化するための姿勢正常化モジュール (PNM) を設計しました。 PNM は、顔がまっすぐになるようにガイドする、標準的で均一なスケールの真の正面ポーズを提供します。 3D モーフィングモデル (3DMM) に基づいて、顔の直交ベースラインの線形加重加算によって、2 次元の顔画像に対応する 3 次元頂点を取得できます。

3D の顔の頂点はスケール直交マッピングを通じて 2D 画像平面にマッピングされ、2D の側面画像は次のように表現されます。

このうち、パラメータMDFR：顔画像復元と顔回転ジョイントモデルに基づく顔認識方法は対応する回転行列であり、tは変換ベクトルです。回転行列と変換ベクトルを削除した後、正規化され真に回転した面の密な 2 次元座標は次のように表すことができます。

この記事では、著者は 3D 顔回転法 2DAL を使用して、指定された 2D 顔画像から高密度の顔座標を取得し、最終的によく使用される 18 個のキーポイントを選択して、対応するガウスヒートマップを生成します。

（３）デュアルプロキシ事前誘導識別器

顔の超解像の分野で使用される識別損失は、再構成された顔のリアリティを大幅に向上させることができます。そのため、本論文では、生成された顔が目標の姿勢を取得できるだけでなく、実際の識別情報も持つことができるように、対象顔のランドマークと正面顔の識別特徴マップという 2 つの事前情報を識別器に追加しています。対応する識別子は、PCD (Pose Conditioned Discriminator) と ICD (Identity Conditioned Discriminator) です。

実装プロセスでは、入力識別器に 2 種類の事前情報を適用して顔の生成をガイドし、それらを対応する識別器に入力して識別損失を解決します。 PCD と ICD は、実際の顔と生成された顔を区別できるだけでなく、実際の顔と生成された顔の姿勢やアイデンティティの違いも学習できます。

（4）ネットワーク研修

ネットワークのトレーニングは、主に「個別トレーニング」と「TI トレーニング」の 2 つの段階に分かれています。

個別トレーニング: この記事では、まず 2 つのサブネットワーク FRN と FFN を個別にトレーニングします。2 つのトレーニングプロセスは、それぞれ FRN-S と FFN-S と略されます。 FRN-S トレーニングプロセスで使用される損失関数は次のとおりです。

個人情報の紛失:

再構築されたピクセル損失:

全損:

FFN-S トレーニングプロセスで使用される損失関数は次のとおりです。

プラスリターンの損失:

条件付き敵対的損失:

全損:

タスク統合（TI）トレーニング：FRN と FFN が対応する個別のトレーニングを完了した後、著者らは事前トレーニング済みモデルに基づいて統合トレーニングを実行しました。この段階で、著者らは FFN モデルの出力をグラウンドトゥルースとして使用して FRN をトレーニングします。同時に、PNM によって正規化された実際の正面顔ランドマークは、FFN での顔の正面化をガイドするために使用されます。より良い顔の効果を生成するために、著者はこの段階で特徴アライメント損失 (FA) も使用しました。具体的な定義は次のとおりです。

全体的なトレーニング損失関数は次のとおりです。

3.実験結果

著者らはまず、ネットワーク構造と損失関数のさまざまな組み合わせを調査し、FFN-S と FRN-TI の対応する部分が顔生成に与える影響を観察しました。実験結果を図 3 に示します。

図 3. Multi-PIE データベースにおけるアブレーション実験の比較結果。

同時に、表 1 は、さまざまなポーズの顔に対する MDFR のさまざまなバリエーションのランク 1 認識率を示しています。すべての実験モデルの中で、FFN-S と FRN-TI が最高の精度を達成しました。

表 2 は、Multi-PIE データセットにおける FFN-S と FRN-TI の顔認識率と他の方法との比較を示しています。 FFN-S はすべてのポーズで最高の結果を達成し、FFN-TI がそれに続きます。姿勢角が±45°以内の場合、FFN-SとFFN-TIはCAPG-GANと同様の認識結果を達成します。ただし、姿勢角が±45°より大きい場合、FFN-SとFFN_TIの効果はCAPG-GANよりも大幅に優れています。

図4. 複数の低品質要因の影響下での異なる方法による顔の修復効果

著者らは、低解像度、照明不良、ノイズ、ぼやけなど、複数の低品質要因の影響を受けた顔画像に対して対応する検証を実施しました。実験では、この記事で言及されている方法は、さまざまな低品質要因に完全に対処できるだけでなく、対応する高品質の顔画像を生成できることが示されています。図 4 は、複数の低品質要因の影響下でのさまざまな方法による顔の復元効果を示しています。単一のタスクしか処理できない従来の方法とは異なり、本論文で提案された方法は、顔を回転させるだけでなく、高品質で復元し、最高の視覚効果を実現できることがわかります。

<<: 今日のトーク: 人工知能、ロボット、そして中国のバレンタインデー

>>: 保険業界は人工知能をどのように活用しているのか