二重あごをなくすコツがある。浙江大学の2000年代生まれの大学生が、ACM SIGGRAPHで発表した新しい美容アルゴリズムを開発

二重あごをなくすコツがある。浙江大学の2000年代生まれの大学生が、ACM SIGGRAPHで発表した新しい美容アルゴリズムを開発

ソーシャルネットワーク、ライブ放送、ショートビデオの普及に伴い、他人により良い印象を与えるために、顔編集の「美化」の応用範囲はますます広がっています。科学技術の継続的な発展により、顔編集には多くの研究分野が生まれました。その中でも、生成的敵対的ネットワーク (GAN) の潜在空間は常に注目されている問題であり、現在では潜在コードの操作と潜在空間における意味的分離に焦点を当てた研究が増えています。 StyleGAN は、高品質の顔画像を生成できる生成的敵対ネットワークであり、その潜在空間は非常に優れた線形特性を備えています。 StyleGAN のこの機能を使用すると、幅広いアプリケーション シナリオで高品質の顔編集を実現できます。しかし、他の無関係な機能を変更せずに特定の機能を変更する方法、つまり機能を切り離す方法は、依然として難しい問題です。

この問題を解決するために、浙江大学コンピュータ支援設計・グラフィックス国家重点研究室と浙江大学・テンセントゲームインテリジェントグラフィックスイノベーション技術共同研究室の研究者らは、StyleGANをトレーニングして潜在空間における細かい分離境界を実現する方法を提案した。これにより、顔の他の特徴はそのままに、1つのベクトルのみで意味的特徴の編集が可能になる。

二重あごの除去を例にとると、この方法は非常に効果的です。

図 1: 二重あごのあるポートレート画像 (1 列目)、および二重あごを除去した後の新しいポートレート画像 (2 列目)。

コンピュータグラフィックスの最高峰の国際学術会議であるACM SIGGRAPH 2021に研究論文「Coarse-to-Fine: 潜在空間分類によるポートレート画像の顔構造編集」が採択されました。

論文アドレス: http://www.cad.zju.edu.cn/home/jin/sig2021/sig2021.htm

研究の方向性

CV の分野では、生成的敵対ネットワークの潜在空間は常にホットな話題であり、潜在コードの操作に焦点を当てた研究が増えています。 InterFaceGAN は、生成敵対ネットワークの潜在空間がどのようにエンコードされるかを調査し、分離境界を使用して意味属性を編集する方法を提案します。In-domain GAN は、入力画像を生成敵対ネットワークの潜在空間に反転し、正規化子として潜在コードを微調整し、意味拡散方法を提案します。

StyleGAN研究における潜在空間の重要性を考えると、画像をStyleGANの潜在空間に効率的かつ高品質に反転し、対応する潜在コードを取得する方法に焦点が当てられる研究が増え始めています。これに基づいて、StyleGANベースのプロジェクターは画像を直接潜在空間に反転することで、画像間の変換を実行し、顔の姿勢変更や顔間の線形補間などの機能を実現できます。Image2StyleGANは画像を潜在空間に反転し、セマンティック編集を実行できます。

潜在コードと 3D モデルを組み合わせることで、顔の特徴をパラメトリックに調整することもできます。GIF は、生成 3D 顔モデル (FLAME) に StyleGAN を適用して、生成された画像を明示的に制御します。StyleRig は、StyleGAN と 3DMM に基づいて顔のバインディング制御を実行し、顔をパラメトリックに調整します。

研究のアイデア

新しい研究の中心的なアイデアは、潜在空間内の細かい分離境界を使用して StyleGAN をトレーニングすることです。分離境界はInterFaceGANによって提案された潜在空間内の超平面ですが、InterFaceGANによってトレーニングされた分離境界では無関係な特徴を分離することはできません。私たちは、特定の特徴のみが変化する潜在変数のペア(二重あご除去の例では、これらの潜在変数は二重あごの有無を除いて本質的に同じまま)を生成し、これらの潜在変数のペアから細かい分離境界をトレーニングして顔の構造編集を実現する、慎重に設計されたトレーニング プロセスを提案します。

この研究では、まず二重あご分類器を訓練し、StyleGAN の潜在空間内の潜在コードを二重あごの有無に応じてスコア付けしました。次に、ランダムにサンプリングした潜在コードとそれに対応するあごスコアを使用して訓練し、二重あごのない中間ポートレートを合成するための大まかな分離境界を取得しました。このプロセスでは、顔の形やポーズなどの他の顔の特徴は、大まかな分離境界によって編集された後、適切に保存されません。

この問題を解決するために、本研究では、二重あごの特徴を他の特徴から分離できるネックマスクを使用して、中間肖像画の新しいあごの意味を元の画像に拡散させる意味拡散法を導入し、顔の特徴とそれに対応する潜在コードを保持したまま、二重あごのない肖像画画像を取得しました。最後に、この研究では、二重あごがある場合とない場合の潜在コードのペアを使用して、洗練された二重あごの分離境界をトレーニングしました。

テスト段階では、入力潜在コードは細かい二重あごの分離境界を使用して編集され、画像変形アルゴリズムを使用して、顔の端における入力画像と出力画像のわずかなずれを最適化し、最終結果を取得します。

図2:研究のフローチャート。詳細については原著論文を参照してください。

結果

この研究では、性別、ポーズ、顔の形、肌の色が異なる多数のポートレート画像でこの手法の性能をテストしました。図3は、本研究で提案された方法によって自動的に生成された結果を示しています。

二重あごの除去を例にとると、この方法は、他の特徴を変更せずに、入力されたポートレート画像の二重あごを正常に除去できます。

図3: 研究の結果。最初の 4 行は、連続的なパラメータ調整の結果です。最後の 4 行の各画像ペアでは、左側の画像が元の画像で、右側の画像が結果です。

現在の最良の顔編集方法 (SOTA) と比較して、この研究はより安定した合理的な結果を生み出し、顔の特徴の不変性を維持し、人間の顔の構造に適合します。

図4: 方法の比較。最初の行は入力ポートレート画像、2 行目は MaskGAN の結果、3 行目は SC-FEGAN の結果、4 行目は Generative Inpainting 法の結果、最後の行は私たちの方法の結果を示しています。

研究者たちは、この研究が顔編集に新たなアイデアをもたらし、StyleGANの潜在空間の研究に刺激を与えることを期待している。

著者について

論文の第一著者である呉一謙さんは、女性で21歳、浙江大学の学部4年生。今年9月に浙江大学CAD・CG国家重点実験室で博士号取得を目指す。彼の研究対象には、コンピュータービジョンと顔編集が含まれます。

個人ホームページ: https://onethousandwu.com/

論文の著者であるヤン・ヨンリャン氏は、英国バース大学の准教授である。 2009年に清華大学でコンピュータサイエンスとテクノロジーの博士号を取得。2009年から2011年までキングアブドラ科学技術大学(KAUST)で博士研究員を務め、2011年9月から2014年8月までKAUSTのビジュアルコンピューティングセンターで研究員として勤務。 SiggraphとSiggraph Asiaに9件の論文を発表しました。彼の主な研究分野は、デジタルジオメトリ処理、仮想現実、人工知能です。

個人ホームページ: http://www.yongliangyang.net/

論文の著者である肖琴傑氏は、浙江大学 CAD&CG 国家重点実験室の博士課程の学生です。浙江大学数学科を卒業し、学士号を取得しています。彼の研究分野は、3D 顔面再構成、評価、編集です。

この論文の責任著者は、浙江大学コンピュータ科学技術学院の教授兼博士課程の指導者である Jin Xiaogang 氏です。彼は、「第13次5カ年計画」国家重点研究開発計画の主任科学者、浙江大学-テンセントゲームインテリジェントグラフィックスイノベーション技術共同実験室の所長、浙江バーチャルリアリティ産業連盟の会長、中国コンピュータ学会バーチャルリアリティおよび視覚化委員会の副会長、杭州銭江の著名な専門家です。彼は第9回何英同青年教師基金と浙江省優秀青年基金の受賞者であり、教育部の新世紀優秀人材支援計画に選ばれました。彼は、ACM TOG (Proc. of Siggraph) や IEEE TVCG などの重要な国際学術誌に 140 本以上の論文を発表しています。 2008年に教育部高等教育機関優秀科学研究業績賞自然科学賞一等賞、2017年に浙江省科学技術進歩賞二等賞、2015年に米国ACM功労表彰を受賞。国際コンピュータアニメーション会議CASA'2017およびCASA'2018で最優秀論文賞を受賞し、著書「Algorithmic Foundations of Computer Realistic Graphics」は2001年に国家科学技術図書賞の2等賞を受賞しました。

個人ホームページ: http://www.cad.zju.edu.cn/home/jin/

<<:  大規模なモデルのトレーニングを恐れる必要はありません。軽量の TorchShard ライブラリは GPU メモリの消費を削減し、PyTorch と同じ API を備えています。

>>:  2021 年にアルゴリズム エンジニアに必要な必須スキルは何ですか?

ブログ    

推薦する

人工知能デジタル技術の強化は現実予測において徐々にその力を発揮しつつある

現在、人工知能は人々の生活の中でますます普及しており、生活のあらゆるところで人工知能を見つけることが...

Nature: DeepMind の大規模モデルが 60 年前の数学的問題を突破、その解決法は人間の認識力を超える

Google DeepMind の最新の成果が再び Nature に掲載され、大規模なモデルを使用し...

年末総括:セキュリティ業界は2020年にCOVID-19パンデミックの課題に対処するのに貢献した

新型コロナウイルス感染症のパンデミックは、セキュリティ業界を含む世界中のあらゆる業界のあらゆる側面に...

ドローンは何に使えるのでしょうか?これらの使い方は本当に素晴らしいです!

ドローンは最近ますます人気が高まっています。高解像度カメラ付きの機械を数百ドルで購入することもできま...

チャットボット vs モバイルアプリ: 未来はどちらの手に?

[[272171]]チャットボットとモバイルアプリの戦いは、常に業界で最も議論されているトピックの...

...

顔スキャン決済は問題多し、アマゾンは「手のひら」スキャンを選択し無人スーパーで正式に商品化

さあ、手払いについて学んでみましょう〜アマゾンはこのほど、自社が開発した手のひら認識技術「Amazo...

ルカン氏は、今後10年間の研究計画に関する62ページの論文を発表した。AI自律知能

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

チューリング賞受賞者のベンジオが新論文を発表、Redditがクラッシュ: アイデアがクラッシュ

[[403771]]機械学習における重要な研究はモデルの一般化を改善することであり、モデルをトレーニ...

クラウド上でのインテリジェント運転の 3D 再構築のベスト プラクティス

インテリジェント運転技術の継続的な発展により、私たちの移動方法や交通システムは変化しています。 3D...

サイエンス誌の表紙を飾ったCMUの偉人ノアムは博士号を取得し、その論文が公開された。

2 人用ノーリミット ポーカーとマルチプレイヤー ノーリミット ポーカーでトップの人間プレイヤーに...

...

...

知っておくべきビッグデータ用語 75 選

パート1(25用語)ビッグデータに不慣れな場合、この分野を理解したり、どこから始めればよいのかわから...

Tongyi Qianwenが再びオープンソース化、Qwen1.5は6つのボリュームモデルを導入、そのパフォーマンスはGPT3.5を上回る

春節の直前に、同義千文モデル(Qwen)バージョン1.5がリリースされました。今朝、新バージョンのニ...