心が開かれました！ Adobeなどの研究者が「自撮り」を「他人が撮った写真」に変え、感動的な魔法の写真編集効果を実現

自撮り写真を他人が撮った写真に変えることもできます。魔法の写真編集の世界に新しいトリックが登場し、その効果は本当に感動的です。

スマートフォンの登場により、写真撮影は人気の芸術となり、「自撮り」に夢中になる人が増えています。しかし、自撮り写真では、肩の姿勢が不自然だったり、腕がフレームの半分以下しか占めていなかったり、視点が極端に変だったりするなど、構図に問題が生じることがよくあります。

この問題を解決するには、三脚や自撮り棒を持ち歩くか、友人を写真家として連れて行くという方法があります (この方法は、単独の犬には非常に不親切です)。

あるいは、写真編集の技術を信頼することもできます。最近、 Adobe Research、カリフォルニア大学バークレー校、ルーヴェン大学の研究者らが、「自撮り」を「他人が撮った写真」に変える新技術を開発した。対象の姿勢を認識し、体のテクスチャを生成することで、与えられた自撮りの背景の中に人物を完璧に合成できる。

この論文で研究者らは、自分撮り写真の人物を、腕や肩、胴体がリラックスした「他人が撮影した画像」に変換できる「Unselfie」と呼ばれる画像変換手法を提案した。上げられた腕が下を向くように調整し、次に衣服の詳細を調整し、最後に露出した背景領域を塗りつぶします。

論文リンク: https://arxiv.org/pdf/2007.15068.pdf

この技術は、ソーシャルメディア用の自撮り写真の修正に使用されるだけでなく、さまざまな用途があります。緊急に身分証明書用の写真が必要で、誰も代わりに撮ってくれない場合、この技術が役立ちます。

もちろん、この方法はまだ成熟していません。一般的な効果に加えて、次のような画像を生成するなど、時々失敗することがあります。

「自画像」を「他人が撮った写真」に変換する際の3つの大きな課題

一般的に、「自画像」を「他人が撮影した写真」に変換するには、3 つの大きな課題があります。

ペアになったトレーニングデータ（自画像と撮影画像のペア）はありません。

1 つの自撮りポーズが複数の他のポーズに対応する場合があります。

ポーズを変更すると背景に穴が残るので、変換プロセス中にその穴を埋めます。

研究者たちはこれまでいくつかの方法を用いてこの課題に取り組もうとしてきましたが、実験結果によると、これらの方法では明らかなアーティファクトが生成され、外観情報の圧縮率が高いためにテクスチャの詳細が失われることがわかりました。

そこで彼らは、 「自分撮り-他人が撮影した」画像ペアを合成し、自己教師学習を行う手法を用いて上記の問題を解決することを提案した。

具体的には、研究者らは、他人が撮影した画像を使用して対応する自撮り画像を合成する方法を提案しました。彼らは、ノンパラメトリックな最も近いポーズ検索モジュールを使用して、他人が撮影した特定の画像に最も近い自撮り画像を検索し、対応する自撮り画像を合成しました。また、推論中に最も近いポーズ検索モジュールも適用しました。自撮りポーズ入力が与えられると、モデルは最も一致する自撮りポーズを取得し、このポーズを使用して最終的な自撮り効果を合成します。ユーザーが選択できる合成出力が複数あるため、上記の課題 2 が解決されます。

上記の手順を使用して合成されたペアデータは、教師ありポートレート生成ネットワークのトレーニングに直接使用できますが、実験結果では明らかなアーティファクトの問題がまだ解決されていないことが示されています。従来の方法は、合成ペアトレーニングデータと実際の自撮りテストデータ間のピクセルレベルのドメインギャップに非常に敏感です (下の図 3 を参照)。

CVPR 2019 論文「ポーズ誘導画像生成のための座標ベースのテクスチャ修復」にヒントを得て、研究者らは座標ベースの修復手法を使用して UV 空間で体のテクスチャを修復しました。この修復手法では、元の体のポーズの大部分は変更されず、合成データの不完全性に対してより堅牢になります。さらに、座標ベースの修復方法では、可視ピクセルを再利用できるため、より鮮明な結果が得られます。

課題 3 に対処するために、研究者は合成ネットワークに基づくゲート畳み込み層を使用して、人体と背景の間のスムーズな移行を維持しながら、人体の外観を洗練し、背景のギャップを埋めました。

一般的に、「アンセルフィー」タスクを解決するために、研究者は下の図に示すように3 段階のパイプラインを提案しました。

まず、データベースで他の俳優がとった最も近いポーズを検索し、次に座標ベースのボディテクスチャインペインティングを実行し、最後に合成モジュールを使用して結果を精製し、背景に合成します。

実験結果

研究者らは、定性的評価、ユーザー研究、定量的評価の観点から、提案された方法を以前の同様の方法と比較しました。

下の図 7 は、Unselfie 方式が、以前の DPIG 方式や PATN 方式と比較して、よりリアルな人間のポーズと背景を生成することを示しています。

研究者らは、Amazon Mechanical Turk (AMT) でこの方法と DPIG、VUNET、PATN 方法についてユーザー調査を実施しました。結果は、この方法が他の方法よりも優れていることを示しています (下の表 1 を参照)。

自撮り写真に対応するグラウンドトゥルースがないため、SSIM などのメトリックは使用できません。そこで、この方法による画像化結果を他のベンチマーク方法と定量的に比較するために、研究者らは FID と KID という 2 つの指標を使用しました。結果は、定量的な比較における FID と KID の結果がユーザー調査と一致しており、この方法が他の方法よりも大幅に優れていることを示しています。

方法の限界

ただし、この方法には、以下の点で依然として限界があります。

まず、図 10 (左) に示すように、難しい自撮りポーズや角度の場合、最も近いポーズ検索モジュールが一致する自撮りポーズを見つけるのが困難な場合があり、その結果、合成画像の腕や肩が頭部に比べて細すぎたり広すぎたりすることがあります。

この問題はトップ 1 の結果の 10% 未満で発生し、ユーザーは通常、トップ 5 の結果から互換性のある適切なポーズを見つけることができます。

図10: 失敗例。

さらに、図 10 の例では、バックグラウンド合成の限界も明らかになっています。しかし、この問題に対応するために、研究者らは、図 11 に示すように、既存のモデルを使用して画像の背景を修復する例も示し、大規模なデータセットでトレーニングされた画像復元モデルの利点を実証しました。

図11: 背景の復元。

最後に、システムは DensePose 検出でエラーが発生しやすくなります。上の図 10 (右) に示すように、DensePose は彼女の腕が前に出ていることを検出しません。したがって、合成モジュールは結果に彼女の腕を保持し続けます。

<<: 清華大学が転移学習アルゴリズムライブラリをオープンソース化：PyTorch実装に基づき、既存のアルゴリズムの簡単な呼び出しをサポート

>>: 機械学習は音楽界を征服するのに役立ち、あなたは次のヴィンセント・ファングになるでしょう