リアルタイムスタイル転送、モバイル端末で実行、顔エフェクトで遊ぶ新しい方法

リアルタイムスタイル転送、モバイル端末で実行、顔エフェクトで遊ぶ新しい方法

今年、フェイシャルビデオエフェクトは世界中で再び大人気になりました。年初にやった「蟻の歯黒」(人間の顔が歌う)も、ついこの間やった古い写真を動かす特殊効果も、どちらもすごかった。

スタイルの転送は、画像の分野では常にホットな話題となっています。では、リアルタイムの顔スタイル移行はビデオにどのような影響を与えるのでしょうか?

このような:

もちろん、ビデオ スタイルの移行は新しい技術ではありません。しかし、この研究の最大の特徴は、モバイルかつリアルタイムであり、プラハのチェコ工科大学とSnapの研究者が共同で完了したことです。論文全文はすでに公開されており、関連コードは来月公開される予定です。

プロジェクトアドレス: https://ondrejtexler.github.io/faceblit/

論文アドレス: https://ondrejtexler.github.io/res/faceblit-paper.pdf

具体的には、研究者らはインスタンスベースのリアルタイムビデオ顔スタイル転送フレームワーク FaceBlit を提案しました。これは、スタイルのテクスチャの詳細を意味的に意味のある方法で保存します。つまり、特定のスタイルの特徴を表すために使用されるストロークが、ターゲット画像内の適切な場所に表示されます。

従来のスタイル転送方法と比較して、このフレームワークは、対象者のアイデンティティを保持するだけでなく、大規模なデータセットや長いトレーニング サイクルを必要とせずにリアルタイムで実行されます。

この目的のために、研究者らは、Fišer ら (2017) の顔の様式化パイプラインを修正し、対象オブジェクトのアイデンティティを保持するだけでなく、Sýkora ら (2019) のパッチベースの合成アルゴリズムのより高速な変種とも互換性のある一連のガイド チャネルを迅速に生成しました。

これらの方法論的改善のおかげで、研究者たちは、モバイルデバイス上でも、単一の肖像画の芸術的なスタイルを対象ビデオの顔にリアルタイムで転送できる初のシステムフレームワークを作成しました。

生成された完全な効果は次のビデオに示されています。

リアルタイムビデオ顔スタイル転送方法の紹介

この研究方法の入力は、顔のスタイル例画像𝑆と対象の顔のビデオシーケンスTです。この研究では、顔の表情の変化や動きは、被験者がカメラを見ていて、他の物体に邪魔されていないことに基づいていると仮定しています。この研究の結果、対象者のアイデンティティを保ちながら、𝑆の重要な芸術的特徴を保持する様式化されたシーケンス𝑂が生まれました。 Fišerら[2017]の方法を使用してこのような出力を生成することはすでに可能ですが、ここでの大きな欠点は、彼らの方法がオフライン処理にしか適していないことです。

リアルタイムのパフォーマンスを実現するには、研究者はガイダンス パイプラインの計算方法を変更し、Fišer ら [2016] の低速なパッチベースの合成アルゴリズムを Sýkora ら [2019] が提案したより高速なバリアントに置き換える必要があります。

Fišer らが提案した方法では、4 つのガイダンス チャネルを使用して合成が実行されます。セグメンテーション ガイド 𝐺_seg は、顔を一連の領域 (髪、眉毛、鼻、唇、口、目、皮膚) に分割して重要な顔の特徴を描写します。位置ガイド 𝐺_pos は、ソースの顔とターゲットの顔の間の空間的な対応をエンコードします。これら 2 つのチャネルにより、意味的に意味のある転送が保証されます。

対象物体の同一性特性を維持するために、Fišerらは、Shihらの写真スタイル転送法を用いてソース画像と対象画像の外観を均一化する外観ガイド𝐺_app法を採用し、ソース画像と対象画像間のドメインギャップを減らしました。最後に、時間的な一貫性は、様式化されたフレームの動き補正バージョンで表される時間ガイド 𝐺_temp によって強制されます。

上記の誘導チャネルの計算には数十秒かかるため、リアルタイムのシナリオで使用するのは困難です。代わりに、本研究では、4 つのチャネルを 2 つの基本チャネル 𝐺_pos と 𝐺_app (図 2 を参照) に簡略化し、基礎となる生成アルゴリズムを変更して、準備時間を数十ミリ秒に短縮しました。最後に、この研究では、これら2つの新しいガイダンスチャネルをSýkoraら[2019]の高速合成アルゴリズムに組み込む方法を示しています。


利点

研究者らは、他のスタイル転送方法と比較して優れた生成効果の鍵は、位置ガイダンス、外観ガイダンス、ヒストグラムマッチングの3つの側面にあると述べた。次の図は、位置ガイドラインと外観ガイドラインがある場合とない場合に生成されたレンダリングを比較したものです。位置ガイドラインや外観ガイドラインがない場合、生成された動的レンダリングにはさまざまな程度の欠陥があることがわかります。

さらに、ターゲット外観ガイド G^T_app を生成する際には、ヒストグラムのマッチングも非常に重要です。技術的には、ヒストグラムが外観ガイダンスと一致しない場合、誤差 E はすぐにしきい値 t を超え、チャンクが大幅に小さくなり、結果がぼやけて見える可能性があります。下の図 8a に示すように、ヒストグラム マッチングがない場合、対象オブジェクトの ID を適切に保持できず、生成される効果が曖昧になります。図 8b に示すように、ヒストグラム均等化後は、生成される効果が大幅に改善され、より鮮明になります。


ヒストグラム マッチングの有無による動的生成効果の比較は次のとおりです。


最後に、研究者たちはハイブリッドアプローチを使用して、対象の肖像画を本物らしくし、ビデオ内のさまざまな表情を「再現」しました。


魔法のような光景が現れ、古代の彫像画が「生き返った」のです。

<<:  ペイ・ジアンのチームの44ページの新作:ディープラーニングモデルの複雑さを理解するには、これを読んでください

>>:  ディープラーニング入門: オートエンコーダから変分オートエンコーダまで

ブログ    
ブログ    

推薦する

これほど長い時間が経ったのに、なぜ物流ロボットは何千もの家庭に導入されていないのでしょうか?

先日終了したCESで、ドイツのコンチネンタルAGは、新しい物流ロボット、荷物配達ロボット犬「ANYM...

ディープラーニングの最適化手法の簡単な紹介: 勾配降下法

実際、ディープラーニングは多くの厄介な最適化問題を解決しています。ニューラル ネットワークは、問題に...

NVIDIA は 3 か月で 800 トンの H100 を販売しました。黄氏が1兆ドル規模のGPU覇者の「3つのノー」戦略を明かす

今年の第 2 四半期だけで、Nvidia は 816 トンの H100 を販売しました。同じペースで...

顔認識はアニメーションには効果がない、ディズニーはアニメーション専用の顔認識ライブラリを作成

アニメーションといえば、1923年に設立された企業帝国、ディズニー。アニメーション会社としてスタート...

Nature の調査: AI が「必需品」になったと考える科学者はわずか 4%

AI に関する論文数は劇的に増加していますが、本当に AI が「必須」であると考えている研究者はわ...

クアルコムとインテルはAIをデータセンターから移行したいと考えている

これまで、AI への投資のほとんどは、大規模なデータセンター内でテクノロジーを実行することに重点を置...

GoogleのチーフAIサイエンティスト、フェイフェイ・リーがスタンフォード大学のAIラボを離れ、再び戻る可能性

BI中国語ウェブサイトが6月28日に報じた。グーグルの主任人工知能(AI)科学者、フェイフェイ・リー...

3つのシナリオは、人工知能が新しい小売業に力を与える方法を示しています

1950年代以降、人工知能は長年にわたり浮き沈みを経験し、ビジネスシーンで継続的に試されてきました。...

突如、Stable Diffusion 3がリリースされました!ソラと同じアーキテクチャですが、すべてがよりリアルです

1年以上の開発期間を経て、前世代に比べて3つの主要な機能に進化しました。さあ、効果を直接確かめてみま...

業界の証人、Pudu Roboticsが北京ケータリング調達展示会に初登場

4月21日から23日まで、北京市易創国際会議展示センターでもう一つのケータリング会議、すなわち202...

人工知能はどのようにして「IQ検出器」になったのでしょうか?

[[343329]]人工知能はどのようにして「IQ検出器」になったのでしょうか? 5G が 4G ...

...

TensorFlow について知っておくべき 9 つのこと

[[241153]]キャシー・コジルコフマシンハートが編集参加者: Gao Xuan、Lu Goog...

Transformer ではまだ注意が必要ですか?

ここ数週間、AI コミュニティでは、注意を必要としないアーキテクチャを使用して言語モデルを実装すると...