今年、フェイシャルビデオエフェクトは世界中で再び大人気になりました。年初にやった「蟻の歯黒」(人間の顔が歌う)も、ついこの間やった古い写真を動かす特殊効果も、どちらもすごかった。 スタイルの転送は、画像の分野では常にホットな話題となっています。では、リアルタイムの顔スタイル移行はビデオにどのような影響を与えるのでしょうか? このような: もちろん、ビデオ スタイルの移行は新しい技術ではありません。しかし、この研究の最大の特徴は、モバイルかつリアルタイムであり、プラハのチェコ工科大学とSnapの研究者が共同で完了したことです。論文全文はすでに公開されており、関連コードは来月公開される予定です。 プロジェクトアドレス: https://ondrejtexler.github.io/faceblit/ 論文アドレス: https://ondrejtexler.github.io/res/faceblit-paper.pdf 具体的には、研究者らはインスタンスベースのリアルタイムビデオ顔スタイル転送フレームワーク FaceBlit を提案しました。これは、スタイルのテクスチャの詳細を意味的に意味のある方法で保存します。つまり、特定のスタイルの特徴を表すために使用されるストロークが、ターゲット画像内の適切な場所に表示されます。 従来のスタイル転送方法と比較して、このフレームワークは、対象者のアイデンティティを保持するだけでなく、大規模なデータセットや長いトレーニング サイクルを必要とせずにリアルタイムで実行されます。 この目的のために、研究者らは、Fišer ら (2017) の顔の様式化パイプラインを修正し、対象オブジェクトのアイデンティティを保持するだけでなく、Sýkora ら (2019) のパッチベースの合成アルゴリズムのより高速な変種とも互換性のある一連のガイド チャネルを迅速に生成しました。 これらの方法論的改善のおかげで、研究者たちは、モバイルデバイス上でも、単一の肖像画の芸術的なスタイルを対象ビデオの顔にリアルタイムで転送できる初のシステムフレームワークを作成しました。 生成された完全な効果は次のビデオに示されています。 リアルタイムビデオ顔スタイル転送方法の紹介この研究方法の入力は、顔のスタイル例画像𝑆と対象の顔のビデオシーケンスTです。この研究では、顔の表情の変化や動きは、被験者がカメラを見ていて、他の物体に邪魔されていないことに基づいていると仮定しています。この研究の結果、対象者のアイデンティティを保ちながら、𝑆の重要な芸術的特徴を保持する様式化されたシーケンス𝑂が生まれました。 Fišerら[2017]の方法を使用してこのような出力を生成することはすでに可能ですが、ここでの大きな欠点は、彼らの方法がオフライン処理にしか適していないことです。 リアルタイムのパフォーマンスを実現するには、研究者はガイダンス パイプラインの計算方法を変更し、Fišer ら [2016] の低速なパッチベースの合成アルゴリズムを Sýkora ら [2019] が提案したより高速なバリアントに置き換える必要があります。 Fišer らが提案した方法では、4 つのガイダンス チャネルを使用して合成が実行されます。セグメンテーション ガイド 𝐺_seg は、顔を一連の領域 (髪、眉毛、鼻、唇、口、目、皮膚) に分割して重要な顔の特徴を描写します。位置ガイド 𝐺_pos は、ソースの顔とターゲットの顔の間の空間的な対応をエンコードします。これら 2 つのチャネルにより、意味的に意味のある転送が保証されます。 対象物体の同一性特性を維持するために、Fišerらは、Shihらの写真スタイル転送法を用いてソース画像と対象画像の外観を均一化する外観ガイド𝐺_app法を採用し、ソース画像と対象画像間のドメインギャップを減らしました。最後に、時間的な一貫性は、様式化されたフレームの動き補正バージョンで表される時間ガイド 𝐺_temp によって強制されます。 上記の誘導チャネルの計算には数十秒かかるため、リアルタイムのシナリオで使用するのは困難です。代わりに、本研究では、4 つのチャネルを 2 つの基本チャネル 𝐺_pos と 𝐺_app (図 2 を参照) に簡略化し、基礎となる生成アルゴリズムを変更して、準備時間を数十ミリ秒に短縮しました。最後に、この研究では、これら2つの新しいガイダンスチャネルをSýkoraら[2019]の高速合成アルゴリズムに組み込む方法を示しています。
|
<<: ペイ・ジアンのチームの44ページの新作:ディープラーニングモデルの複雑さを理解するには、これを読んでください
>>: ディープラーニング入門: オートエンコーダから変分オートエンコーダまで
人類は、自分たちの仕事を担ってくれる全知全能のエルフを持つことを常に夢見てきました。現在、研究室のコ...
4月8日、イノベーションワークスが主催する「DeeCamp2019 人工知能サマートレーニングキャン...
4月23日は第25回「世界本の日」です!今日は本を読みましたか?ゴーリキーはかつてこう言った。「本は...
[[190844]] DL の難しさは、問題をどのような視点から見るかによって決まります。数学を勉...
計算知能から知覚知能、そして認知知能へと、人工知能の鍋はついに沸騰しようとしています。最近、3E 2...
1. タオバオライブの体系的な制御機能の進化現在、Taobao Live の推奨アルゴリズムの焦点は...
インターネットの普及と膨大な情報の出現により、人工知能の分野における重要な方向性としての自然言語処理...
オンライン学習によって引き起こされる壊滅的な忘却問題を解決するために、北京大学などの研究機関は、勾配...
8月4日、海外メディアFagen Wasanni Technologiesによると、IBMは最近、N...
友達、この英語の単語が何だか知っていますか?超微細珪火山性肺炎。これは45文字からなる世界最長の単語...
ミッドジャーニー火災以降、アーティストの道はますます狭くなっていった。最近、Midjourney や...
将来の雇用状況は依然としてテクノロジー大手やCEOによって決定されますが、人工知能の将来は依然として...
ビッグデータとは、さまざまな種類のデータから貴重な情報を迅速に取得する能力を指します。これを理解する...