しゃべるアバター!新しいフレームワークLipSync3Dは将来的に動的なリップシンクを可能にするかもしれない

しゃべるアバター!新しいフレームワークLipSync3Dは将来的に動的なリップシンクを可能にするかもしれない

Google AIの研究者たちは、インド工科大学カラグプル校と協力し、音声コンテンツから話すアバターを合成できる新しいフレームワークを開発した。

このプロジェクトの目標は、オーディオから「話すヘッド」ビデオを作成するための最適化されたリソース効率の高い方法を開発し、インタラクティブ アプリケーションやその他のリアルタイム環境でアバターにリップシンクされた吹き替えや機械翻訳されたオーディオを追加できるようにすることです。

論文アドレス: https://arxiv.org/pdf/2106.04185.pdf

機械学習モデル LipSync3D

このプロセスでトレーニングされた機械学習モデル LipSync3D では、入力データとして対象の顔認識のビデオのみが必要です。

データ準備パイプラインは、顔の形状の抽出を照明や入力ビデオのその他の側面の評価から切り離し、よりコスト効率が高く集中的なトレーニングを可能にします。

LipSync3D の 2 段階ワークフロー。上の画像は、「ターゲット」オーディオから生成された動的テクスチャの 3D 顔を示しており、下の画像は、生成されたメッシュがターゲット ビデオに挿入されたことを示しています。

実際、この研究分野における LipSync3D の最も注目すべき貢献は、トレーニングと推論の照明を分離する照明正規化アルゴリズムでしょう。

照明データを一般的なジオメトリから切り離すと、LipSync3D は困難な状況でもよりリアルなリップシンクを実現できます。近年の他のアプローチでは、この点での限界を明らかにしないように、「固定された」照明条件に制限されています。

入力データ フレームの前処理中に、システムはミラー ポイントを識別して削除する必要があります。ミラー ポイントはビデオが撮影された照明条件に固有のものであり、そうしないと再生プロセスに干渉する可能性があるためです。

LipSync3D は、その名前が示すように、評価する顔をピクセル単位で分析するだけでなく、識別された顔のランドマークを積極的に使用して、アニメーション化された CGI スタイルのメッシュと、従来の CGI パイプラインを介してその周囲にラップされた「展開された」テクスチャを生成します。

LipSync3D でのポーズの正規化。左側には入力フレームと検出された特徴があり、中央には結果のメッシュに対して評価された正規化された頂点があり、右側にはテクスチャ予測のグラウンドトゥルースを提供する対応するテクスチャアトラスがあります。出典: https://arxiv.org/pdf/2106.04185.pdf

研究者らは、照明再現に対するこの斬新なアプローチに加えて、LipSync3D は、正規化された空間における個別のデータ ストリームへのジオメトリ、照明、ポーズ、テクスチャの分離、時間的に一貫したビデオ合成を生成する、簡単にトレーニング可能な自己回帰テクスチャ予測モデル、および人間の評価と客観的な指標によるリアリティの向上という、これまでの研究に比べて 3 つの主要な革新を提供すると主張しています。

ビデオの顔画像のさまざまな側面を分割することで、ビデオ合成をより細かく制御できるようになります。

LipSync3D は、音素や音声のその他の側面を分析することで、適切な唇の形状をオーディオから直接導き出し、それを口の周りの対応する既知の筋肉の姿勢に変換できます。

このプロセスでは、推定されたジオメトリとテクスチャにオートエンコーダ設定の専用エンコーダがあるが、モデルに適用することを意図した音声とオーディオエンコーダを共有する共同予測パイプラインを使用します。

LipSync3D のモーション合成は、現実世界の画像と同様にメッシュとテクスチャ情報のみで構成される、様式化された CGI アバターの改善にも役立ちます。

パーソナライズされた 3D アバターの唇の動きをリアルタイムでパワーソース スピーカー ビデオに表示します。この場合、パーソナライズされた事前トレーニングを通じて最良の結果が得られます。

研究者たちは、よりリアルなアバターの使用も望んでいる。

GeForce GTX 1080 で TensorFlow、Python、C++ を使用するパイプラインでは、2 ~ 5 分のビデオの場合、ビデオ例のトレーニング時間は 3 ~ 5 時間でした。トレーニング セッションでは、500 ~ 1000 エポックにわたって 128 フレームのバッチ サイズが使用され、各エポックは完全なビデオ評価を表します。

未来:ダイナミックリップシンク

新しいオーディオトラックへのリップシンクは、特に物議を醸しているディープフェイク技術の副産物として、ここ数年間コンピュータービジョン研究で大きな注目を集めています。

2017年、ワシントン大学は音声からリップシンクを学習できる研究を実演し、当時の大統領バラク・オバマ氏の画像を使ったビデオも制作した。

https://grail.cs.washington.edu/projects/AudioToObama/siggraph17_obama.pdf

2018年には、マックスプランクコンピュータサイエンス研究所の別の研究プログラムがアイデンティティ>アイデンティティのビデオ転送を実現し、リップシンクも実現しました。2021年5月には、AIスタートアップのFlawlessAIが独自のリップシンク技術TrueSyncをリリースし、主要映画の多言語公開に向けた改良された吹き替え技術としてメディアに広く認知されました。

もちろん、ディープフェイク オープン ソース リポジトリの継続的な開発により、顔画像合成の分野におけるアクティブなユーザー貢献型研究分野も生まれます。

<<:  医療の発展は自動化に向かっており、手術ロボットは急速に発展している。

>>:  ネイチャーの表紙に掲載されているこのグループ学習は、中央コーディネーターを必要とせず、連合学習よりも優れています。

ブログ    
ブログ    
ブログ    

推薦する

...

目標を達成するために、Google AI は自身の体をこのように変形させました...

[[246219]]強化学習 AI がゲームをプレイすることは珍しくありません。インテリジェントエ...

Python で分類と回帰を組み合わせたニューラル ネットワーク モデル

[[406559]] Python 中国語コミュニティ (ID: python-china)一部の予...

人工知能が普及せず、自動運転に支障?

今回の世界経済サイクルが底を打つにつれ、過去2年間の多くのホットスポットが「衰退」し、「閉鎖」し始め...

Githubには13,000個のスターがある。JAXの急速な発展はTensorFlowやPyTorchに匹敵する

[[416349]]機械学習の分野では、TensorFlow と PyTorch は誰もがよく知っ...

世界に革命をもたらす新たなテクノロジートレンド

急速な技術進歩により、私たちの知る世界は変化し続け、変革の可能性を秘めた新たな時代が到来しています。...

すべてのオープンソースモデルを超え、クロードとバードを破り、プログラミングタスク専用の大規模モデルが登場

最近、大規模言語モデル(LLM)の継続的なリリースにより、LLMランキング競争が熱を帯びてきており、...

「最強の7Bモデル」論文が発表され、ラマ2の13Bバージョンを超える方法が明らかになった

「欧州OpenAI」の「最強の7Bオープンソースモデル」であるMistralは、最近、数え切れないほ...

AI、メタバース、職場におけるDEI

AI とメタバースが仕事を変えるにつれて、リーダーは DEI に影響を与える新興テクノロジーの 3...

転移学習: データが不十分な場合に深く学習する方法

[[191502]]ディープラーニング技術を使用して問題を解決する際に最もよく見られる障害は、モデル...

AI + eコマース: あなたのショッピング体験の責任者は誰ですか?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

...

データサイエンスを始めるにはどの程度のレベルの数学が必要ですか?

基礎科目として、数学はデータサイエンスと機械学習の両方において欠かせない役割を果たします。数学的な基...

GenAIは主流になるが、CIOの行動は遅い

過去2週間、OpenAIの創設者サム・アルトマン氏は取締役会により解雇され、関連メンバーはマイクロソ...