ゴースト吹き替えチームにとって朗報です！ AIがあらゆる言語のリップシンクを自動生成

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

同じ顔、違う声でもこんなに同期できるんですね。

DeepFake のリップシンクはこのようになります。

これらの人々の声とイントネーションがまったく同じであることに気付きましたか?

目を閉じて聞いても、それが誰なのか分かりませんでした。アンドリュー・ン？ムスク？どちらさますか？

元のビデオと比較すると、顔の変化は目立たず、効果は非常に自然です。

△有名なYouTubeデジタルブロガーのLinusをリップシンクに起用

インドのハイデラバード大学の新しい研究によると、これはWav2Lipと呼ばれるモデルで、正確なリップシンク動画を生成するための新しい方法だという。

あらゆるキャラクター、さらには漫画のキャラクターやあらゆる声、言語でも、リップシンクビデオをあらゆるターゲットの音声に高精度で同期できます。

このプロジェクトは現在オープンソースになっており、デモ版を試すことができます。20 秒のビデオとオーディオファイルをアップロードするだけで、ワンクリックで生成できます。

この研究がRedditで公開されると、21時間以内に200回以上のアクセスがありました。

この研究の応用展望について、著者は、外国語のオンライン講義、吹き替え映画、記者会見などで利用することで、文字と音の融合をより自然にし、多くの人的資源と物的資源を節約できると述べた。

まあ、XudubaやHuaixiubangなどの吹き替えチームなら使えるかもしれないね！

Wav2Lip モデル

既存の研究は主に、静止画像やビデオ内の特定のキャラクターの正確な唇の動きを生成することに焦点を当てています。

しかし、問題は、話している人などの動的な画像の唇の動きを正確に変形することができず、その結果、コンテンツと新しいオーディオが完全に同期されないことです。

音と映像がずれた映画を見ているときと同じで、とても不快ではないでしょうか?

研究者たちはその後、この問題の主な原因を発見し、「リップシンク識別子」を通じて解決しました。

具体的には、既存の研究で使用されている損失関数、つまりLipGANのL1再構成損失と識別損失が、誤ったリップシンク生成を削減できない主な理由が2つあります。

そこで研究者らは、事前に訓練された識別器「十分に訓練されたリップシンクの専門家」を直接使用してリップシンクエラーを検出しましたが、この検出結果はすでにかなり正確でした。

さらに研究者らは、ノイズの多い顔をさらに微調整すると、識別器のリップシンク測定能力が低下し、生成される唇の形にも影響が出ることを発見した。

最後に、視覚品質と同期精度を向上させるために、視覚品質識別器も採用されています。

例えば、黄色と緑のボックスは今回提案されたモデル、赤いボックスは既存の最良の方法、テキストは彼らが言っている文章です。

モデルによって生成された唇の形状は、既存の唇の形状よりも正確で自然であることがわかります。

モデルトレーニング結果

モデルのトレーニング段階で、著者らは、ビデオ内のリップシンクの精度を測定できる「リップシンクエラー距離」（低いほど良い）と「リップシンクエラー信頼度」（高いほど良い）という 2 つの新しい指標を提案しました。

Wav2Lip を使用して生成されたビデオは、実際の同期ビデオとほぼ同等の品質であることがわかりました。

このモデルは LRS2 のトレーニングセットでのみトレーニングされており、他のデータセットでトレーニングする場合はコードに若干の変更が必要であることに注意してください。

さらに、3 つのリアルなビデオタイプが評価されます。

結果はすべて、Wav2Lip モデルが高品質で正確なリップシンクビデオを生成できることを示していますが、TTS で生成された音声のリップシンクにはまだ改善の余地があります。

この研究についてどう思いますか?

現在、このプロジェクトはオープンソース化されており、デモ版を自分で体験することができます〜

再度お知らせします: 20 秒のビデオとオーディオファイルをアップロードするだけで、ワンクリックで生成できます。

論文の宛先:
出典: arxiv.org
デモビデオ:
https://www.youtube.com/watch?v=SeFS-FhVv3g&feature=youtu.be
GitHub アドレス:
https://github.com/Rudrabha/Wav2Lip
デモURL:

https://bhaasha.iiit.ac.in/lipsync/

<<: OpenAIは人間の参照要約よりも優れており、人間のフィードバックを利用して要約生成の品質を向上させています。

>>: 滴滴出行副社長の葉潔平氏が辞任した。同氏は旅行大手のAI部門の責任者だった。

GPT-4が化学者になる！ USTC などが初の「科学リスク」ベンチマークと SciGuard ビッグモデルを発表

ブログ

Siriは中国で禁止されるのでしょうか？国内AI企業がアップルを特許侵害で訴え、高等法院は中国の特許を有効と認定

ブログ

コードを自動生成できるAIベースの開発ツール5選

ブログ

マスク氏が自動運転を「ザッカーバーグの家へ行く」ライブ放送、45分間で手動介入は1回のみ：FSD V12は「ベータ版」ではなくなる

ブログ

Red Hat は Ansible の自動化に IBM Watsonx コード生成を採用

ブログ

生成AI技術：医師の燃え尽き症候群を軽減する新たな希望

ブログ

顔認識を法的に規制する方法

ブログ

この国産トランスフォーマーは自動変形、音声制御、プログラミングが可能。外国人は狂ったように気に入っている

ブログ

ボストン大学の「Platypus-70B」がHugging Face大型模型ランキングでトップに！効率的なデータセットと独自のLoRA微調整が鍵

ブログ

ゴースト吹き替えチームにとって朗報です！ AIがあらゆる言語のリップシンクを自動生成

Wav2Lip モデル

モデルトレーニング結果

GPT-4が化学者になる！ USTC などが初の「科学リスク」ベンチマークと SciGuard ビッグモデルを発表

Siriは中国で禁止されるのでしょうか？国内AI企業がアップルを特許侵害で訴え、高等法院は中国の特許を有効と認定

コードを自動生成できるAIベースの開発ツール5選

マスク氏が自動運転を「ザッカーバーグの家へ行く」ライブ放送、45分間で手動介入は1回のみ：FSD V12は「ベータ版」ではなくなる

Red Hat は Ansible の自動化に IBM Watsonx コード生成を採用

生成AI技術：医師の燃え尽き症候群を軽減する新たな希望

顔認識を法的に規制する方法

この国産トランスフォーマーは自動変形、音声制御、プログラミングが可能。外国人は狂ったように気に入っている

ボストン大学の「Platypus-70B」がHugging Face大型模型ランキングでトップに！効率的なデータセットと独自のLoRA微調整が鍵

推薦する

Facebook Cityは楽しいです！ドローンで遠隔地の山岳地帯にモバイルネットワークを提供

ゲーム内で優れたリアルタイム音声体験を提供する方法

ハッカーたちは猫娘を作成する代わりに、一流の原子力研究所から何十万ものデータを盗んだ...

何？ NeRF は BEV の一般化パフォーマンスも向上させます。最初の BEV クロスドメインオープンソースコードと Sim2Real の最初の完成!

わかった！ニッチだけど役に立つAIテクニック6選

20B大型モデルの性能はLlama2-70Bに匹敵します！完全にオープンソースで、ベースからツールまですべてが明確に整理されています

海外メディア：人間はますます余暇を持ち、AIは資本主義を排除する

人工知能、ディープラーニング、機械学習の概念と違い

OpenAIは、AIモデルが人間の価値観と一致していることを確認するために世論を集める新しいチームを結成しました

女神の若々しい姿が全開！テンセントのAIモデルGFPGANがGitHubのホットリストで1位に

UCLA Chineseが新しい自動演奏メカニズムを提案しました！ LLMは自己学習し、その効果はGPT-4の専門家の指導よりも優れている