この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 同じ顔、違う声でもこんなに同期できるんですね。 DeepFake のリップシンクはこのようになります。 これらの人々の声とイントネーションがまったく同じであることに気付きましたか? 目を閉じて聞いても、それが誰なのか分かりませんでした。アンドリュー・ン?ムスク?どちらさますか? 元のビデオと比較すると、顔の変化は目立たず、効果は非常に自然です。 △有名なYouTubeデジタルブロガーのLinusをリップシンクに起用 インドのハイデラバード大学の新しい研究によると、これはWav2Lipと呼ばれるモデルで、正確なリップシンク動画を生成するための新しい方法だという。 あらゆるキャラクター、さらには漫画のキャラクターやあらゆる声、言語でも、リップシンク ビデオをあらゆるターゲットの音声に高精度で同期できます。 このプロジェクトは現在オープンソースになっており、デモ版を試すことができます。20 秒のビデオとオーディオ ファイルをアップロードするだけで、ワンクリックで生成できます。 この研究がRedditで公開されると、21時間以内に200回以上のアクセスがありました。 この研究の応用展望について、著者は、外国語のオンライン講義、吹き替え映画、記者会見などで利用することで、文字と音の融合をより自然にし、多くの人的資源と物的資源を節約できると述べた。 まあ、XudubaやHuaixiubangなどの吹き替えチームなら使えるかもしれないね! Wav2Lip モデル既存の研究は主に、静止画像やビデオ内の特定のキャラクターの正確な唇の動きを生成することに焦点を当てています。 しかし、問題は、話している人などの動的な画像の唇の動きを正確に変形することができず、その結果、コンテンツと新しいオーディオが完全に同期されないことです。 音と映像がずれた映画を見ているときと同じで、とても不快ではないでしょうか? 研究者たちはその後、この問題の主な原因を発見し、「リップシンク識別子」を通じて解決しました。 具体的には、既存の研究で使用されている損失関数、つまりLipGANのL1再構成損失と識別損失が、誤ったリップシンク生成を削減できない主な理由が2つあります。 そこで研究者らは、事前に訓練された識別器「十分に訓練されたリップシンクの専門家」を直接使用してリップシンクエラーを検出しましたが、この検出結果はすでにかなり正確でした。 さらに研究者らは、ノイズの多い顔をさらに微調整すると、識別器のリップシンク測定能力が低下し、生成される唇の形にも影響が出ることを発見した。 最後に、視覚品質と同期精度を向上させるために、視覚品質識別器も採用されています。 例えば、黄色と緑のボックスは今回提案されたモデル、赤いボックスは既存の最良の方法、テキストは彼らが言っている文章です。 モデルによって生成された唇の形状は、既存の唇の形状よりも正確で自然であることがわかります。 モデルトレーニング結果モデルのトレーニング段階で、著者らは、ビデオ内のリップシンクの精度を測定できる「リップシンク エラー距離」(低いほど良い)と「リップシンク エラー信頼度」(高いほど良い)という 2 つの新しい指標を提案しました。 Wav2Lip を使用して生成されたビデオは、実際の同期ビデオとほぼ同等の品質であることがわかりました。 このモデルは LRS2 のトレーニング セットでのみトレーニングされており、他のデータセットでトレーニングする場合はコードに若干の変更が必要であることに注意してください。 さらに、3 つのリアルなビデオ タイプが評価されます。 結果はすべて、Wav2Lip モデルが高品質で正確なリップシンク ビデオを生成できることを示していますが、TTS で生成された音声のリップシンクにはまだ改善の余地があります。 この研究についてどう思いますか? 現在、このプロジェクトはオープンソース化されており、デモ版を自分で体験することができます〜 再度お知らせします: 20 秒のビデオとオーディオ ファイルをアップロードするだけで、ワンクリックで生成できます。 論文の宛先: https://bhaasha.iiit.ac.in/lipsync/ |
<<: OpenAIは人間の参照要約よりも優れており、人間のフィードバックを利用して要約生成の品質を向上させています。
>>: 滴滴出行副社長の葉潔平氏が辞任した。同氏は旅行大手のAI部門の責任者だった。
都市化と経済発展の加速に伴い、我が国の社会保障を構成する要素が拡大し、公安機関の警察活動に大きな圧力...
サーセイ・ラニスターの策略やサー・ジョラー・モーモントの父親のような保護をもってしても、攻撃者が H...
急速に進化する今日のテクノロジーの世界では、「人工知能」、「機械学習」、「アルゴリズム」などの用語が...
現在、GoogleやOpenAIなどの大手企業が開発したテキストから画像へのモデルは、興味深いニュー...
7月4日、コード生成に重点を置いたAIモデルとしてMetaGPTが発表された。名前は似ているが、Me...
[[435915]] K回の反転後の配列の最大合計LeetCode の問題へのリンク: https:...
[[377307]] 1. アルゴリズムの評価基準ソートアルゴリズムを説明する前に、まずアルゴリズム...
著者 (Alex Rodriguez、Alessandro Laio) は、さまざまな形状のクラスタ...
教育機関向けオファー Github AI スマートコーディングアシスタント コパイロットAIプログラ...
こんにちは、みんな。今日は、ChatGPT を使用して安全ヘルメットの着用検出を開発する方法を紹介し...
サイバーセキュリティのスキル不足は、政府を含むさまざまな地域、市場、セクターの組織に引き続き影響を及...