AI動画がまた爆発！写真＋音が動画に、アリババがソラのヒロインに歌わせ、レオがラップ

ソラに続いて、実は新しいAI動画モデルが登場し、とても素晴らしいのでみんなが転送して絶賛しています！

写真

これによって、『光邊』の悪役、洛翔に変身した高其強も、皆に法（犬頭）を教えることもできる。

これは、Alibaba の最新のオーディオ駆動型ポートレートビデオ生成フレームワーク、EMO (Emote Portrait Alive) です。

参照画像1枚と音声（話し声、歌声、ラップなど）を入力するだけで、生き生きとした表情のAI動画を生成できます。ビデオの最終的な長さは、入力オーディオの長さによって決まります。

AI 経験の豊富な Mona Lisa に独白を朗読してもらうこともできます。

若くてハンサムなレオは、テンポの速いラップの才能ショーを披露し、彼の唇の動きも問題なくそれに合わせています。

広東語の唇の動きさえも保持できるので、レスリー・チャン兄弟にイーソン・チャンの「Unconditional」を歌わせましょう。

つまり、肖像画に歌わせる（さまざまなスタイルの肖像画と歌）、肖像画に話す（さまざまな言語で）、あるいはさまざまな「誤った」俳優の演技など、EMO 効果は私たちを驚かせます。

ネットユーザーたちは「我々は新たな現実に突入している！」と叫んだ。

2019年版『ジョーカー』は2008年版『バットマンダークナイト』のセリフを言う

一部のネットユーザーは、EMO で生成されたビデオをレビューし、その効果をフレームごとに分析し始めています。

下の動画にあるように、主人公はソラが生成したAIのお嬢様で、今回彼女がみんなに歌ってくれた曲は「Don't Start Now」です。

Twitterユーザーは次のように分析した。

このビデオの一貫性はこれまで以上に優れています。
１分以上に及ぶ動画の中で、ソラさんの顔のサングラスはほとんど動かなかったが、耳と眉毛は独立して動いていた。
一番興奮したのは、そらさんの喉が呼吸しているように見えることです！彼女が歌っている間、彼女の体は震え、わずかに動いていました。私は本当にショックを受けました！

写真

結局のところ、EMO は注目の新技術なので、類似製品と比較することは避けられません。

ちょうど昨日、AI動画生成会社ピカも、動画の登場人物の吹き替えとリップシンクを同時に行えるリップシンク機能をリリースし、他の製品と衝突した。

具体的な効果は？ここに載せておきます。

比較した結果、コメント欄のネットユーザーはアリババが勝ったと結論付けた。

写真

EMO は論文を公開し、オープンソース化すると発表した。

しかし！オープンソースではありますが、GitHub にはまだインベントリがありません。

しかしまた！短いですが星の数が2.1kを超えました。

写真

これにより、ネットユーザーはジジ王と同じくらい不安になった。

ソラとは異なるアーキテクチャ

EMO 論文が発表されると、関係者の多くが安堵のため息をついた。

これはソラの技術的なルートとは異なり、ソラを複製することが唯一の方法ではないことを意味します。

EMO は同様の DiT アーキテクチャに基づいていません。つまり、従来の UNet を置き換えるために Transformer を使用しません。そのバックボーンネットワークは Stable Diffusion 1.5 から変更されています。

具体的には、EMO は、入力ビデオの長さに応じて任意の長さのビデオを生成できる、表現力豊かなオーディオ駆動型のポートレートビデオ生成フレームワークです。

写真

フレームワークは主に 2 つの段階で構成されます。

フレームエンコード段階

ReferenceNet と呼ばれる UNet ネットワークが展開され、参照画像やビデオのフレームから特徴を抽出します。

普及段階

まず、事前トレーニング済みのオーディオエンコーダーがオーディオ埋め込みを処理し、顔領域マスクをマルチフレームノイズと組み合わせて顔画像の生成を制御します。

続いて、バックボーンネットワーク主導のノイズ除去操作が実行されます。バックボーンネットワークでは、参照アテンションとオーディオアテンションの 2 種類のアテンションが適用され、それぞれキャラクターのアイデンティティの一貫性を維持し、キャラクターの動きを制御します。

さらに、時間モジュールは時間の次元を操作し、移動の速度を調整するために使用されます。

トレーニングデータに関しては、チームは 250 時間以上のビデオと 1,500 万枚以上の画像を含む大規模で多様なオーディオおよびビデオデータセットを構築しました。

最終的に実現した具体的な機能は次のとおりです。

入力オーディオに基づいて、キャラクターのアイデンティティの一貫性を保ちながら、任意の長さのビデオを生成できます (デモで示された最長の単一ビデオは 1 分 49 秒です)。
さまざまな言語での会話と歌をサポートします（デモには北京語、広東語、英語、日本語、韓国語が含まれています）
さまざまな絵画スタイルをサポート（写真、伝統的な絵画、漫画、3Dレンダリング、AIデジタルヒューマン）

写真

定量的な比較では、リップシンク品質を測定する SyncNet 指標よりわずかに劣るものの、従来の方法に比べて大幅に改善された SOTA も達成しました。

写真

拡散モデルに依存しない他の方法と比較すると、EMO は時間がかかります。

また、明示的な制御信号が使用されていないため、手などの他の体の部分が意図せず生成される可能性があります。潜在的な解決策としては、体の部分専用の制御信号を採用することが挙げられます。