たった一枚の写真でTikTokガール全員が踊れる

たった一枚の写真でTikTokガール全員が踊れる

数日前、アリババの研究チームは「Animate Anyone」と呼ばれる手法を構築しました。この手法では、人物の写真とスケルトンアニメーションのガイダンスのみを使用して、自然なアニメーション動画を生成できます。しかし、この研究のソースコードはまだ公開されていません。

アイアンマンを動かそう。

実際、「Animate Anyone」の論文がarXivに掲載される前日、シンガポール国立大学のShow LabとByteDanceが共同で同様の研究を実施していた。彼らは、時間的な一貫性を強化し、参照画像を忠実に保存し、アニメーションの忠実度を向上させることを目的とした拡散ベースのフレームワーク、MagicAnimate を提案しました。なお、MagicAnimate プロジェクトはオープンソース化されており、推論コードと gradio オンライン デモが公開されています。

  • 論文アドレス: https://arxiv.org/pdf/2311.16498.pdf
  • プロジェクトアドレス: https://showlab.github.io/magicanimate/
  • GitHub アドレス: https://github.com/magic-research/magic-animate

上記の目標を達成するために、研究者らはまず時間情報をエンコードするビデオ拡散モデルを開発しました。次に、フレーム間で外観の一貫性を維持するために、参照画像の複雑な詳細を保存する新しい外観エンコーダーを導入しました。研究者たちは、これら 2 つの革新技術を活用して、さらにシンプルなビデオ融合技術を使用して、長いビデオアニメーションのスムーズな遷移を実現しました。

実験結果によると、MagicAnimate は両方のベンチマークでベースライン メソッドよりも優れていることがわかりました。特に、難しい TikTok ダンス データセットでは、私たちの方法は、ビデオの忠実度において、最も強力なベースライン メソッドを 38% 以上上回ります。

以下のTikTokガールたちのダイナミックな表示効果を見てみましょう。

踊るTikTokガールに加え、「走る」ワンダーウーマンもいる。

『真珠の耳飾りの少女』と『モナ・リザ』は二人ともヨガをやっていました。

一人で踊るだけでなく、複数人で踊ることもできます。

他の方法と比較すると、その効果は明ら​​かです。

海外のネットユーザーの中には、HuggingFaceに試用スペースを設けた人もおり、そこではわずか数分でアニメーション動画を作成することができる。しかし、このウェブサイトには 404 があります。

画像出典: https://twitter.com/gijigae/status/1731832513595953365

次に、MagicAnimate方式と実験結果を紹介します。

方法の概要

参照画像 I_ref とモーションシーケンスが与えられます。ここで、N はフレーム数です。 MagicAnimate は連続ビデオを合成するように設計されています。その中で、モーションシーケンスに従いながら画像 I_ref が表示されます。既存の拡散モデルベースのフレームワークは、フレーム間の時間的な一貫性を無視して各フレームを個別に処理するため、生成されたアニメーションに「ちらつき」の問題が発生します。

この問題に対処するために、本研究では、拡散バックボーンネットワークに時間的注意ブロックを組み込むことで、時間モデリングのためのビデオ拡散モデルを構築します

さらに、既存の研究では参照画像をエンコードするために CLIP エンコーダを使用していますが、この方法では複雑な詳細をキャプチャできないと研究では考えられています。そこで本研究では、 I_refを外観埋め込みy_aにエンコードし、これに基づいてモデルを調整する新しい外観エンコーダを提案した

MagicAnimate の全体的なプロセスを図 2 に示します。まず、参照画像をアピアランス エンコーダーを使用してアピアランス エンベディングに埋め込み、次にターゲット ポーズ シーケンスをポーズ ControlNet に渡してモーション条件を抽出します

実際には、メモリの制限により、MagicAnimate はビデオ全体をセグメントで処理します。時間モデリングと強力な外観エンコーディングのおかげで、MagicAnimate はクリップ間の時間的および外観的な一貫性を高度に維持できます。しかし、部分間にはまだ微妙な不連続性が残っています。これを軽減するために、研究チームは単純なビデオ融合法を使用して、遷移の滑らかさを改善しました。

図 2 に示すように、MagicAnimate はビデオ全体を重複するセグメントに分解し、重複するフレームの予測を単純に平均化します。最後に、本研究では、参照画像の保持能力と単一フレームの忠実度をさらに高めるための画像とビデオの共同トレーニング戦略も導入しています。

実験と結果

実験部分では、研究者らはTikTokとTEDトークという2つのデータセットでMagicAnimateのパフォーマンスを評価しました。 TikTok データセットには 350 本のダンス ビデオが含まれており、TED トーク データセットには YouTube の TED トーク ビデオから抽出された 1,203 本のクリップが含まれています。

まずは定量的な結果を見てみましょう。以下の表 1 は、2 つのデータセットにおける MagicAnimate とベースライン メソッドの定量的な比較を示しています。表 1a は、TikTok データセットにおいて、L1、PSNR、SSIM、LPIPS などの再構築指標において当社のメソッドがすべてのベースライン メソッドを上回っていることを示しています。

表 1b は、TED トーク データセットでは、MagicAnimate がビデオ忠実度の点でも優れたパフォーマンスを発揮し、最高の FID-VID スコア (19.00) と FVD スコア (131.51) を達成したことを示しています。

定性的な結果を見てみましょう。研究者らは、MagicAnimate と他のベースライン手法の定性的な比較を以下の図 3 に示しています。私たちの方法は、参照画像から詳細情報を抽出する外観エンコーダーのおかげで、より高い忠実度を実現し、より強力な背景保存を示します。

研究者らは、MagicAnimate のクロスアイデンティティ アニメーションも評価し、SOTA ベースライン メソッドである DisCo および MRAA と比較しました。具体的には、TikTok テスト セットから 2 つの DensePose モーション シーケンスをサンプリングし、これらのシーケンスを使用して他のビデオの参照画像をアニメーション化しました。

下の図 1 は、MRAA が多数の異なるポーズを含む運転ビデオに一般化できない一方で、DisCo が参照画像の詳細を保持するのが難しいことを示しています。対照的に、私たちの方法は、ターゲットの動きを考慮して参照画像を忠実にアニメーション化し、その堅牢性を実証します。

最後のステップはアブレーション実験です。 MagicAnimate の設計選択の有効性を検証するために、研究者らは、以下の表 2 と図 4 に示すように、時間モデリング、外観エンコーダー、推論段階でのビデオ融合、画像とビデオの共同トレーニングの有無を含む、TikTok データセットでのアブレーション実験を実施しました。

MagicAnimate には幅広い応用の見込みもあります。研究者らは、実際の人間のデータのみでトレーニングされているにもかかわらず、未知の領域データのアニメーション処理、テキスト画像拡散モデルとの統合、複数人物アニメーションなど、さまざまなアプリケーションシナリオに一般化できる能力を実証したと述べた。

詳細については原文をお読みください。

<<:  「とんでもないAI画像拡大」が流行ってる!張張、それは驚きだ

>>:  3D編集をPhotoshopと同じくらい簡単に。新しいアルゴリズムGaussianEditorは、3Dシーンの追加、削除、変更を数分で完了できます。

ブログ    
ブログ    

推薦する

Nature のサブ出版物: 新しいアルゴリズムは、米国の 8 つの都市で 90% の精度で、1 週間前に 2 ブロック以内の犯罪を予測できます。

シカゴ大学の助教授イシャヌ・チャトパディアイ氏は、彼と彼のチームが「アーバン・ツイン」モデルを作成し...

欧州はAI規制を推進

先週、欧州の議員らは画期的な人工知能規制であるEU AI法案を圧倒的多数で賛成票を投じた。この法案は...

シングルを保存: このオブジェクトジェネレーターは、将来のオブジェクトがどのように見えるかを確認するのに役立ちます

将来の妻や夫がどんな人か分からないですか?さあ、まずはAIを使って予測してみましょう。 [[3123...

レビュー能力はGPT-4よりも強く、13B評価モデルAuto-Jはオープンソース化されている

生成型人工知能技術の急速な発展に伴い、大規模なモデルが人間の価値観(意図)と一致するようにすることが...

私たちはこれらのソートアルゴリズムを本当に理解しているのでしょうか?

[[379394]]おそらく、あなたはすでにこれらの一般的なソートアルゴリズムを学んだことがあるか...

...

...

アヴネットの鍾喬海氏:人工知能はモノのインターネットの実装を加速させる

【51CTO.comオリジナル記事】 今日では、AI や IoT テクノロジーに投資する企業がますま...

GPT-4P がマルチモーダルプロンプトインジェクションイメージ攻撃に対して脆弱なのはなぜですか?

OpenAI の新しい GPT-4V バージョンは画像のアップロードをサポートしており、これにより...

パラメータは最大2兆個、GPT-4をはるかに超える!アマゾンの新型オリンパス大型モデルが公開、近日発表予定

大きなモデルの波から遠ざかっていたように見えるAmazonが、ついに最新の進捗状況を発表することにな...

人工知能はビッグデータの保存と管理の効率をどのように向上させるのでしょうか?

ビッグデータのソースが多数存在し、企業が利用できるデータの量も増加しているため、ストレージ管理者にと...

...

...

すべての携帯電話にAIが搭載されているのに、なぜそれを軽蔑するのですか?

携帯電話の発表会を見れば、AI機能の追加が目に入ります。しかし、多くのユーザーはこれをやや否定的に捉...

顔認識のゴッドファーザー、李自青氏:技術革新が業界の未来を力づける

NVIDIA の GTC CHINA 2016 テクノロジー カンファレンスでは、数多くの業界リーダ...