数日前、アリババの研究チームは「Animate Anyone」と呼ばれる手法を構築しました。この手法では、人物の写真とスケルトンアニメーションのガイダンスのみを使用して、自然なアニメーション動画を生成できます。しかし、この研究のソースコードはまだ公開されていません。 アイアンマンを動かそう。 実際、「Animate Anyone」の論文がarXivに掲載される前日、シンガポール国立大学のShow LabとByteDanceが共同で同様の研究を実施していた。彼らは、時間的な一貫性を強化し、参照画像を忠実に保存し、アニメーションの忠実度を向上させることを目的とした拡散ベースのフレームワーク、MagicAnimate を提案しました。なお、MagicAnimate プロジェクトはオープンソース化されており、推論コードと gradio オンライン デモが公開されています。
上記の目標を達成するために、研究者らはまず時間情報をエンコードするビデオ拡散モデルを開発しました。次に、フレーム間で外観の一貫性を維持するために、参照画像の複雑な詳細を保存する新しい外観エンコーダーを導入しました。研究者たちは、これら 2 つの革新技術を活用して、さらにシンプルなビデオ融合技術を使用して、長いビデオアニメーションのスムーズな遷移を実現しました。 実験結果によると、MagicAnimate は両方のベンチマークでベースライン メソッドよりも優れていることがわかりました。特に、難しい TikTok ダンス データセットでは、私たちの方法は、ビデオの忠実度において、最も強力なベースライン メソッドを 38% 以上上回ります。 以下のTikTokガールたちのダイナミックな表示効果を見てみましょう。 踊るTikTokガールに加え、「走る」ワンダーウーマンもいる。 『真珠の耳飾りの少女』と『モナ・リザ』は二人ともヨガをやっていました。 一人で踊るだけでなく、複数人で踊ることもできます。 他の方法と比較すると、その効果は明らかです。 海外のネットユーザーの中には、HuggingFaceに試用スペースを設けた人もおり、そこではわずか数分でアニメーション動画を作成することができる。しかし、このウェブサイトには 404 があります。 画像出典: https://twitter.com/gijigae/status/1731832513595953365 次に、MagicAnimate方式と実験結果を紹介します。 方法の概要参照画像 I_ref とモーションシーケンスが与えられます。ここで、N はフレーム数です。 MagicAnimate は連続ビデオを合成するように設計されています。その中で、モーションシーケンスに従いながら画像 I_ref が表示されます。既存の拡散モデルベースのフレームワークは、フレーム間の時間的な一貫性を無視して各フレームを個別に処理するため、生成されたアニメーションに「ちらつき」の問題が発生します。 この問題に対処するために、本研究では、拡散バックボーンネットワークに時間的注意ブロックを組み込むことで、時間モデリングのためのビデオ拡散モデルを構築します。 さらに、既存の研究では参照画像をエンコードするために CLIP エンコーダを使用していますが、この方法では複雑な詳細をキャプチャできないと研究では考えられています。そこで本研究では、 I_refを外観埋め込みy_aにエンコードし、これに基づいてモデルを調整する新しい外観エンコーダを提案した。 MagicAnimate の全体的なプロセスを図 2 に示します。まず、参照画像をアピアランス エンコーダーを使用してアピアランス エンベディングに埋め込み、次にターゲット ポーズ シーケンスをポーズ ControlNet に渡してモーション条件を抽出します。 実際には、メモリの制限により、MagicAnimate はビデオ全体をセグメントで処理します。時間モデリングと強力な外観エンコーディングのおかげで、MagicAnimate はクリップ間の時間的および外観的な一貫性を高度に維持できます。しかし、部分間にはまだ微妙な不連続性が残っています。これを軽減するために、研究チームは単純なビデオ融合法を使用して、遷移の滑らかさを改善しました。 図 2 に示すように、MagicAnimate はビデオ全体を重複するセグメントに分解し、重複するフレームの予測を単純に平均化します。最後に、本研究では、参照画像の保持能力と単一フレームの忠実度をさらに高めるための画像とビデオの共同トレーニング戦略も導入しています。 実験と結果実験部分では、研究者らはTikTokとTEDトークという2つのデータセットでMagicAnimateのパフォーマンスを評価しました。 TikTok データセットには 350 本のダンス ビデオが含まれており、TED トーク データセットには YouTube の TED トーク ビデオから抽出された 1,203 本のクリップが含まれています。 まずは定量的な結果を見てみましょう。以下の表 1 は、2 つのデータセットにおける MagicAnimate とベースライン メソッドの定量的な比較を示しています。表 1a は、TikTok データセットにおいて、L1、PSNR、SSIM、LPIPS などの再構築指標において当社のメソッドがすべてのベースライン メソッドを上回っていることを示しています。 表 1b は、TED トーク データセットでは、MagicAnimate がビデオ忠実度の点でも優れたパフォーマンスを発揮し、最高の FID-VID スコア (19.00) と FVD スコア (131.51) を達成したことを示しています。 定性的な結果を見てみましょう。研究者らは、MagicAnimate と他のベースライン手法の定性的な比較を以下の図 3 に示しています。私たちの方法は、参照画像から詳細情報を抽出する外観エンコーダーのおかげで、より高い忠実度を実現し、より強力な背景保存を示します。 研究者らは、MagicAnimate のクロスアイデンティティ アニメーションも評価し、SOTA ベースライン メソッドである DisCo および MRAA と比較しました。具体的には、TikTok テスト セットから 2 つの DensePose モーション シーケンスをサンプリングし、これらのシーケンスを使用して他のビデオの参照画像をアニメーション化しました。 下の図 1 は、MRAA が多数の異なるポーズを含む運転ビデオに一般化できない一方で、DisCo が参照画像の詳細を保持するのが難しいことを示しています。対照的に、私たちの方法は、ターゲットの動きを考慮して参照画像を忠実にアニメーション化し、その堅牢性を実証します。 最後のステップはアブレーション実験です。 MagicAnimate の設計選択の有効性を検証するために、研究者らは、以下の表 2 と図 4 に示すように、時間モデリング、外観エンコーダー、推論段階でのビデオ融合、画像とビデオの共同トレーニングの有無を含む、TikTok データセットでのアブレーション実験を実施しました。 MagicAnimate には幅広い応用の見込みもあります。研究者らは、実際の人間のデータのみでトレーニングされているにもかかわらず、未知の領域データのアニメーション処理、テキスト画像拡散モデルとの統合、複数人物アニメーションなど、さまざまなアプリケーションシナリオに一般化できる能力を実証したと述べた。 詳細については原文をお読みください。 |
<<: 「とんでもないAI画像拡大」が流行ってる!張張、それは驚きだ
>>: 3D編集をPhotoshopと同じくらい簡単に。新しいアルゴリズムGaussianEditorは、3Dシーンの追加、削除、変更を数分で完了できます。
大学入試はすでに始まっています。分厚いノートを開いて専攻を選ぶ日はまだまだ遠いのでしょうか。この季節...
[[422361]] BERT や GPT などの大規模な事前トレーニング済みモデル (PTM) ...
過去 10 年間で世界中のスマートフォン ユーザーの数は急増しており、今後も同様の増加傾向が続くと思...
[[187530]]人工知能 (AI) がどのように未来を予測し、職場を変え、さらには雇用を生み出...
教育部が2019年3月に発表した新規登録学部専攻を例にとると、最も人気のある専攻は人工知能です。上海...
各 Web アプリケーションには独自の機能とパフォーマンス パラメーターのセットがあり、これらは動的...
最近、アクセンチュアは「メタバースで出会う:テクノロジーとエクスペリエンスの連続体のビジネスを再構築...
AI やロボットについて話すとき、多くの人の頭に最初に浮かぶのは、しばしば「終末後の時代」に猛威を振...
1. 適用シナリオ高精度のサンプリング結果の場合、最大値には 3 バイト、最小値には 1 バイトが必...