ネット全体が「被験者3」を真似し、メッシ、アイアンマン、二次元の女の子が即勝利

最近、「被験者 3」について多かれ少なかれ耳にしたことがあるかもしれません。握手、軽く捻挫した足、リズミカルな音楽のダンスの動きが、ネットワーク全体で模倣されています。

同じようなダンスがAIによって生成されたらどうなるでしょうか？下の図のように、現代人も紙人間も均一な動きをしています。皆さんは、これが写真から生成されたダンスビデオだということを想像できないかもしれません。

キャラクターの動きはより難しくなり、結果として得られるビデオも非常にスムーズになります (右端):

メッシとアイアンマンを動かすのは問題ない:

アニメの女の子もいろいろあります。

上記の効果はどのようにして達成されるのでしょうか?読み続けましょう。

キャラクターアニメーションは、ソースキャラクターイメージを、希望するポーズのシーケンスでリアルなビデオにアニメーション化するタスクであり、オンライン小売、エンターテイメントビデオ、芸術作品、仮想キャラクターなど、多くの潜在的な用途があります。

GAN を皮切りに、研究者たちは画像のアニメーション化に関する理解を深め、ポーズ転送を研究し続けてきました。しかし、生成された画像や動画には、局所的な歪み、細部のぼやけ、意味の不一致、時間的な不安定性などの問題が依然として残っており、これらの手法の応用を妨げています。

この論文では、アリババの研究者が、キャラクター画像をアニメーション動画に変換し、その結果得られる動画が必要な姿勢シーケンスに従う「Animate Anybody」という手法を提案しました。この研究では、Stable Diffusion のネットワーク設計と事前トレーニング済みの重みを継承し、ノイズ除去 UNet をマルチフレーム入力に適応するように変更しました。

論文アドレス: https://arxiv.org/pdf/2311.17117.pdf
プロジェクトアドレス: https://humanaigc.github.io/animate-anyone/

外観の一貫性を維持するために、この研究では ReferenceNet も導入されました。これは、参照画像の空間詳細をキャプチャするための対称的な UNet 構造として設計されています。この研究では、UNet ブロックの各対応レイヤーで空間アテンションを使用して、ReferenceNet の機能をノイズ除去 UNet に統合します。このアーキテクチャにより、モデルは一貫した機能空間で参照画像との関係を完全に学習できます。

姿勢制御性を保証するために、本研究では、姿勢制御信号をノイズ除去プロセスに効果的に統合する軽量姿勢ディレクターを設計しました。時間的安定性を実現するために、本論文では、複数のフレーム間の関係をモデル化する時間レイヤーを導入し、視覚品質の高解像度の詳細を維持しながら、連続的でスムーズな時間的動きのプロセスをシミュレートします。

Animate Anybody は 5K のキャラクタービデオクリップの内部データセットでトレーニングされており、図 1 はさまざまなキャラクターのアニメーション結果を示しています。従来の方法と比較して、私たちの方法にはいくつかの重要な利点があります。

まず、ビデオ内のキャラクターの出現の空間的および時間的な一貫性を効果的に維持します。
2 番目に、時間的なジッターやちらつきなどの問題がなく、高解像度のビデオを生成します。
3つ目は、特定の分野に制限されることなく、あらゆるキャラクター画像を動画にアニメーション化できることです。

この論文は、UBC ファッションビデオデータセットと TikTok データセットという 2 つの特定の人間によるビデオ合成ベンチマークに基づいて評価されています。結果は、Animate Anybody が SOTA 結果を達成したことを示しています。さらに、この研究では、Animate Anybody 方式を大規模データでトレーニングされた一般的な画像からビデオへの方式と比較し、その結果、Animate Anybody がキャラクターアニメーションにおいて優れた機能を発揮することが示されました。

Animate Anybody と他の方法の比較:

方法の紹介

この論文の手法は、以下の図 2 に示されています。ネットワークの初期入力は、複数のノイズフレームで構成されます。研究者らは、同じフレームワークとブロックユニットを使用し、SD からトレーニングウェイトを継承して、SD 設計に基づいてノイズ除去 UNet を構成しました。具体的には、この方法は 3 つの主要なコンポーネントで構成されます。

参照画像文字の外観特徴をエンコードする ReferenceNet。
制御可能なキャラクターの動きのためのモーション制御信号をエンコードする Pose Guider。
時間レイヤーは、キャラクターのアクションの継続性を確保するために時間的な関係をエンコードします。

リファレンスネット

ReferenceNet は、時間レイヤーを除いて、ノイズ除去 UNet とほぼ同じフレームワークを持つ参照画像特徴抽出ネットワークです。したがって、ReferenceNet はノイズ除去 UNet と同様に元の SD 重みを継承し、各重みの更新は独立して実行されます。研究者らは、ReferenceNet の機能をノイズ除去 UNet に統合する方法を説明した。

ReferenceNet の設計には 2 つの利点があります。まず、ReferenceNet は、元の SD の事前トレーニング済みの画像特徴モデリング機能を活用して、適切に初期化された特徴を生成できます。第二に、ReferenceNet と Denoising UNet は本質的に同じネットワーク構造と共有の初期化重みを持っているため、Denoising UNet は同じ特徴空間に関連付けられている ReferenceNet から特徴を選択的に学習できます。

アティチュードディレクター

軽量ポーズガイドは、4つの畳み込み層（4×4カーネル、2×2ストライド、16、32、64、128チャネルを使用、[56]の条件付きエンコーダーに類似）を使用して、ポーズ画像を潜在ノイズと同じ解像度に揃え、その後、処理されたポーズ画像を潜在ノイズに追加してから、ノイズ除去UNetに入力する。ポーズガイドはガウス重みで初期化され、最終マッピングレイヤーではゼロ畳み込みが使用されます。

時間レイヤー

時間レイヤーのデザインは AnimateDiff からヒントを得ています。特徴マップx∈R^b×t×h×w×cの場合、研究者はまずそれをx∈R^(b×h×w)×t×cに変換し、次に時間的注意、つまり次元tに沿った自己注意を実行します。時間層の特徴は、残差接続を通じて元の特徴にマージされます。この設計は、以下の 2 段階のトレーニング方法と一致しています。時間レイヤーは、ノイズ除去 UNet の Res-Trans ブロック内でのみ使用されます。

トレーニング戦略

トレーニングプロセスは 2 つの段階に分かれています。

最初の段階では、単一のビデオフレームがトレーニングに使用されます。ノイズ除去 UNet では、研究者らは一時的に時間レイヤーを除外し、モデルは単一フレームのノイズを入力として受け取りました。参照ネットワークとポーズガイダーもこのフェーズでトレーニングされます。参照画像はビデオクリップ全体からランダムに選択されます。彼らは、SD の事前トレーニング済みの重みに基づいて、ノイズ除去 UNet および ReferenceNet モデルを初期化しました。ポーズガイドは、ゼロ畳み込みを使用する最終投影レイヤーを除き、ガウス重みで初期化されます。 VAE エンコーダーとデコーダー、および CLIP 画像エンコーダーの重みは変更されません。このステージの最適化の目標は、参照画像とターゲットポーズが与えられた場合に、モデルが高品質のアニメーション画像を生成できるようにすることです。

第 2 段階では、研究者は以前にトレーニングされたモデルに時間レイヤーを導入し、AnimateDiff で事前トレーニングされた重みを使用して初期化しました。モデルの入力は 24 フレームのビデオクリップで構成されます。このフェーズでは、ネットワークの残りの部分の重みは固定され、時間層のみがトレーニングされます。

実験と結果

定性的な結果: 図 3 に示すように、この方法では、全身肖像画、半身肖像画、漫画キャラクター、ヒューマノイドキャラクターなど、あらゆるキャラクターをアニメーション化できます。この方法により、高解像度でリアルなキャラクターの詳細を生成できます。大きな動きがある場合でも参照画像との時間的な一貫性を維持し、フレーム間の時間的な連続性を示します。

ファッションビデオ合成。ファッションビデオ合成は、運転ポーズのシーケンスを使用して、ファッション写真をリアルなアニメーションビデオに変換することを目的としています。実験は、それぞれ約 350 フレームを含む 500 本のトレーニングビデオと 100 本のテストビデオで構成される UBC ファッションビデオデータセットで実行されます。定量的な比較は表1に示されています。結果から、提案された方法は、特にビデオメトリックの点で他の方法よりも優れていることがわかります。

定性的な比較を図 4 に示します。公平な比較を行うために、研究者らはDreamPoseのオープンソースコードを使用して、サンプルの微調整を行わずに結果を取得しました。ファッションビデオの分野では、衣服の詳細に対する要件は非常に厳格です。しかし、DreamPose と BDMM で生成されたビデオでは、衣服の細部の一貫性を維持できず、色や細かい構造要素に明らかなエラーが見られます。対照的に、私たちの方法によって生成された結果は、衣服の詳細の一貫性をより効果的に維持できます。

人間ダンス世代。人間のダンス生成は、リアルなダンスシーンの画像をアニメーション化することに重点を置いています。研究者らは、340本のトレーニング動画と100本のテスト動画を含むTikTokデータセットを使用した。 DisCo のデータセット分割方法に従い、10 本の TikTok スタイルのビデオを含む同じテストセットを使用して、研究者は定量的な比較を実施しました (表 2 を参照)。提案された方法は最良の結果を達成しました。一般化機能を強化するために、DisCo は人間の属性の事前トレーニングを組み合わせ、モデルの事前トレーニングに多数の画像ペアを活用します。対照的に、研究者たちはTikTokデータセットのみでトレーニングを行い、DisCoよりも優れた結果を達成しました。

DisCoとの質的な比較を図5に示します。シーンの複雑さを考慮すると、DisCo の方法では、人間の前景マスクを生成するために SAM を追加で使用する必要があります。対照的に、私たちのアプローチは、明示的な人物マスク学習がなくても、事前の人物セグメンテーションを必要とせずに、モデルが被写体の動きから前景と背景の関係を把握できることを示しています。さらに、複雑なダンスシーケンスでは、モデルは動き全体にわたって視覚的な連続性を維持することに優れており、さまざまなキャラクターの外観を処理する際に優れた堅牢性を発揮します。

画像-ビデオの一般的な方法。現在、多くの研究で、大規模なトレーニングデータに基づき、強力な生成機能を備えたビデオ拡散モデルが提案されています。研究者たちは、比較対象として、最も有名かつ効果的な画像ビデオ手法である AnimateDiff と Gen2 の 2 つを選択しました。これら 2 つの方法はポーズ制御を行わないため、研究者は参照画像との外観の忠実度を維持する能力のみを比較しました。図 6 に示すように、現在の画像からビデオへの変換方法では、多数のキャラクターの動きを生成することが困難であり、ビデオ内での外観の一貫性を長期的に維持することが困難であるため、一貫したキャラクターアニメーションを効果的にサポートすることができません。

詳細については、原文論文を参照してください。

<<:

>>: 機械学習: 教師なし学習: 9 つのクラスタリングアルゴリズム