プラグアンドプレイ、完璧な互換性：SDコミュニティのビデオプラグインI2Vアダプタが登場

画像からビデオへの生成 (I2V) タスクは、静止画像を動的なビデオに変換することを目的としており、これはコンピュータービジョンの分野における大きな課題です。難しいのは、画像コンテンツの信頼性と視覚的な一貫性を確保しながら、単一の画像から時間軸の動的な情報を抽出して生成することです。既存の I2V 方法のほとんどは、この目標を達成するために複雑なモデルアーキテクチャと大量のトレーニングデータに依存しています。

最近、Kuaishou が主導する新しい研究成果「I2V-Adapter: ビデオ拡散モデル用の汎用画像ビデオアダプタ」が発表されました。この研究では、革新的な画像からビデオへの変換方法が導入され、既存のテキストからビデオへの生成 (T2V) モデルの元の構造と事前トレーニングパラメータを変更することなく、静止画像を動的なビデオに変換できる軽量アダプタモジュール、つまり I2V-Adapter が提案されました。

論文アドレス: https://arxiv.org/pdf/2312.16693.pdf
プロジェクトのホームページ: https://i2v-adapter.github.io/index.html
コードアドレス: https://github.com/I2V-Adapter/I2V-Adapter-repo

既存の方法と比較して、I2V-Adapterは、トレーニング可能なパラメータの数を大幅に削減し（22Mまで削減、これはStable Video Diffusion [1]などの主流のソリューションの1％に相当）、Stable Diffusion [2]コミュニティによって開発されたカスタマイズされたT2Iモデル（DreamBooth [3]、Lora [4]）および制御ツール（ControlNet [5]）と互換性があります。研究者らは実験を通じて、I2V-Adapter が高品質のビデオコンテンツを生成する上で有効であることを実証し、I2V 分野におけるクリエイティブなアプリケーションの新たな可能性を切り開きました。

方法の紹介

安定拡散による時間モデル化

画像生成と比較すると、ビデオ生成の固有の課題は、ビデオフレーム間の時間的一貫性をモデル化することにあります。既存のソリューションのほとんどは、事前学習済みのT2Iモデル（Stable DiffusionやSDXL [6]など）に時間モジュールを追加して、ビデオ内の時間情報をモデル化します。もともとカスタマイズされたT2Vタスク用に設計されたモデルであるAnimateDiff [7]に触発され、T2Iモデルから分離された時間モジュールを導入することで時間情報をモデル化し、元のT2Iモデルの機能を保持しています。カスタマイズされたT2Iモデルと組み合わせて滑らかなビデオを生成できます。したがって、事前トレーニング済みの時間モジュールは、普遍的な時間表現と見なすことができ、微調整なしで I2V 生成などの他のビデオ生成シナリオに適用できると考えています。したがって、事前トレーニング済みの AnimateDiff のタイミングモジュールを直接利用し、そのパラメーターを固定しておきます。

注意層用アダプタ

I2V タスクのもう 1 つの難しさは、入力画像の ID 情報を維持することです。既存のソリューションのほとんどは、事前トレーニング済みの画像エンコーダーを使用して入力画像をエンコードし、クロスアテンションを通じてエンコードされた機能をモデルに注入してノイズ除去プロセスをガイドするか、入力端でチャネル次元の画像とノイズのある入力を連結して、後続のネットワークに一緒に入力します。前者の場合、画像エンコーダーが基礎となる情報をキャプチャすることが難しいため、生成されたビデオの ID が変更されますが、後者の場合、T2I モデルの構造とパラメータを変更する必要があることが多く、トレーニングコストが高く、互換性が低くなります。

上記の問題を解決するために、研究者は I2V アダプタを提案しました。具体的には、研究者は入力画像とノイズの入った入力をネットワークに並列に入力します。モデルの空間ブロックでは、すべてのフレームが最初のフレームの情報をもう一度照会します。つまり、キーと値の特徴はすべてノイズのない最初のフレームから取得され、出力結果は元のモデルの自己注意に追加されます。このモジュールの出力マッピングマトリックスはゼロで初期化され、出力マッピングマトリックスとクエリマッピングマトリックスのみがトレーニングされます。入力画像の意味情報に対するモデルの理解をさらに強化するために、研究者らは、画像の意味的特徴を注入するための事前学習済みコンテンツアダプタ（本論文ではIPアダプタ[8]を使用）を導入した。

フレーム類似度事前

生成された結果の安定性をさらに高めるために、研究者は、生成されたビデオの安定性と動きの強度のバランスをとる前に、フレーム間の類似性を提案しました。重要な前提は、比較的低いガウスノイズレベルでは、次の図に示すように、最初のノイズフレームと後続のノイズフレームが十分に近いということです。

そのため、研究者らは、すべてのフレームが類似した構造を持ち、一定量のガウスノイズを追加すると区別が難しくなると仮定しました。そのため、ノイズの多い入力画像は、後続のフレームの事前入力として使用できます。高周波情報による誤解を排除するために、研究者らはガウスぼかし演算子とランダムマスク混合も使用しました。具体的には、操作は次のようになります。

実験結果

定量的な結果

この論文では、生成されたビデオの品質を評価するために、DoverVQA (美的スコア)、CLIPTemp (最初のフレームの一貫性)、FlowScore (モーション振幅)、および WarppingError (モーションエラー) という 4 つの定量的指標を計算します。表 1 は、I2V アダプタが最も高い美的スコアを獲得し、最初のフレームの一貫性においてもすべての比較方式を上回っていることを示しています。さらに、I2V-Adapter によって生成されたビデオは、モーション振幅が最も大きく、モーションエラーが比較的低いことから、このモデルは時間的なモーションの精度を維持しながら、よりダイナミックなビデオを生成できることがわかります。

定性的な結果

画像アニメーション（左が入力、右が出力）：

パーソナライズされた T2I 付き (左が入力、右が出力):

ControlNet 使用時 (左が入力、右が出力):

要約する

この論文では、画像からビデオを生成するタスクのためのプラグアンドプレイの軽量モジュールである I2V-Adapter を提案します。この方法は、元の T2V モデルの空間ブロックとモーションブロックの構造とパラメーターを保持し、ノイズのない最初のフレームとノイズのある後続のフレームを並列に入力し、すべてのフレームがアテンションメカニズムを通じてノイズのない最初のフレームと相互作用できるようにすることで、最初のフレームと時間的に一貫性があり一貫性のあるビデオを生成します。研究者らは定量的および定性的な実験を通じて、I2Vタスクにおけるこの方法の有効性を実証した。さらに、分離設計により、ソリューションを DreamBooth、Lora、ControlNet などのモジュールと直接組み合わせることができるため、ソリューションの互換性が証明され、カスタマイズ可能で制御可能な画像からビデオへの生成の研究が促進されます。

<<: 5つのリソースカテゴリー：大規模言語モデルのリソース効率を向上させる方法、超詳細なレビューはこちら

>>: