画像からビデオへの生成 (I2V) タスクは、静止画像を動的なビデオに変換することを目的としており、これはコンピューター ビジョンの分野における大きな課題です。難しいのは、画像コンテンツの信頼性と視覚的な一貫性を確保しながら、単一の画像から時間軸の動的な情報を抽出して生成することです。既存の I2V 方法のほとんどは、この目標を達成するために複雑なモデル アーキテクチャと大量のトレーニング データに依存しています。 最近、Kuaishou が主導する新しい研究成果「I2V-Adapter: ビデオ拡散モデル用の汎用画像ビデオアダプタ」が発表されました。この研究では、革新的な画像からビデオへの変換方法が導入され、既存のテキストからビデオへの生成 (T2V) モデルの元の構造と事前トレーニングパラメータを変更することなく、静止画像を動的なビデオに変換できる軽量アダプタモジュール、つまり I2V-Adapter が提案されました。
既存の方法と比較して、I2V-Adapterは、トレーニング可能なパラメータの数を大幅に削減し(22Mまで削減、これはStable Video Diffusion [1]などの主流のソリューションの1%に相当)、Stable Diffusion [2]コミュニティによって開発されたカスタマイズされたT2Iモデル(DreamBooth [3]、Lora [4])および制御ツール(ControlNet [5])と互換性があります。研究者らは実験を通じて、I2V-Adapter が高品質のビデオ コンテンツを生成する上で有効であることを実証し、I2V 分野におけるクリエイティブなアプリケーションの新たな可能性を切り開きました。 方法の紹介安定拡散による時間モデル化 画像生成と比較すると、ビデオ生成の固有の課題は、ビデオ フレーム間の時間的一貫性をモデル化することにあります。既存のソリューションのほとんどは、事前学習済みのT2Iモデル(Stable DiffusionやSDXL [6]など)に時間モジュールを追加して、ビデオ内の時間情報をモデル化します。もともとカスタマイズされたT2Vタスク用に設計されたモデルであるAnimateDiff [7]に触発され、T2Iモデルから分離された時間モジュールを導入することで時間情報をモデル化し、元のT2Iモデルの機能を保持しています。カスタマイズされたT2Iモデルと組み合わせて滑らかなビデオを生成できます。したがって、事前トレーニング済みの時間モジュールは、普遍的な時間表現と見なすことができ、微調整なしで I2V 生成などの他のビデオ生成シナリオに適用できると考えています。したがって、事前トレーニング済みの AnimateDiff のタイミング モジュールを直接利用し、そのパラメーターを固定しておきます。 注意層用アダプタ I2V タスクのもう 1 つの難しさは、入力画像の ID 情報を維持することです。既存のソリューションのほとんどは、事前トレーニング済みの画像エンコーダーを使用して入力画像をエンコードし、クロス アテンションを通じてエンコードされた機能をモデルに注入してノイズ除去プロセスをガイドするか、入力端でチャネル次元の画像とノイズのある入力を連結して、後続のネットワークに一緒に入力します。前者の場合、画像エンコーダーが基礎となる情報をキャプチャすることが難しいため、生成されたビデオの ID が変更されますが、後者の場合、T2I モデルの構造とパラメータを変更する必要があることが多く、トレーニングコストが高く、互換性が低くなります。 上記の問題を解決するために、研究者は I2V アダプタを提案しました。具体的には、研究者は入力画像とノイズの入った入力をネットワークに並列に入力します。モデルの空間ブロックでは、すべてのフレームが最初のフレームの情報をもう一度照会します。つまり、キーと値の特徴はすべてノイズのない最初のフレームから取得され、出力結果は元のモデルの自己注意に追加されます。このモジュールの出力マッピング マトリックスはゼロで初期化され、出力マッピング マトリックスとクエリ マッピング マトリックスのみがトレーニングされます。入力画像の意味情報に対するモデルの理解をさらに強化するために、研究者らは、画像の意味的特徴を注入するための事前学習済みコンテンツアダプタ(本論文ではIPアダプタ[8]を使用)を導入した。 フレーム類似度事前 生成された結果の安定性をさらに高めるために、研究者は、生成されたビデオの安定性と動きの強度のバランスをとる前に、フレーム間の類似性を提案しました。重要な前提は、比較的低いガウス ノイズ レベルでは、次の図に示すように、最初のノイズ フレームと後続のノイズ フレームが十分に近いということです。 そのため、研究者らは、すべてのフレームが類似した構造を持ち、一定量のガウスノイズを追加すると区別が難しくなると仮定しました。そのため、ノイズの多い入力画像は、後続のフレームの事前入力として使用できます。高周波情報による誤解を排除するために、研究者らはガウスぼかし演算子とランダムマスク混合も使用しました。具体的には、操作は次のようになります。 実験結果定量的な結果 この論文では、生成されたビデオの品質を評価するために、DoverVQA (美的スコア)、CLIPTemp (最初のフレームの一貫性)、FlowScore (モーション振幅)、および WarppingError (モーションエラー) という 4 つの定量的指標を計算します。表 1 は、I2V アダプタが最も高い美的スコアを獲得し、最初のフレームの一貫性においてもすべての比較方式を上回っていることを示しています。さらに、I2V-Adapter によって生成されたビデオは、モーション振幅が最も大きく、モーション エラーが比較的低いことから、このモデルは時間的なモーションの精度を維持しながら、よりダイナミックなビデオを生成できることがわかります。 定性的な結果 画像アニメーション(左が入力、右が出力): パーソナライズされた T2I 付き (左が入力、右が出力): ControlNet 使用時 (左が入力、右が出力): 要約するこの論文では、画像からビデオを生成するタスクのためのプラグアンドプレイの軽量モジュールである I2V-Adapter を提案します。この方法は、元の T2V モデルの空間ブロックとモーション ブロックの構造とパラメーターを保持し、ノイズのない最初のフレームとノイズのある後続のフレームを並列に入力し、すべてのフレームがアテンション メカニズムを通じてノイズのない最初のフレームと相互作用できるようにすることで、最初のフレームと時間的に一貫性があり一貫性のあるビデオを生成します。研究者らは定量的および定性的な実験を通じて、I2Vタスクにおけるこの方法の有効性を実証した。さらに、分離設計により、ソリューションを DreamBooth、Lora、ControlNet などのモジュールと直接組み合わせることができるため、ソリューションの互換性が証明され、カスタマイズ可能で制御可能な画像からビデオへの生成の研究が促進されます。 |
<<: 5つのリソースカテゴリー:大規模言語モデルのリソース効率を向上させる方法、超詳細なレビューはこちら
過去 2 年間で、Linking Open Data などのプロジェクトの本格的な開発により、セマン...
人工知能といえば、多くの人が「未来の技術」という遠近感、移動機能を備えた空中の高層ビル、いつでも世界...
脳制御のコンピューターからホログラフィック ビデオ ゲームまで、今後 10 年間であなたの生活を変え...
編集者注: この記事は Mybridge からのもので、過去 1 年間 (2017 年) で最も素晴...
1. 問題と原因の分析インダストリアル インターネットは、新世代の情報通信技術と高度な製造技術の深い...
2 人のトップ学部生。1 人は北京大学、もう 1 人は浙江大学出身です。インターンシップ中に、彼らは...
マスク氏が2021年末までに完全自動運転車を実現すると予言してから数ヶ月が経過したが、状況は2019...
[[120716]]研究者たちは現在、検索結果の改善、自動運転車、スマート携帯電話のアップグレード、...
生成 AI は世界を席巻していますが、企業はどのようにしてこのテクノロジーの可能性を真に活用し、その...
老朽化するインフラ、コスト圧力、変動する利益率、規制の監視などにより、より効率的で強力なメンテナンス...
機械学習の分野では悲観的な見通しが広がっています。機械学習の人材の採用は減速しています。 [[334...