Metaは14秒でビデオを再構築し、役割を変更できるため、ビデオ合成が44倍高速化されます。

今日の人工知能の発展レベルを考えると、テキストから画像への転送、画像からビデオへの転送、画像/ビデオスタイルの転送は、もはや難しい作業ではありません。

生成 AI には、コンテンツを簡単に作成または変更する機能が備わっています。特に画像編集は、数十億規模のデータセットで事前トレーニングされたテキストから画像への拡散モデルによって大きな発展を遂げてきました。この波により、多数の画像編集およびコンテンツ作成アプリケーションが誕生しました。

画像ベースの生成モデルの成果を基に、次の課題は必然的に「時間の次元」を追加し、それによって簡単かつクリエイティブなビデオ編集を可能にすることです。

最も簡単な方法は、画像モデルを使用してビデオをフレームごとに処理することですが、生成画像編集は本質的に非常に多様であり、同じテキストプロンプトが与えられた場合でも、特定の画像を編集する方法は無数にあります。各フレームを個別に編集すると、時間的な一貫性を維持することが難しくなります。

最近の論文で、Meta GenAI チームの研究者は、画像編集拡散モデルを「単純に適応」させることで、ビデオ編集における AI のパフォーマンスを大幅に向上させる Fairy を提案しました。

フェアリーが編集したビデオはこちらです:

Fairy は、わずか 14 秒で 512×384 のビデオ 120 フレーム (長さ 4 秒、30 FPS) を生成します。これは、従来の方法よりも少なくとも 44 倍高速です。生成された 1,000 個のサンプルを対象とした包括的なユーザー調査により、当社の方法が高品質の結果を生み出し、既存の方法を大幅に上回っていることが確認されました。

これはどうやって行うのですか?

論文によると、フェアリーはアンカーベースのクロスフレームアテンションの概念を中心に据えており、これは拡散特徴をフレーム間で暗黙的に伝播させ、時間的一貫性と高忠実度の合成効果を保証するメカニズムです。 Fairy は、メモリと処理速度の面での以前のモデルの制限に対処するだけでなく、モデルをソース画像とターゲット画像のアフィン変換と同等にする独自のデータ拡張戦略を通じて時間的一貫性も向上させます。

論文アドレス: https://arxiv.org/pdf/2312.13834.pdf
プロジェクトホームページ: https://fairy-video2video.github.io/

方法

フェアリー氏は、拡散モデルの特性という観点から、以前の追跡と伝播のパラダイムを再検討します。特に、この研究では対応推定を使用してフレーム間の注意の間のギャップを埋め、モデルが拡散モデル内で中間特徴を追跡して伝播できるようにします。

フレーム間の注目度マップは、各フレーム内のトークン間の対応を評価するための類似度尺度として解釈できます。図 3 に示すように、1 つの意味領域の特徴によって、他のフレーム内の類似した意味領域に高い注目度が割り当てられます。

したがって、フレーム間の類似領域の加重合計に注意を払うことで、現在の特徴表現が改良され、伝播され、フレーム間の特徴の違いが効果的に最小化されます。

一連の操作により、Fairy のコアコンポーネントであるアンカーベースのモデルが生成されます。

生成されたビデオの時間的一貫性を確保するために、K 個のアンカーフレームをサンプリングして拡散特徴を抽出し、抽出された特徴を連続するフレームに伝播されるグローバル特徴のセットとして定義しました。新しいフレームを生成するたびに、アンカーフレームのキャッシュされた特徴に基づいて、自己注意レイヤーをクロスフレーム注意レイヤーに置き換えます。フレーム全体に注意を払うことで、各フレームのトークンはアンカーフレームで同様の意味内容を示す機能を採用し、一貫性を強化します。

実験的評価

実験部分では、研究者は主に指示ベースの画像編集モデルに基づいて Fairy を実装し、モデルの自己注意をクロスフレーム注意に置き換えました。アンカーフレームの数を3に設定しました。このモデルは、異なるアスペクト比の入力を受け入れ、アスペクト比を変更せずに長い方の次元の入力解像度を 512 に再スケールできます。研究者たちは、入力ビデオのすべてのフレームをダウンサンプリングせずに編集しました。すべての計算は 8 つの A100 GPU に分散されます。

定性評価

研究者たちはまず、下の図 5 に示すように、Fairy の定性的な結果を示しました。Fairy はさまざまなトピックを編集できます。

下の図 6 では、研究者らは、Fairy がテキストの指示に従って、様式化、文字の変更、ローカル編集、属性編集など、さまざまな種類の編集を実行できることを示しています。

下の図 9 は、Fairy が指示に従ってソースキャラクタを異なるターゲットキャラクタに変換できることを示しています。

定量評価

研究者たちは、下の図 7 に全体的な品質比較の結果を示しており、Fairy によって生成されたビデオの方が人気があることがわかります。

下の図 10 は、ベースラインモデルとの視覚的な比較結果を示しています。

より詳しい技術的な詳細と実験結果については、原著論文を参照してください。

<<: 清華大学の朱俊氏のチームは、拡散モデルを打ち破り、シュレーディンガー橋に基づく新しい音声合成システムを開発した。

>>: パロアルトネットワークス：AIを使ってAIと戦うことは、ネットワークセキュリティ技術の発展における避けられないトレンドです