Metaは14秒でビデオを再構築し、役割を変更できるため、ビデオ合成が44倍高速化されます。

Metaは14秒でビデオを再構築し、役割を変更できるため、ビデオ合成が44倍高速化されます。

今日の人工知能の発展レベルを考えると、テキストから画像への転送、画像からビデオへの転送、画像/ビデオ スタイルの転送は、もはや難しい作業ではありません。

生成 AI には、コンテンツを簡単に作成または変更する機能が備わっています。特に画像編集は、数十億規模のデータセットで事前トレーニングされたテキストから画像への拡散モデルによって大きな発展を遂げてきました。この波により、多数の画像編集およびコンテンツ作成アプリケーションが誕生しました。

画像ベースの生成モデルの成果を基に、次の課題は必然的に「時間の次元」を追加し、それによって簡単かつクリエイティブなビデオ編集を可能にすることです。

最も簡単な方法は、画像モデルを使用してビデオをフレームごとに処理することですが、生成画像編集は本質的に非常に多様であり、同じテキストプロンプトが与えられた場合でも、特定の画像を編集する方法は無数にあります。各フレームを個別に編集すると、時間的な一貫性を維持することが難しくなります。

最近の論文で、Meta GenAI チームの研究者は、画像編集拡散モデルを「単純に適応」させることで、ビデオ編集における AI のパフォーマンスを大幅に向上させる Fairy を提案しました。

フェアリーが編集したビデオはこちらです:

Fairy は、わずか 14 秒で 512×384 のビデオ 120 フレーム (長さ 4 秒、30 FPS) を生成します。これは、従来の方法よりも少なくとも 44 倍高速です。生成された 1,000 個のサンプルを対象とした包括的なユーザー調査により、当社の方法が高品質の結果を生み出し、既存の方法を大幅に上回っていることが確認されました。

これはどうやって行うのですか?

論文によると、フェアリーはアンカーベースのクロスフレームアテンションの概念を中心に据えており、これは拡散特徴をフレーム間で暗黙的に伝播させ、時間的一貫性と高忠実度の合成効果を保証するメカニズムです。 Fairy は、メモリと処理速度の面での以前のモデルの制限に対処するだけでなく、モデルをソース画像とターゲット画像のアフィン変換と同等にする独自のデータ拡張戦略を通じて時間的一貫性も向上させます。

  • 論文アドレス: https://arxiv.org/pdf/2312.13834.pdf
  • プロジェクトホームページ: https://fairy-video2video.github.io/

方法

フェアリー氏は、拡散モデルの特性という観点から、以前の追跡と伝播のパラダイムを再検討します。特に、この研究では対応推定を使用してフレーム間の注意の間のギャップを埋め、モデルが拡散モデル内で中間特徴を追跡して伝播できるようにします。

フレーム間の注目度マップは、各フレーム内のトークン間の対応を評価するための類似度尺度として解釈できます。図 3 に示すように、1 つの意味領域の特徴によって、他のフレーム内の類似した意味領域に高い注目度が割り当てられます。

したがって、フレーム間の類似領域の加重合計に注意を払うことで、現在の特徴表現が改良され、伝播され、フレーム間の特徴の違いが効果的に最小化されます。

一連の操作により、Fairy のコア コンポーネントであるアンカー ベースのモデルが生成されます。

生成されたビデオの時間的一貫性を確保するために、K 個のアンカー フレームをサンプリングして拡散特徴を抽出し、抽出された特徴を連続するフレームに伝播されるグローバル特徴のセットとして定義しました。新しいフレームを生成するたびに、アンカー フレームのキャッシュされた特徴に基づいて、自己注意レイヤーをクロスフレーム注意レイヤーに置き換えます。フレーム全体に注意を払うことで、各フレームのトークンはアンカー フレームで同様の意味内容を示す機能を採用し、一貫性を強化します。

実験的評価

実験部分では、研究者は主に指示ベースの画像編集モデルに基づいて Fairy を実装し、モデルの自己注意をクロスフレーム注意に置き換えました。アンカーフレームの数を3に設定しました。このモデルは、異なるアスペクト比の入力を受け入れ、アスペクト比を変更せずに長い方の次元の入力解像度を 512 に再スケールできます。研究者たちは、入力ビデオのすべてのフレームをダウンサンプリングせずに編集しました。すべての計算は 8 つの A100 GPU に分散されます。

定性評価

研究者たちはまず、下の図 5 に示すように、Fairy の定性的な結果を示しました。Fairy はさまざまなトピックを編集できます。

下の図 6 では、研究者らは、Fairy がテキストの指示に従って、様式化、文字の変更、ローカル編集、属性編集など、さまざまな種類の編集を実行できることを示しています。

下の図 9 は、Fairy が指示に従ってソース キャラクタを異なるターゲット キャラクタに変換できることを示しています。

定量評価

研究者たちは、下の図 7 に全体的な品質比較の結果を示しており、Fairy によって生成されたビデオの方が人気があることがわかります。

下の図 10 は、ベースライン モデルとの視覚的な比較結果を示しています。

より詳しい技術的な詳細と実験結果については、原著論文を参照してください。

<<:  清華大学の朱俊氏のチームは、拡散モデルを打ち破り、シュレーディンガー橋に基づく新しい音声合成システムを開発した。

>>:  パロアルトネットワークス:AIを使ってAIと戦うことは、ネットワークセキュリティ技術の発展における避けられないトレンドです

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

マイクロソフトの社内文書が公開:パノス・パナイ氏が退社後、WindowsとSurfaceの将来について説明

マイクロソフトは9月21日午前1時、ニューヨーク市でSurfaceの新製品発表会を開催する。海外テク...

人工知能について知っておくべき12の秘密

人類は、自分たちの仕事を担ってくれる全知全能のエルフを持つことを常に夢見てきました。現在、研究室のコ...

6つの興味深い画像グレースケール変換アルゴリズム

[楊静卓のブログより引用]序文白黒写真の時代は過ぎ去りましたが、今、昔の写真を見ると、昔に戻ったよう...

Google Chinaのエンジニアは破壊的なアルゴリズムモデルを提案し、Waymoはそれをテストして予測精度を向上させた。

「周囲の車両や歩行者は、次の数秒で何をするだろうか?」これは、安全な自動運転を実現するために答えな...

ChatGPT と ReactJS を統合してよりスマートな会話型インターフェースを実現

翻訳者 |李睿レビュー | Chonglouテクノロジーの世界が進化し続けるにつれて、チャットボット...

人工知能は鉄道の乗客の安全を守ることができるか?

高速鉄道網がますます充実するにつれ、列車は人々が長距離を移動する際に好まれる交通手段となってきました...

グラフなしの ICLR'24 のための新しいアイデア! LaneSegNet: 車線セグメンテーションを考慮したマップ学習

序文と著者の個人的な理解自動運転システムの下流アプリケーションにとって重要な情報である地図は、通常、...

見事な! ! !テスラのエンドツーエンドのデモンストレーションビデオ分析

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

2022年に注目すべき4つのRPAトレンド

ロボティック・プロセス・オートメーション (RPA) はもはや目新しいものではなく、進化し成熟しつつ...

あなたのデータは本当に安全ですか?ハッカーが機械学習を使ってデータを盗む7つの方法

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

Baidu Create 2018 ディープラーニング フロンティア テクノロジーと産業応用公開コースのハイライト

[51CTO.com からのオリジナル記事] 中国の開発者が集まる毎年恒例の盛大な集まりである Ba...

ゲームAIの課題が進み、リアルタイム戦略ゲームや不完全情報ゲームがホットスポットに

前回の 2 つの記事では、ゲーム AI の歴史におけるいくつかの古典的なアルゴリズムと画期的なイベン...

...

...