Metaは14秒でビデオを再構築し、役割を変更できるため、ビデオ合成が44倍高速化されます。

Metaは14秒でビデオを再構築し、役割を変更できるため、ビデオ合成が44倍高速化されます。

今日の人工知能の発展レベルを考えると、テキストから画像への転送、画像からビデオへの転送、画像/ビデオ スタイルの転送は、もはや難しい作業ではありません。

生成 AI には、コンテンツを簡単に作成または変更する機能が備わっています。特に画像編集は、数十億規模のデータセットで事前トレーニングされたテキストから画像への拡散モデルによって大きな発展を遂げてきました。この波により、多数の画像編集およびコンテンツ作成アプリケーションが誕生しました。

画像ベースの生成モデルの成果を基に、次の課題は必然的に「時間の次元」を追加し、それによって簡単かつクリエイティブなビデオ編集を可能にすることです。

最も簡単な方法は、画像モデルを使用してビデオをフレームごとに処理することですが、生成画像編集は本質的に非常に多様であり、同じテキストプロンプトが与えられた場合でも、特定の画像を編集する方法は無数にあります。各フレームを個別に編集すると、時間的な一貫性を維持することが難しくなります。

最近の論文で、Meta GenAI チームの研究者は、画像編集拡散モデルを「単純に適応」させることで、ビデオ編集における AI のパフォーマンスを大幅に向上させる Fairy を提案しました。

フェアリーが編集したビデオはこちらです:

Fairy は、わずか 14 秒で 512×384 のビデオ 120 フレーム (長さ 4 秒、30 FPS) を生成します。これは、従来の方法よりも少なくとも 44 倍高速です。生成された 1,000 個のサンプルを対象とした包括的なユーザー調査により、当社の方法が高品質の結果を生み出し、既存の方法を大幅に上回っていることが確認されました。

これはどうやって行うのですか?

論文によると、フェアリーはアンカーベースのクロスフレームアテンションの概念を中心に据えており、これは拡散特徴をフレーム間で暗黙的に伝播させ、時間的一貫性と高忠実度の合成効果を保証するメカニズムです。 Fairy は、メモリと処理速度の面での以前のモデルの制限に対処するだけでなく、モデルをソース画像とターゲット画像のアフィン変換と同等にする独自のデータ拡張戦略を通じて時間的一貫性も向上させます。

  • 論文アドレス: https://arxiv.org/pdf/2312.13834.pdf
  • プロジェクトホームページ: https://fairy-video2video.github.io/

方法

フェアリー氏は、拡散モデルの特性という観点から、以前の追跡と伝播のパラダイムを再検討します。特に、この研究では対応推定を使用してフレーム間の注意の間のギャップを埋め、モデルが拡散モデル内で中間特徴を追跡して伝播できるようにします。

フレーム間の注目度マップは、各フレーム内のトークン間の対応を評価するための類似度尺度として解釈できます。図 3 に示すように、1 つの意味領域の特徴によって、他のフレーム内の類似した意味領域に高い注目度が割り当てられます。

したがって、フレーム間の類似領域の加重合計に注意を払うことで、現在の特徴表現が改良され、伝播され、フレーム間の特徴の違いが効果的に最小化されます。

一連の操作により、Fairy のコア コンポーネントであるアンカー ベースのモデルが生成されます。

生成されたビデオの時間的一貫性を確保するために、K 個のアンカー フレームをサンプリングして拡散特徴を抽出し、抽出された特徴を連続するフレームに伝播されるグローバル特徴のセットとして定義しました。新しいフレームを生成するたびに、アンカー フレームのキャッシュされた特徴に基づいて、自己注意レイヤーをクロスフレーム注意レイヤーに置き換えます。フレーム全体に注意を払うことで、各フレームのトークンはアンカー フレームで同様の意味内容を示す機能を採用し、一貫性を強化します。

実験的評価

実験部分では、研究者は主に指示ベースの画像編集モデルに基づいて Fairy を実装し、モデルの自己注意をクロスフレーム注意に置き換えました。アンカーフレームの数を3に設定しました。このモデルは、異なるアスペクト比の入力を受け入れ、アスペクト比を変更せずに長い方の次元の入力解像度を 512 に再スケールできます。研究者たちは、入力ビデオのすべてのフレームをダウンサンプリングせずに編集しました。すべての計算は 8 つの A100 GPU に分散されます。

定性評価

研究者たちはまず、下の図 5 に示すように、Fairy の定性的な結果を示しました。Fairy はさまざまなトピックを編集できます。

下の図 6 では、研究者らは、Fairy がテキストの指示に従って、様式化、文字の変更、ローカル編集、属性編集など、さまざまな種類の編集を実行できることを示しています。

下の図 9 は、Fairy が指示に従ってソース キャラクタを異なるターゲット キャラクタに変換できることを示しています。

定量評価

研究者たちは、下の図 7 に全体的な品質比較の結果を示しており、Fairy によって生成されたビデオの方が人気があることがわかります。

下の図 10 は、ベースライン モデルとの視覚的な比較結果を示しています。

より詳しい技術的な詳細と実験結果については、原著論文を参照してください。

<<:  清華大学の朱俊氏のチームは、拡散モデルを打ち破り、シュレーディンガー橋に基づく新しい音声合成システムを開発した。

>>:  パロアルトネットワークス:AIを使ってAIと戦うことは、ネットワークセキュリティ技術の発展における避けられないトレンドです

ブログ    
ブログ    

推薦する

...

人工知能の今後5年間で世界が注目する10人

[[251996]]十分に大きな技術的放射効果により、人工知能は世界経済の発展において主導的な地位に...

Spark を使用して行列分解推奨アルゴリズムを学習する

[[182792]]協調フィルタリング推奨アルゴリズムにおける行列分解の応用では、推奨アルゴリズムに...

私たちが作ったAIは私たちを裏切るでしょうか?

数千年前、そろばんは暗算よりも速い計算ができる魔法の道具でした。 [[418541]]そろばんを使っ...

北京大学のチームは、ChatGPTにとって頭痛の種であったアルゴリズムの最適化を解決し、普通のラップトップでも実行できるようにした。

ChatGPT ですら首をかしげたアルゴリズムの最適化は、北京大学のチームによって達成されました。...

...

リカレントニューラルネットワークの簡単な紹介

リカレント ニューラル ネットワーク (RNN) とは何ですか? どのように機能しますか? どこで使...

転換点までのカウントダウン:AI サーバーが市場を完全に支配するにはどれくらいの時間がかかるのでしょうか?

ハイパースケーラーとクラウド プロバイダーがインフラストラクチャの計画を検討する場合、まず全体的な動...

大規模言語モデルに基づくインテリジェントエージェントのモデリングとシミュレーション:レビューと展望

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

Facebookの新しいAIモデルSE​​ERは自己教師学習を実現し、LeCunは最も有望だと称賛している

[[385451]]この記事はWeChatの公開アカウント「Xinzhiyuan」から転載したもので...

OpenAIのチップ製造計画が明らかに!独自のAIチップを開発する計画があり、買収対象を検討中

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人類の未来における人工知能の重要性

人工知能(AI)は私たちが住む世界を急速に変えています。医療から金融まで、人工知能は産業を変革し、私...

...

MITの新しい研究によると、機械学習ではフェイクニュースを検知できない

MITの研究者らが発表した2つの新しい論文は、現在の機械学習モデルがフェイクニュース報道を区別する能...

...