今日の人工知能の発展レベルを考えると、テキストから画像への転送、画像からビデオへの転送、画像/ビデオ スタイルの転送は、もはや難しい作業ではありません。 生成 AI には、コンテンツを簡単に作成または変更する機能が備わっています。特に画像編集は、数十億規模のデータセットで事前トレーニングされたテキストから画像への拡散モデルによって大きな発展を遂げてきました。この波により、多数の画像編集およびコンテンツ作成アプリケーションが誕生しました。 画像ベースの生成モデルの成果を基に、次の課題は必然的に「時間の次元」を追加し、それによって簡単かつクリエイティブなビデオ編集を可能にすることです。 最も簡単な方法は、画像モデルを使用してビデオをフレームごとに処理することですが、生成画像編集は本質的に非常に多様であり、同じテキストプロンプトが与えられた場合でも、特定の画像を編集する方法は無数にあります。各フレームを個別に編集すると、時間的な一貫性を維持することが難しくなります。 最近の論文で、Meta GenAI チームの研究者は、画像編集拡散モデルを「単純に適応」させることで、ビデオ編集における AI のパフォーマンスを大幅に向上させる Fairy を提案しました。 フェアリーが編集したビデオはこちらです: Fairy は、わずか 14 秒で 512×384 のビデオ 120 フレーム (長さ 4 秒、30 FPS) を生成します。これは、従来の方法よりも少なくとも 44 倍高速です。生成された 1,000 個のサンプルを対象とした包括的なユーザー調査により、当社の方法が高品質の結果を生み出し、既存の方法を大幅に上回っていることが確認されました。 これはどうやって行うのですか?論文によると、フェアリーはアンカーベースのクロスフレームアテンションの概念を中心に据えており、これは拡散特徴をフレーム間で暗黙的に伝播させ、時間的一貫性と高忠実度の合成効果を保証するメカニズムです。 Fairy は、メモリと処理速度の面での以前のモデルの制限に対処するだけでなく、モデルをソース画像とターゲット画像のアフィン変換と同等にする独自のデータ拡張戦略を通じて時間的一貫性も向上させます。
方法フェアリー氏は、拡散モデルの特性という観点から、以前の追跡と伝播のパラダイムを再検討します。特に、この研究では対応推定を使用してフレーム間の注意の間のギャップを埋め、モデルが拡散モデル内で中間特徴を追跡して伝播できるようにします。 フレーム間の注目度マップは、各フレーム内のトークン間の対応を評価するための類似度尺度として解釈できます。図 3 に示すように、1 つの意味領域の特徴によって、他のフレーム内の類似した意味領域に高い注目度が割り当てられます。 したがって、フレーム間の類似領域の加重合計に注意を払うことで、現在の特徴表現が改良され、伝播され、フレーム間の特徴の違いが効果的に最小化されます。 一連の操作により、Fairy のコア コンポーネントであるアンカー ベースのモデルが生成されます。 生成されたビデオの時間的一貫性を確保するために、K 個のアンカー フレームをサンプリングして拡散特徴を抽出し、抽出された特徴を連続するフレームに伝播されるグローバル特徴のセットとして定義しました。新しいフレームを生成するたびに、アンカー フレームのキャッシュされた特徴に基づいて、自己注意レイヤーをクロスフレーム注意レイヤーに置き換えます。フレーム全体に注意を払うことで、各フレームのトークンはアンカー フレームで同様の意味内容を示す機能を採用し、一貫性を強化します。 実験的評価実験部分では、研究者は主に指示ベースの画像編集モデルに基づいて Fairy を実装し、モデルの自己注意をクロスフレーム注意に置き換えました。アンカーフレームの数を3に設定しました。このモデルは、異なるアスペクト比の入力を受け入れ、アスペクト比を変更せずに長い方の次元の入力解像度を 512 に再スケールできます。研究者たちは、入力ビデオのすべてのフレームをダウンサンプリングせずに編集しました。すべての計算は 8 つの A100 GPU に分散されます。 定性評価 研究者たちはまず、下の図 5 に示すように、Fairy の定性的な結果を示しました。Fairy はさまざまなトピックを編集できます。 下の図 6 では、研究者らは、Fairy がテキストの指示に従って、様式化、文字の変更、ローカル編集、属性編集など、さまざまな種類の編集を実行できることを示しています。 下の図 9 は、Fairy が指示に従ってソース キャラクタを異なるターゲット キャラクタに変換できることを示しています。 定量評価 研究者たちは、下の図 7 に全体的な品質比較の結果を示しており、Fairy によって生成されたビデオの方が人気があることがわかります。 下の図 10 は、ベースライン モデルとの視覚的な比較結果を示しています。 より詳しい技術的な詳細と実験結果については、原著論文を参照してください。 |
<<: 清華大学の朱俊氏のチームは、拡散モデルを打ち破り、シュレーディンガー橋に基づく新しい音声合成システムを開発した。
>>: パロアルトネットワークス:AIを使ってAIと戦うことは、ネットワークセキュリティ技術の発展における避けられないトレンドです
人工知能 (AI) とは、人間の知的思考や行動の方法や技術をシミュレートすることで、コンピュータ シ...
[51CTO.com からのオリジナル記事] ローカルライフのシナリオには、メニュー認識、標識認識、...
Statistaの最近のレポートによると、「AI市場の世界的価値は2025年までに年間890億ドル...
注意ベースのモデルの代替として、純粋な MLP アーキテクチャがますます注目を集めています。 NLP...
近年、四足歩行、把持、器用な操作など、ロボットの強化学習技術の分野では大きな進歩が遂げられていますが...
インターネット上の言語と画像を習得した後、大きなモデルが最終的に現実世界に入り、「具現化された知能」...
人工知能によってもたらされる将来の教育の変革と発展は、新たな機会を生み出すだけでなく、より大きな課題...
[[256514]] EyeSight Technologyの創設者兼CEO、周俊氏。彼は20年以上...
MicrosoftとGoogleはAI市場の支配を競っており、両社ともAIハードウェアに多額の投資を...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
機械学習の話題は誰もが話題にするほど普及していますが、それを完全に理解している人はほとんどいません。...
作者は長い間ブログを更新していませんでした。その理由の一つは、開発したプロジェクトで使用されている技...