過去2年間で、LAION-5B、Stable Diffusion、DALL-E 2、ControlNet、Composerなどの大規模な画像およびテキストデータセットが公開され、驚くべき画像生成手法が次々と登場しました。画像生成の分野は急速に進歩しています。 しかし、画像生成と比較すると、ビデオ生成は依然として大きな課題に直面しています。まず、ビデオ生成では、より高次元のデータを処理し、追加の時間次元によってもたらされる時間モデリングの問題を考慮する必要があります。したがって、時間的ダイナミクスの学習を促進するには、より多くのビデオとテキストのペアのデータが必要です。しかし、ビデオの正確な時間的注釈付けは非常に高価です。これにより、ビデオテキストデータセットの規模が制限されます。たとえば、既存の WebVid10M ビデオデータセットには 1,070 万のビデオテキストペアが含まれていますが、これはデータ規模の点で LAION-5B 画像データセットとは大きく異なり、ビデオ生成モデルのスケーラビリティが著しく制限されます。 上記の問題を解決するために、華中科技大学、アリババグループ、浙江大学、アントグループの共同研究チームが最近、TF-T2Vビデオソリューションをリリースしました。 論文アドレス: https://arxiv.org/abs/2312.15770 プロジェクトホームページ: https://tf-t2v.github.io/ コードはまもなくオープンソースになります: https://github.com/ali-vilab/i2vgen-xl (VGen プロジェクト) このソリューションは異なるアプローチを採用し、豊富なモーションダイナミクスを学習できる大規模なテキストフリーのビデオデータに基づくビデオ生成を提案します。 まずはTF-T2Vのビデオ生成効果を見てみましょう。 ヴィンセントビデオタスク ヒント: 雪に覆われた風景に、大きな霜のような生き物のビデオが生成されます。 プロンプト: 漫画の蜂のアニメーションビデオを生成します。 プロンプト: 未来的なファンタジーバイクを含むビデオを生成します。 プロンプト: 幸せそうに笑っている小さな男の子のビデオを生成します。 プロンプト: 頭痛に悩む老人のビデオを生成します。 組み合わせビデオ生成タスク テキストと深度マップ、またはテキストとスケッチが与えられた場合、TF-T2V は制御可能なビデオ生成を実行できます。 高解像度のビデオ合成も可能です: 半教師あり設定 半教師あり設定の TF-T2V メソッドでは、「人が右から左に走る」など、動作のテキスト説明に一致するビデオを生成することもできます。 方法の紹介TF-T2Vの核となるアイデアは、モデルをモーションブランチとアピアランスブランチに分割することです。モーションブランチはモーションダイナミクスをモデル化するために使用され、アピアランスブランチは視覚的な外観情報を学習するために使用されます。これら 2 つのブランチを共同でトレーニングすることで、最終的にテキスト駆動型のビデオ生成を実現できます。 生成されたビデオの時間的一貫性を改善するために、著者チームはビデオフレーム間の連続性を明示的に学習するための時間的一貫性損失も提案しました。 TF-T2V は、ビデオ生成タスクに適しているだけでなく、スケッチからビデオ、ビデオ修復、最初のフレームからビデオなどの組み合わせたビデオ生成タスクにも適用できる汎用フレームワークであることは注目に値します。 具体的な詳細やさらなる実験結果については、原論文またはプロジェクトのホームページを参照してください。 さらに、著者チームはTF-T2Vを教師モデルとして使用し、一貫性蒸留技術を使用してVideoLCMモデルを取得しました。 論文アドレス: https://arxiv.org/abs/2312.09109 プロジェクトホームページ: https://tf-t2v.github.io/ コードはまもなくオープンソースになります: https://github.com/ali-vilab/i2vgen-xl (VGen プロジェクト) 約 50 の DDIM ノイズ除去ステップを必要とする従来のビデオ生成方法とは異なり、TF-T2V ベースの VideoLCM 方式では、推論ノイズ除去ステップ約 4 のみで高忠実度のビデオを生成できるため、ビデオ生成の効率が大幅に向上します。 VideoLCM の 4 段階のノイズ除去推論の結果を見てみましょう。 詳細と実験結果については、VideoLCM の原論文またはプロジェクトのホームページを参照してください。 要約すると、TF-T2V ソリューションは、データセットのサイズと注釈の問題によってもたらされる課題を克服し、ビデオ生成の分野に新しいアイデアをもたらします。 TF-T2V は、テキスト注釈のない大規模なビデオ データを活用することで、高品質のビデオを生成でき、さまざまなビデオ生成タスクに適用できます。この革新は、ビデオ生成技術の発展を促進し、あらゆる分野に幅広い応用シナリオとビジネスチャンスをもたらすでしょう。 |
<<: OpenAIも996に取り組んでいますか?元従業員が告白:コード貢献度4位、6日間勤務することが多かった
>>: 大型モデルの欠点を補うことに特化したRAGでは、どのような新たな進歩があったのでしょうか?このレビューでは明らかに
人間とコンピュータの相互作用における感情コンピューティングの役割感情コンピューティングについて話す前...
AI導入の最大の推進要因はインフラのアップグレードです。近年、ビッグデータ分析やAIなどの分野が注目...
2020年、ピーター・スコット・モーガン博士はインターネットで話題になりました。人気の検索タイトル...
RFID 技術は、識別距離が長く、速度が速く、干渉に対する耐性が強く、複数のターゲットを同時に識別で...
人工知能に代表される新技術は、知識記憶を主眼とする中国の教育モデルの優位性を覆すことになるのだろうか...
最近、ホワイトハウスの国家サイバースペース局長室(ONCD)は、「基本的な構成要素への回帰:安全なソ...
テンセントは3月2日、自社で完全に開発したソフトウェアとハードウェアを搭載した初のマルチモーダル...
[[110550]]夏休みの間、シャオ・ヘンはいくつかの都市を旅行する予定です。下の図に示すように、...
BPM に AI の検出機能と自動化機能を導入すると、フロントオフィス プロセス、プロセス データ分...
AI は本質的にはソフトウェアの追求ですが、ハードウェア エンジニアに多くの機会を生み出し、多くのス...
エッジ コンピューティングのパフォーマンスの向上により、メモリの設計、タイプの選択、構成に課題が生じ...
人工知能 (AI) とは、人間の知的思考や行動の方法や技術をシミュレートすることで、コンピュータ シ...