安定したビデオ拡散がここにあります、コードウェイトはオンラインです

AI描画で有名なStability AIが、ついにAI生成動画の分野に参入した。

今週の火曜日、Stable Diffusionに基づくStable Video Diffusionビデオ生成モデルがリリースされ、AIコミュニティではすぐに白熱した議論が始まりました。

「ついに待っていた」という声も多かった。

プロジェクトアドレス: https://github.com/Stability-AI/generative-models

これで、元の静止画像に基づいて数秒のビデオを生成できます。

Stability AI の独自の Stable Diffusion グラフモデルに基づいて、Stable Video Diffusion は、オープンソースまたは商用カテゴリで数少ないビデオ生成モデルの 1 つになりました。

しかし、まだすべての人が利用できるわけではなく、Stable Video Diffusion ではユーザーの待機リスト登録を開始しています (https://stability.ai/contact)。

Stable Video Diffusion は、マルチビューデータセットを微調整することで、単一の画像からのマルチビュー合成など、さまざまな下流タスクに簡単に適応できることが報告されています。 Stability AIは、安定拡散を中心に構築されたエコシステムと同様に、この基盤の上にさまざまなモデルを構築および拡張することを計画していると述べています。

Stable Video Diffusion は、3 ～ 30 fps のカスタマイズ可能なフレームレートで 14 fps および 25 fps のビデオを生成できる 2 つの画像からビデオへのモデルとしてリリースされています。

外部評価では、Stability AI は、これらのモデルがユーザー嗜好研究における主要なクローズドソースモデルよりも優れていることを実証しました。

Stability AI は、Stable Video Diffusion は現段階では現実世界や直接的な商用アプリケーションには適しておらず、セキュリティと品質に関するユーザーの洞察とフィードバックに基づいてモデルが改善されることを強調しました。

論文アドレス: https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets

Stable Video Diffusion は、Stability AI の多様なオープンソースモデルファミリーの一員です。現在、同社の製品は画像、言語、音声、3D、コードなど複数のモダリティにまたがっているようで、これが AI の改善に対する同社の取り組みの最良の証拠となっています。

安定したビデオ拡散の技術的側面

高解像度ビデオ潜在拡散モデルである Stable Video Diffusion は、テキストからビデオ、または画像からビデオへの SOTA レベルを実現します。最近、2D 画像合成用にトレーニングされた潜在拡散モデルは、時間レイヤーを挿入し、小規模な高品質ビデオデータセットを微調整することで、生成ビデオモデルに変換されました。しかし、トレーニング方法は文献によって大きく異なり、ビデオデータラングリングの統一された戦略について、この分野ではまだ合意が得られていません。

Stability Video Diffusion 論文では、Stability AI が、ビデオ潜在拡散モデルを正常にトレーニングするための 3 つの異なる段階 (テキストから画像への事前トレーニング、ビデオの事前トレーニング、高品質ビデオの微調整) を特定し、評価しました。また、高品質のビデオを生成するために慎重に準備された事前トレーニングデータセットの重要性を示し、キャプションやフィルタリング戦略を含む強力なベースモデルをトレーニングするための体系的でキュレーションされたパイプラインを紹介します。

論文では、Stability AI は、ベースモデルを微調整することによる高品質データへの影響についても調査し、クローズドソースのビデオ生成に匹敵するテキストからビデオへのモデルをトレーニングしました。このモデルは、画像からビデオへの生成や、カメラのモーション固有の機能への LoRA モジュールの適応性などの下流タスクに強力なモーション表現を提供します。さらに、このモデルは強力なマルチビュー 3D 事前分布を提供できます。これは、最小限の計算要件でフィードフォワード方式でオブジェクトの複数のビューを生成し、画像ベースの方法よりも優れたパフォーマンスを発揮するマルチビュー拡散モデルの基礎として機能します。

具体的には、モデルを正常にトレーニングするには、次の 3 つの段階が含まれます。

ステージ 1: 画像の事前トレーニング。この論文では、画像の事前トレーニングをトレーニングパイプラインの最初の段階として検討し、ビデオモデルに強力な視覚表現を装備する Stable Diffusion 2.1 上に初期モデルを構築します。画像の事前トレーニングの効果を分析するために、この論文では 2 つの同一のビデオモデルをトレーニングして比較しました。図 3a 結果は、品質とヒント追跡の両方の点で、画像の事前トレーニング済みモデルが好まれることを示しています。

ステージ 2: ビデオ事前トレーニングデータセット。この論文では、適切な事前トレーニングデータセットを作成するためのシグナルとして人間の好みを活用しています。この記事で作成されたデータセットは、5億8000万組の注釈付きビデオクリップで構成される LVD (Large Video Dataset) です。

さらに調査を進めると、生成されたデータセットには最終的なビデオモデルのパフォーマンスを低下させる可能性のある例が含まれていることがわかりました。そのため、本論文ではデータセットに注釈を付けるために高密度オプティカルフローも採用しています。

さらに、この論文では、大量のテキストを含むクリーンなクリップに光学文字認識を適用します。最後に、CLIP 埋め込みを使用して、各クリップの最初、中間、最後のフレームに注釈を付けます。次の表は、LVD データセットの統計を示しています。

ステージ3: 高品質な微調整。最終段階でのビデオ事前トレーニングの影響を分析するために、初期化のみが異なる 3 つのモデルを微調整します。図4eに結果を示します。

良いスタートのようです。 AIを使って直接映画を生成できるようになるのはいつでしょうか？

<<: 500以上の研究と50以上のモデルを網羅したコードビッグモデルレビューがここにあります

>>:

安定したビデオ拡散がここにあります、コードウェイトはオンラインです

安定したビデオ拡散の技術的側面

将来の教育において人工知能が果たす12の役割

2023 年に最も影響力のある 10 のオープンソース大規模言語モデル

Ant Financialが機械学習ツールSQLFlowをオープンソース化、機械学習はSQLよりも簡単

中国の「データブリックス」：AIインフラの構築に真剣に取り組む

研究：インターネットには低品質の機械翻訳コンテンツが溢れており、大規模な言語モデルのトレーニングではデータの罠に注意する必要がある

「顔スキャン」のリスクについてどれくらい知っていますか？

デジタルマーケティングにおける人工知能の台頭

AIとビッグデータに焦点を当て、インテルとToutiaoが技術革新研究所を設立

推薦する

ガートナーの調査によると、企業は来年AIプロジェクトを2倍に増やすと予想している。

リアルすぎて怖い！ Gen-2 の壮大なアップデート、手作りの 4K ハリウッド大作、Midjourney の夢の連携、CEO: クリエイティブソフトウェアの時代は終わった

人工知能技術は3つのレベルで社会を変える

老黄の「ナイフスキル」が変わった！ Nvidiaの次世代RTX 50シリーズグラフィックカードの詳細がリーク、コードネームはBlackwell、AMDが王者に挑戦するにはまだ長い道のり

ディープラーニングの父ヒントン氏が、人工知能を一新するカプセルネットワークの最新動向を発表

PaddlePaddleディープラーニングオープンソースプラットフォーム：中国のAI船が皆の漕ぎを待っている

HUST チーム: 不純物のない LK-99 結晶が鍵です!中国科学院物理研究所がLK-99を「偽造」し、最も検索された

機械学習の基本概念を10枚の画像で説明する

水中ロボットが極地でその能力を披露

涼宮ハルヒや李雲龍など32人のキャラクターをプレイ可能。このチャットボットはストーリーを非常によく理解しており、コードは商業的に使用できます。

生物学的視覚とコンピュータビジョンの違いを理解する方法

起業180日で評価額20億ドルを達成！ OpenAIの欧州版は人気があり、Llamaの開発者は独自の会社を設立し、Nvidiaが投資している