2 ステップで 25 フレームの高品質アニメーションを生成 (SVD の 8% として計算) | オンラインでプレイ可能

2 ステップで 25 フレームの高品質アニメーションを生成 (SVD の 8% として計算) | オンラインでプレイ可能

消費されるコンピューティングリソースは、従来の Stable Video Diffusion (SVD)モデルのわずか2/25です。

時間がかかり、多くの計算を必要とするビデオ拡散モデルの繰り返しノイズ除去の問題を解決するAnimateLCM-SVD-xtがリリースされました。

まず、生成されたアニメーション効果の波を見てみましょう。

サイバーパンクスタイルは簡単にマスターでき、少年はヘッドフォンを着けてネオンに照らされた街の通りに立っています。

写真

リアルなスタイルもOKです。新婚カップルが寄り添い合い、繊細な花束を持ち、古代の石垣の下で愛を誓っています。

写真

SF スタイルは、エイリアンが地球を侵略しているかのような錯覚も与えます。

写真

AnimateLCM-SVD-xt は、香港中文大学の MMLab、Avolution AI、上海人工知能研究所、SenseTime Research Institute の研究者によって共同で提案されました。

写真

2～8ステップで、解像度576x1024、25フレームの高品質アニメーションを生成できます。分類器のガイドなしで、4ステップで生成されたビデオは高い忠実度を実現でき、従来のSVDよりも高速で効率的です。

写真

現在、AnimateLCM コードはオープンソース化されつつあり、試用可能なオンラインデモが用意されています。

デモを始める

デモインターフェイスでわかるように、AnimateLCM には現在 3 つのバージョンがあります。AnimateLCM-SVD-xt は一般的な画像からビデオへの生成用、AnimateLCM-t2v はパーソナライズされたテキストからビデオへの生成用、AnimateLCM-i2v はパーソナライズされた画像からビデオへの生成用です。

写真

以下は、基本的な Dreambooth モデルまたは LoRA モデルを選択し、スライダーを使用して LoRA アルファ値を調整できる構成領域です。

写真

次に、生成されるアニメーションの内容と品質をガイドするためのプロンプトと否定プロンプトを入力できます。

写真

調整可能なパラメータもいくつかあります。

写真

試してみたところ、プロンプトワードは「空の雲」、パラメータは上記のように設定され、サンプリングステップは 4 ステップのみでしたが、生成された効果は次のようになりました。

写真

サンプリングステップが 25 ステップで、プロンプトワードが「ウサギを抱いている少年」の場合、効果は次のようになります。

写真

公式のデモ効果を見てみましょう。 2ステップ、4ステップ、8ステップの効果の比較は次のとおりです。

写真

ステップ数が多いほど、アニメーションの品質は向上します。AnimateLCM は、わずか 4 つのステップで高い忠実度を実現できます。

写真

さまざまなスタイルを実現できます:

写真

写真

これはどうやって行うのですか?

ビデオ拡散モデルは、一貫性のある高忠実度のビデオを生成できるため、ますます注目を集めていますが、反復的なノイズ除去プロセスは時間がかかるだけでなく、計算量も大きいため、その適用範囲が制限されるという難点があります。

AnimateLCM の研究では、研究者は一貫性モデル(CM)に着想を得て、事前トレーニング済みの画像拡散モデルを簡素化してサンプリングに必要な手順を減らし、条件付き画像生成における潜在的一貫性モデル(LCM)の拡張に成功しました。

写真

具体的には、研究者らは分離一貫性学習戦略を提案した。

まず、安定した拡散モデルを高品質の画像テキストデータセット上の画像一貫性モデルに蒸留し、次にビデオデータに対して一貫性蒸留を実行してビデオ一貫性モデルを取得します。この戦略は、空間レベルと時間レベルで個別にトレーニングすることでトレーニング効率を向上させます。

写真

さらに、安定拡散コミュニティにおけるプラグアンドプレイアダプタのさまざまな機能（例えば、ControlNetによる制御可能な生成）を実装するために、研究者らは、既存の制御アダプタを一貫性モデルとより一貫性のあるものにし、より制御可能なビデオ生成を実現する教師なし適応戦略を提案しました。

写真

定量的および定性的な実験の両方で、この方法の有効性が実証されています。

UCF-101 データセットのゼロショットテキストからビデオへの生成タスクでは、AnimateLCM は FVD と CLIPSIM の両方のメトリックで最高のパフォーマンスを達成しました。

写真

写真

アブレーション研究では、分離された一貫性学習と特定の初期化戦略の有効性が検証されています。

写真

プロジェクトリンク:
[1] https://animatelcm.github.io/
[2] https://huggingface.co/wangfuyun/AnimateLCM-SVD-xt

>>: 10,000台以上のカメラが他人の家に接続されています。ネットワーク障害により中断と再起動が発生し、公式の責任はサードパーティのキャッシュライブラリに帰せられました。

顔検出と認識がますます普及しているのはなぜでしょうか?その背後にある技術は何ですか?

顔検出と認識がますます普及しているのはなぜでしょうか?その背後にある技術は何ですか?

ブログ

ブログ

AI専門家が警告：GPT-3は素晴らしいが透明性に欠ける

AI専門家が警告：GPT-3は素晴らしいが透明性に欠ける

ブログ

ひどい、顔認識の練習のための40行のコード

ひどい、顔認識の練習のための40行のコード

ブログ

タオバオ：電子商取引環境における強化学習のいくつかのアプリケーションと研究に関する30,000語の詳細な分析

タオバオ：電子商取引環境における強化学習のいくつかのアプリケーションと研究に関する30,000語の詳細な分析

ブログ

ディープラーニングでは音声認識の問題を解決できない

ディープラーニングでは音声認識の問題を解決できない

ブログ

ブログ

データサイエンスのための Python: ニューラルネットワーク

データサイエンスのための Python: ニューラルネットワーク

ブログ

ブログ

エッジインテリジェンス: AIの次の波

エッジインテリジェンス: AIの次の波

ブログ

推薦する

実証済みのROIを備えた機械学習アプリケーション

モノのインターネット (IoT) は、接続デバイスの数の急増により、10 年以上にわたって着実に成長...

ノーベル賞を予約しますか? DeepMind の創設者が「ノーベル賞」ラスカー賞を受賞、AlphaFold が「科学のための AI」のベンチマークに

9月21日、生理学・医学分野の最高賞であるラスカー賞が発表されました！ラスカー賞には、基礎医学研究賞...

カスタマーサービスチーム向けの人工知能と機械学習ツール

どのビジネスリーダーも、顧客サービスがビジネスの最優先事項になっていることを認めるでしょう。同社は、...

機械学習をプログラマーにとってより身近なものにする方法

導入人々は長い間、人工的に生成されたコンテンツを理解するためにアルゴリズムを手動でコーディングしよう...

2020 年の予測: AI セキュリティの 10 のトレンド

2020 年のサイバーセキュリティは転換点を迎えています。人工知能と機械学習の進歩はサイバーセキュリ...

...

機械学習と AI のトレンド: 何が期待できるか?

ビデオゲーム、医療におけるモノのインターネット、スマートシティなどでは、すでに仮想現実がさらに多く見...

心臓血管画像診断における人工知能の応用の進歩

人工知能（AI）は、人間の知能特性を備えたタスクを実行できるコンピューティングプログラムを指します。...

...

もし人工知能が人類をリードし、他の惑星で発展したら、その人工知能は人類を支配することになるのでしょうか？

科学者たちは長期にわたる調査により、人類文明の進歩が指数関数的な上昇傾向を示していることを発見した。...

...

...

5Gベースバンドに機械学習ユニットを追加：クアルコムには多くのAI脳の穴がある

最も先進的な AI テクノロジーは、最も広く使用されているモバイルチップに使用されています。最近、...

TensorFlow.js と Python を使用してブラウザで機械学習モデルを構築する

概要TensorFlow.js (deeplearn.js) を使用すると、複雑なインストール手順な...

...