ビデオ生成における新たなブレークスルー:PixelDance、複雑な動きやクールな特殊効果を簡単に表現

ビデオ生成における新たなブレークスルー:PixelDance、複雑な動きやクールな特殊効果を簡単に表現

最近では、画面を占め続ける大規模な言語モデルに加え、動画生成技術も大きく進歩し、多くの企業が新たなモデルをリリースしています。

まず、ビデオ生成の分野における先駆者の 1 つである Runway が Gen-2 モデルをアップグレードし、印象的な映画のような高解像度を実現し、ビデオ生成の一貫性が大幅に向上したと主張しています。

ただし、この一貫性の向上は、ビデオのダイナミクスを犠牲にして実現されているようです。 Gen-2の公式プロモーションビデオを見ると、複数の短いクリップが集められているものの、各クリップのダイナミクスが比較的弱く、人や動物、物体の明確なアクションや動きを捉えるのが難しいことがわかります。

最近、Meta はビデオ生成モデル Emu Video もリリースしました。 Emu Video の公式サンプルを見ると、ビデオのダイナミクスは Gen-2 に比べて大幅に改善されていることがわかりますが、依然として比較的単純なアクションに限定されています。

古典的なテキストベースのグラフモデル Stable Diffusion を開発した企業である Stability.ai は最近、オープンソースのビデオ生成モデル Stable Video Diffusion (SVD) をリリースし、オープンソース コミュニティで多くの注目と議論を集めています。 SVD の効果は Gen-2 の効果に匹敵します。テスト サンプルでは、​​SVD によって生成されたビデオはダイナミクスが比較的欠けていることがわかります。

SVD の論文では、現在 SVD によって生成されたビデオにはダイナミクスが欠けていると述べられています。

上記の例は、一貫性とダイナミックさに優れたビデオを生成し、ビデオ コンテンツを真に動かすことが、現在、ビデオ生成の分野における最大の課題であることを示しています。

この点において、 PixelDance の最新の研究成果は重要な一歩を踏み出しました。PixelDance が生成した結果のダイナミクスは他の既存のモデルよりも大幅に優れており、業界の注目を集めています。

Twitter で有名な AI ブロガー @_akhaliq がリツイートした PixelDance のニュースは、約 80,000 回閲覧されています。

公式ウェブサイト (https://makepixelsdance.github.io) では、PixelDance は 2 つの異なるビデオ生成モードを提供しています。

1 つ目は基本モードです。ユーザーはガイド画像とテキストの説明を提供するだけで、PixelDance は一貫性が高く、ダイナミクスに富んだビデオを生成できます。ガイド画像は実際の画像にすることも、既存のテキストベースの画像モデルを使用して生成することもできます。

表示された結果から判断すると、PixelDance はリアルなスタイル、アニメーション スタイル、2 次元スタイル、魔法のスタイルを処理できます。Pixeldance は、キャラクターの動き、顔の表情、カメラの視点の制御、特殊効果の動きも処理できます。素晴らしいとしか言​​いようがありません!

2 つ目は、ユーザーが想像力と創造力を発揮する余地をさらに広げる高度なマジック モードです。このモードでは、より難しいビデオ コンテンツをより適切に生成するために、ユーザーは 2 つのガイダンス画像とテキストの説明を提供する必要があります。このウェブサイトでは、マジックモードを使用して作成されたさまざまなクールな特殊効果ショットを紹介しています。

さらに、公式サイトでは、PixelDance のみで制作された 3 分間のストーリー短編映画も公開されています。

非常に衝撃的なのは、PixelDance を使用すると、ユーザーが思い描いたストーリーに応じて、各シーンとそれに対応するアクションを作成できるということです。 PixelDance は、実際のシーン (エジプト、万里の長城など) や仮想シーン (エイリアンの惑星など) を問わず、豊富なディテールと豊かな動きを備えたビデオを生成でき、さまざまな特殊効果ショットも問題なく実行できます。

さらに、黒いシルクハットと赤い蝶ネクタイをつけた主人公のミスター・ポーラーベアのイメージは、さまざまなシーンでよく維持されています。長いビデオを生成することは、関連性の薄い短いビデオクリップを単純につなぎ合わせるだけではなくなりました。

このような優れたビデオ生成結果を達成するために、PixelDance は複雑なデータセットや大規模なモデルトレーニングに依存していません。PixelDance は、15 億のモデルのみを使用して、公開されている WebVid-10M データセットで上記の結果を達成しました。

論文アドレス: https://arxiv.org/abs/2311.10982

デモアドレス: https://makepixelsdance.github.io

対応する論文「ピクセルを踊らせる: 高ダイナミック ビデオ生成」では、ビデオ生成で良好な結果を達成するのが難しい理由として、画像生成と比較して、ビデオ生成では特徴空間が大幅に大きく、動きの多様性が大幅に大きいことが指摘されています。このため、既存のビデオ生成方法では、効果的な時間的動き情報を学習することが困難になっています。生成されたビデオは高画質ですが、そのダイナミクスは非常に制限されています。

上記の問題を解決するために、PixelDance は、テキストガイダンス + 最初と最後のフレームの画像ガイダンスに基づくビデオ生成方法を提案しました。これにより、モデルはビデオの動的情報にさらに注意を払い、学習できるようになります。

このうち、最初のフレーム画像ガイダンスは、ビデオコンテンツ全体の枠組みと素材を提供します。さらに、前のビデオ セグメントの最後のフレームを次のビデオ セグメントの最初のフレームのガイドとして使用することで、より長いビデオを生成することができます。テキストの説明では、ビデオアクションの説明が提供されます。最後のフレーム画像ガイダンスは、ビデオ生成プロセスの終了状態情報を提供します。著者らは、モデルが比較的粗い画像をガイダンスとして受け取ることができる適応方法を提案しました。これにより、ユーザーは基本的な画像編集ツールを使用して、最後のフレーム画像のガイダンスを取得できます。

公式サイトの情報によると、モデルの効果は現在も積極的に反復されており、今後 2 ~ 3 か月以内に誰でも試せるようにモデルがリリースされる予定です。現在、作者は、誰もがテストしたいサンプルを送信できるようにサポートする方法も提供しています。現在、いくつかのユーザーテストサンプルが公式サイトで公開されています。

PixelDance を使えば、想像力さえあれば、誰でも「大富豪の特殊効果マスター」になれるようです!

<<:  Google の時間は残りわずか: 18 歳の従業員が辞職し、経営陣を非難

>>: 

ブログ    

推薦する

...

ドローンは思考によって制御される新しい方法を経験しており、その商業的展望は非常に刺激的です。

近年、ドローン業界は非常に急速な発展を遂げていると言えます。製品面では数量が大幅に増加し、種類もます...

...

自然言語処理 (NLP) とは何ですか?

[[399636]] 【51CTO.com クイック翻訳】自然言語処理 (NLP) の定義自然言語...

人工知能はソフトウェア開発のパラダイムを変えている

今日、多くのソフトウェア開発者は、コードの作成とレビュー、バグの検出、ソフトウェアのテスト、開発プロ...

人工知能技術が伝染病の予防と制御に役立つ

[[318426]]現在、人工知能技術は急速に発展しており、特に医療保健の分野では、生活の各分野で広...

中国における医療用人工知能の現状分析:製品検証から市場検証まで

2016年以降、人工知能と医療の融合があらゆる面で火花を散らし始めています。医療AIは数年にわたる開...

深層強化学習探索アルゴリズムの最新レビュー: 約 200 本の論文が課題と将来の方向性を明らかにする

[[434358]]現在、強化学習(深層強化学習DRL、マルチエージェント強化学習MARLを含む)は...

...

...

スマートホームテクノロジーを通じて AI があなたの家を乗っ取るでしょうか?

スマートホーム テクノロジーは、家電製品、ホーム セキュリティ、照明、エンターテイメントを強化します...

...

AI+がん診断:巨人の「小さなそろばん」はまだ実現困難

[[246868]]スマートヘルスケアの分野における最近のニュースを振り返ると、大手企業は絶えず行動...

2023 年に最も影響力のある 10 のオープンソース大規模言語モデル

2023 年は、大規模言語モデル (LLM) の台頭により、オープンソース分野にとって極めて重要な年...

...