効果はGen-2を超えます! Byte の最新ビデオ生成モデルは、一文でハルクに VR メガネをかけさせます

効果はGen-2を超えます! Byte の最新ビデオ生成モデルは、一文でハルクに VR メガネをかけさせます

一言で言えば、ハルクに VR メガネをかけさせるのです。

4K品質。

パンダのファンタジーの旅

これは、あらゆる素晴らしいアイデアを実現できる ByteDance の最新 AI ビデオ生成モデル、 MagicVideo-V2です。 4K、8Kの超高解像度をサポートするだけでなく、さまざまな描画スタイルも簡単に保持できます。

△左から油絵風、サイバー風、デザイン風

評価結果は、Gen-2、Pika、既存のAIビデオ生成ツールの結果を上回りました。

その結果、オンラインになってから24時間以内に大きな注目を集めました。たとえば、1つのツイートの閲覧回数は20万回近くに達しました。

多くのネットユーザーがその効果に驚き、 「ランウェイやピカよりもいい」とコメントする人もいた。

「ランウェイやピカよりもいい」

研究者たちは実際に効果の比較を行った。出場者は、 MagicVideo-V2 、StabilityAIのSVD-XT 、新たな潜在的プレーヤーPika1.0 、RunwayのGen-2です。

ラウンド 1: 光と影の効果

日が沈むと、旅人は霧の森の中を一人で歩きます。

(左から右へ: 右上が MagicVideo-V2、SVD-XT、Pika、右下が Gen-2、以下同様)

MagicVideo-V2、Gen-2、Pika のいずれも、明瞭な光と影があることがわかります。しかし、Pika は旅行者向けではないようですし、MagicVideo-V2 の色調はより豊かです。

第2ラウンド:状況プロットの表現。

1910年代の日常生活と社会の日常生活を描いたコメディ

このラウンドでは、MagicVideo-V2 と Gen-2 が明らかに優れています。 SVD-XT が提示する中景の構成は、その古さを反映してはいるものの、表現力が十分ではありません。

第3ラウンド: リアリズム。

小さな男の子が公園の小道で自転車に乗っており、車輪が砂利の上をザクザクと音を立てている。

今回はその対比がさらに顕著です。 MagicVideo-V2とSVD-XTは文章の意味を完全に反映しますが、MagicVideo-V2は子供の足の動きを詳細に見ることができます。

さらに、研究者らは、最先端の方法とMagicVideo-V2を1対1で人間に評価させました。

結果は、MagicVideo-V2 が他の方法よりもパフォーマンスが優れていると人々が考えていることを示しました。


(緑、灰色、ピンクのバーは、MagicVideo-V2 がそれぞれ優れている、同等、劣っていると評価された試験を表します。)

どうやってそれを達成するのでしょうか?

簡単に言えば、MagicVideo-V2 は、テキストから画像へのモデル、ビデオ モーション ジェネレーター、参照画像埋め込みモジュール、および補間モジュールを統合したビデオ生成パイプラインです。

まず、T2I モジュールがテキストに基づいて 1024×1024 の画像を生成します。次に、I2V モジュールが静止画像をアニメーション化して 600×600×32 フレームのシーケンスを生成します。次に、V2V モジュールを使用してビデオ コンテンツを強化および改善します。最後に、補間モジュールを使用してシーケンスを 94 フレームに拡張します。

このようにして、高い忠実度と時間的連続性が保証されます。

しかし、早くも2022年11月に、ByteDanceはMagicVideo V1バージョンをリリースしました。


しかし、当時は効率性が重視され、1 枚の GPU カードで 256 x 256 解像度のビデオを生成することができました。

参考リンク:
https://twitter.com/arankomatsuzaki/status/1744918551415443768?s=20
プロジェクトリンク:
https://magicvideov2.github.io/
論文リンク:
https://arxiv.org/abs/2401.04468
https://arxiv.org/abs/2211.11018

<<: 

>>:  ブロックチェーン技術を活用してディープフェイク動画の脅威に対抗する方法

ブログ    
ブログ    
ブログ    

推薦する

人工知能産業の急速な発展の背後にある4つの大きな無駄

[[258526]]過去7年間、中国のプライベートエクイティ投資市場における人工知能分野への投資額は...

鍵となるのは人工知能コンピューティングセンターを構築し、それを活用することだ

デジタル経済の発展に伴い、全国の各省市がコンピューティングインフラの構築を競って推進し、人工知能コン...

この「アンケート」で初めて AI が人間を上回る、Microsoft が SuperGLUE でトップ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AIは顔の特徴、口を開ける、見つめる、眉を上げるなどの動作を完璧に模倣できるため、動画詐欺を防ぐことは不可能である。

防ぐのは不可能だ。そもそも防ぐことは不可能だ。AIの模倣能力はここまで発達しているのか?ある瞬間に顔...

...

ピリパインテリジェントファイナンス&タックス2018エンタープライズサービス+ウィズダムフォーラムが成功裏に終了

ピリパ・インテリジェンス・アンド・タックスが主催する2018年企業サービス+ウィズダムフォーラムが、...

大学を解雇され、Facebookも拒否した大物音声エンジニアのダニエル・ポーヴィー氏が、中国のXiaomiに入社する

昨日、小米集団の創業者、雷軍氏は微博で、音声認識とAIの国際的専門家であり、音声認識オープンソースツ...

スマート病院は現実に近づいているのでしょうか?

[[389620]]画像ソース: https://pixabay.com/images/id-60...

人工知能は何度も「危機的状況」に陥っているが、「成長痛」をどう解決するのか?

専門家や業界関係者は、人工知能がさまざまな業界や分野に広く浸透するにつれ、現場の応用に重点を置き基礎...

ポストエピデミック時代におけるスマートビルディング技術の重要な役割

COVID-19の世界的パンデミックを受けて、職場への復帰は通常通りの業務ではなく、セキュリティ シ...

モザイクでも止められない!これらのAIアルゴリズムはワンクリックで高解像度を実現できます

ぼやけた写真が好きな人はいません。本当の顔を復元したいという衝動にかられたことはありませんか? AI...

なぜロボット起業のチャンスはBサイドにあると言われるのでしょうか?

技術の変化のスピードは常に保守派の想像を超えています。 [[348702]]多くの人々の直感では、過...