Google の 10 秒動画生成モデルが世界記録を更新しました。 LLMは拡散モデルを終わらせ、その影響は第2世代のトップを圧倒する

AI ビデオ生成は、2024 年には次の最先端分野になる可能性があります。

過去数ヶ月を振り返ると、RunWayのGen-2、Pika LabのPika 1.0、国内大手メーカーなど、多数のビデオ生成モデルが登場し、継続的に反復してアップグレードされてきました。

RunWayは早朝、Gen-2がテキスト読み上げ機能をサポートし、動画のナレーションを作成できると発表した。

写真

もちろん、Googleはビデオ生成で遅れをとるつもりはありません。同社はまずスタンフォード大学のFei-Fei Li氏のチームと共同でWALTをリリースし、Transformerによって生成されたリアルなビデオが大きな注目を集めました。

写真

本日、Google チームは、特定のデータなしでビデオを生成できる新しいビデオ生成モデル、VideoPoet をリリースしました。

写真

論文アドレス: https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

最も驚くべき点は、VideoPoet が一度に 10 秒間の超長時間の連続した大動きのビデオを生成できることです。これは、小さな動きのみによる Gen-2 のビデオ生成を完全に圧倒します。

また、VideoPoet は、先行モデルとは異なり、拡散モデルではなく、T2V や V2A などの機能を備えた大規模なマルチモーダルモデルに基づいており、将来のビデオ生成の主流になる可能性があります。

写真

動画を見たネットユーザーたちは衝撃を受け、画面全体にコメントを投稿した。

写真

まずは、いくつかの体験を見てみましょう。

テキストからビデオへ

テキストからビデオへの変換では、生成されるビデオの長さは可変であり、テキストの内容に応じてさまざまなアクションとスタイルを示すことができます。

たとえば、パンダのトランプ：

写真

2匹のパンダのトランプ

パンプキンエクスプロージョン:

写真

カボチャが爆発するスローモーション

馬に乗って疾走する宇宙飛行士：

写真

疾走する馬に乗る宇宙飛行士

画像からビデオへ

VideoPoet は、指定されたプロンプトに基づいて入力画像をアニメーションに変換することもできます。

写真

左：雷鳴と稲妻に囲まれた荒れた海を航行する船。ダイナミックな油絵風に描かれている。

中央：きらめく星々で満たされた星雲の中を飛ぶ

右：杖を持った旅人が崖の端に立って、風に渦巻く海霧を眺めている

ビデオのスタイル化

ビデオのスタイル設定では、VideoPoet はまず光学フローと深度情報を予測し、次にモデルに追加のテキストを入力します。

写真

左: サングラスをかけ、太陽が輝くビーチでビーチボールを抱えているウォンバット

中央: 透明な氷の上でスケートをするテディベア

右：炉の輝きの中で吠える金属製のライオン

写真

左から右へ: フォトリアリスティック、デジタルアート、鉛筆画、水墨画、二重露光、360 パノラマ

ビデオをオーディオに変換する

VideoPoet はオーディオも生成できます。

以下に示すように、最初にモデルから 2 秒間のアニメーションクリップを生成し、次にテキストガイダンスなしでオーディオを予測してみます。これにより、単一のモデルからビデオとオーディオを生成できるようになります。

通常、VideoPoet は短編ビデオの出力に合わせて縦向きでビデオを生成します。

Google は、VideoPoet によって生成された多数の短いクリップで構成された短編映画も作成しました。

具体的なテキスト形式に関しては、研究者はバード氏に、場面の内訳とプロンプトのリストを添えて、旅するアライグマについての短編小説を書くように依頼した。次に、各キューごとにビデオセグメントが生成され、生成されたすべてのセグメントがつなぎ合わされて、以下の最終ビデオが作成されました。

、所要時間 01:00

ビデオストーリーテリング

時間の経過とともに変化する手がかりを使用することで、視覚的なストーリーテリングを作成できます。

写真

入力: 水でできた歩く人

拡張: 水でできた歩く男。背景には稲妻があり、人物からは紫色の煙が出ています。

写真

入力: 松の木に囲まれた山道をバイクで走る2匹のアライグマ、8k

拡張: バイクに乗る 2 匹のアライグマ。流星群がアライグマの後ろから落ちてきて、地面に落ちて爆発を引き起こします

LLM ビデオジェネレーター

現在、Gen-2 と Pika 1.0 のビデオ生成のパフォーマンスは十分に驚異的ですが、残念ながら、連続した大きな動きのあるビデオの生成では驚くべきパフォーマンスを発揮できません。

通常、大きな動きがある場合、ビデオに目立つアーティファクトが生成されます。

これに対応して、Google の研究者は、テキストからビデオ、画像からビデオ、ビデオのスタイル設定、ビデオの復元/拡張、ビデオからオーディオなど、さまざまなビデオ生成タスクを実行できる VideoPoet を提案しました。

他のモデルと比較して、Google のアプローチは、各タスクごとに個別にトレーニングされた専用コンポーネントに依存せずに、複数のビデオ生成機能を 1 つの大規模な言語モデルにシームレスに統合することです。

写真

具体的には、VideoPoet には主に次のコンポーネントが含まれています。

- 事前トレーニング済みの MAGVIT V2 ビデオトークナイザーと SoundStream オーディオトークナイザー。さまざまな長さの画像、ビデオ、オーディオクリップを、統一された語彙の個別のコードシーケンスに変換できます。これらのコードはテキストベースの言語モデルと互換性があり、テキストなどの他のモダリティと簡単に組み合わせることができます。

- 自己回帰言語モデルは、ビデオ、画像、オーディオ、テキスト間のクロスモーダル学習を実行し、シーケンス内の次のビデオまたはオーディオトークンを自己回帰的に予測できます。

- 大規模言語モデルトレーニングフレームワークに、テキストからビデオ、テキストから画像、画像からビデオ、ビデオフレームの継続、ビデオの復元/拡張、ビデオのスタイル設定、ビデオからオーディオなど、複数のマルチモーダル生成学習目標を導入しました。さらに、これらのタスクを相互に組み合わせて、追加のゼロショット機能 (テキストからオーディオへの変換など) を実現することもできます。

写真

VideoPoet は、さまざまなビデオ中心の入力と出力にわたってマルチタスクを実行できます。その中で、LLM はテキストを入力として取り、テキストからビデオ、画像からビデオ、ビデオからオーディオ、様式化、画像拡張のタスクの生成をガイドすることを選択できます。

トレーニングに LLM を使用する主な利点は、既存の LLM トレーニングインフラストラクチャで導入されたスケーラブルな効率性向上の多くが再利用できることです。

ただし、LLM は個別のトークンで動作するため、ビデオ生成に課題が生じる可能性があります。

幸いなことに、ビデオクリップとオーディオクリップを個別のトークン (つまり、整数インデックス) のシーケンスにエンコードし、元の表現に戻すことができるビデオトークナイザーとオーディオトークナイザーがあります。

VideoPoet は、複数のトークナイザー (ビデオと画像の場合は MAGVIT V2、オーディオの場合は SoundStream) を使用して、ビデオ、画像、オーディオ、テキストモダリティ全体で学習する自己回帰言語モデルをトレーニングします。

モデルがコンテキストに基づいてトークンを生成すると、トークナイザーデコーダーを使用して、これらのトークンを表示可能な表現に変換し直すことができます。

写真

VideoPoet タスク設計: トークナイザーエンコーダーとデコーダーを介して、さまざまなモダリティがトークンに変換されます。各モダリティは境界トークンで囲まれており、タスクトークンは実行されるタスクの種類を示します。

3つの大きな利点

まとめると、VideoPoet には Gen-2 などのビデオ生成モデルに比べて次の 3 つの利点があります。

より長い動画

VideoPoet は、ビデオの最後の 1 秒を調整し、次の 1 秒を予測することで、より長いビデオを生成できます。

VideoPoet は、繰り返しループすることで、ビデオを適切にスケーリングするだけでなく、複数の反復にわたってすべてのオブジェクトの外観を忠実に保持します。

以下は、テキスト入力から長いビデオを生成する VideoPoet の例 2 つです。

写真

左：色とりどりの花火を背景に火星で踊る宇宙飛行士

右: 青い川、滝、急峻な垂直の崖がある、ジャングルの中にあるエルフの石造りの都市の非常に鮮明なドローン撮影。

3 ～ 4 秒のビデオしか生成できない他のモデルと比較して、VideoPoet は一度に最大 10 秒のビデオを生成できます。

写真

ドローンで撮影した城の秋の風景

正確な制御

ビデオ生成アプリケーションの非常に重要な機能は、生成された動的効果をユーザーがどの程度制御できるかです。

これによって、モデルを使用して複雑で一貫性のある長いビデオを作成できるかどうかが大きく決まります。

VideoPoet は、テキストの説明を通じて入力画像に動的な効果を追加できるだけでなく、テキストプロンプトを通じてコンテンツを調整し、目的の効果を実現することもできます。

写真

左：カメラの方を向いている；右：あくびをしている

入力画像のビデオ編集をサポートするだけでなく、テキストを介してビデオ入力を正確に制御することもできます。

一番左のアライグマのダンス動画では、ユーザーはテキストを使用してさまざまなダンスの動きを説明し、アライグマにさまざまなダンスをさせることができます。

写真

「左」を生成: ダンスロボット

「Medium」の生成: Griddy Dance を実行する

「右」を生成: フリースタイル

同様に、VideoPoet によって生成された既存のビデオクリップもインタラクティブに編集できます。

入力ビデオを提供すると、オブジェクトの動きを変えてさまざまなアクションを実行できます。オブジェクトに対する操作は最初のフレームまたは中間フレームを中心に行うことができるため、高度な編集制御が可能になります。

たとえば、入力ビデオからランダムにセグメントを生成し、次に興味のある次のセグメントを選択することができます。

図の一番左のビデオは条件反射として使用され、最初のプロンプトの下で 4 つのビデオが生成されます。

「苔と新芽に覆われ、背の高い草に囲まれた、錆びて使い古された愛らしいスチームパンクロボットのクローズアップ。」

最初の 3 つの出力では、指示されたアクションの自律的な予測は生成されません。前回の動画では、アクション生成をガイドするために「スタート、背景は煙です」というプロンプトが追加されました。

写真

カメラを動かすテクニック

VideoPoet では、テキストプロンプトに必要なカメラ移動方法を追加することで、画像の変化を正確に制御することもできます。

たとえば、研究者たちはこのモデルを使用して、「アドベンチャーゲームのコンセプトマップ、雪をかぶった山々、日の出、澄んだ川」というプロンプトの付いた画像を生成しました。次の例では、指定されたテキストサフィックスを必要なアクションに追加します。

写真

左から右へ：ズームアウト、スライドズーム、左へのパン、アークモーションレンズ、ジブ撮影、ドローン航空写真

評価結果

最後に、VideoPoet は特定の実験評価でどのように機能するのでしょうか?

評価の客観性を確保するため、Google の研究者はさまざまなプロンプトですべてのモデルを実行し、人々に好みを評価するよう依頼しました。

次のグラフは、次の質問で VideoPoet が環境に優しい選択肢として選択された回数の割合を示しています。

テキスト忠実度:

写真

テキスト忠実度に関するユーザーの嗜好評価、つまり、プロンプトに正確に従うという点でビデオを好んだ人の割合

アクションの楽しさ：

写真

アクションの面白さに関するユーザーの好みの評価、つまり、楽しいアクションを生み出すために好まれる動画の割合

要約すると、平均して 24 ～ 35% の人が、VideoPoet によって生成された例が他のモデルよりもプロンプトに従っていると考えていましたが、他のモデルではこの割合はわずか 8 ～ 11% でした。

さらに、評価者の 41% ～ 54% が VideoPoet のサンプルアクションをより興味深いと評価しましたが、他のモデルの場合はわずか 11% ～ 21% でした。

今後の研究の方向性について、Google の研究者は、VideoPoet フレームワークによって、テキストを音声に、音声を動画に、動画の字幕などに拡張するなど、「any-to-any」生成が実現されると述べました。

ネットユーザーは、Runway と Pika は、Google と OpenAI がまもなく開始するテキストからビデオへの革新的なテクノロジーに耐えられるのかと疑問に思わずにはいられません。

写真

参考文献:

https://sites.research.google/videopoet/

https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

<<:

>>:

Google の 10 秒動画生成モデルが世界記録を更新しました。 LLMは拡散モデルを終わらせ、その影響は第2世代のトップを圧倒する

テキストからビデオへ

画像からビデオへ

ビデオのスタイル化

ビデオをオーディオに変換する

ビデオストーリーテリング

LLM ビデオジェネレーター

3つの大きな利点

より長い動画

正確な制御

カメラを動かすテクニック

評価結果

顔認識技術: スマートシティのためのスマートなソリューション

オフサイトのコンピューティング能力の使用率が 55% 向上し、オープンソースになりました。「東洋のデータと西洋のコンピューティング」のAIインフラへの対応

テスラのオプティマスロボットプロジェクトは強化学習などの分野でエンジニアを募集している

ゲイリー・マーカスはヒントンとマスクを公然と非難した。「ディープラーニングは壁にぶつかった。10万ドル賭けるよ」

中国科学院、中国初のクラウドベースの人工知能チップを発表

ロボット工学アプリケーションは、Metaverse テクノロジーを通じてどのように普及するのでしょうか?

アリババクラウド＋新たな実体経済データ、人工知能の第二の60年を巡る戦い

李開復：将来、名ばかりの職業10種

スタンフォード大学のエビ揚げロボットがネットで話題に！中国チームの費用は22万元で、フルコースの食事の調理や食器洗いもできる。

推薦する

リバースエンジニアリングの後、Transformer は数学的なフレームワークに「変換」します | 25 人の学者が記事を執筆しました

インテルの宋吉強氏：AIは爆発の臨界点に達しており、今年中に専用チップを発売する予定

人工知能の長所と短所をどのように見ていますか?

6つの主要な人工知能アプリケーションの主要技術の詳細な説明

新しい研究：医療AIが新たな統合失調症患者の治療効果をほぼ盲検で評価

AIと機械学習でデータセンターを強化

LangChain と Pinecone ベクトルデータベースを使用してカスタム Q&A アプリケーションを構築する

自動運転車は交通事故のほとんどをなくすことはできないかもしれない

GPT-4V でさえ解明できない未来推論の解決策があります!華中科技大学と上海理工大学出身

指先で操作できる人工知能（基礎編）