Google の 10 秒動画生成モデルが世界記録を更新しました。 LLMは拡散モデルを終わらせ、その影響は第2世代のトップを圧倒する

Google の 10 秒動画生成モデルが世界記録を更新しました。 LLMは拡散モデルを終わらせ、その影響は第2世代のトップを圧倒する

AI ビデオ生成は、2024 年には次の最先端分野になる可能性があります。

過去数ヶ月を振り返ると、RunWayのGen-2、Pika LabのPika 1.0、国内大手メーカーなど、多数のビデオ生成モデルが登場し、継続的に反復してアップグレードされてきました。

RunWayは早朝、Gen-2がテキスト読み上げ機能をサポートし、動画のナレーションを作成できると発表した。

写真

もちろん、Googleはビデオ生成で遅れをとるつもりはありません。同社はまずスタンフォード大学のFei-Fei Li氏のチームと共同でWALTをリリースし、Transformerによって生成されたリアルなビデオが大きな注目を集めました。

写真

本日、Google チームは、特定のデータなしでビデオを生成できる新しいビデオ生成モデル、VideoPoet をリリースしました。

写真

論文アドレス: https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

最も驚くべき点は、VideoPoet が一度に 10 秒間の超長時間の連続した大動きのビデオを生成できることです。これは、小さな動きのみによる Gen-2 のビデオ生成を完全に圧倒します。

また、VideoPoet は、先行モデルとは異なり、拡散モデルではなく、T2V や V2A などの機能を備えた大規模なマルチモーダル モデルに基づいており、将来のビデオ生成の主流になる可能性があります。

写真

動画を見たネットユーザーたちは衝撃を受け、画面全体にコメントを投稿した。

写真

写真

まずは、いくつかの体験を見てみましょう。

テキストからビデオへ

テキストからビデオへの変換では、生成されるビデオの長さは可変であり、テキストの内容に応じてさまざまなアクションとスタイルを示すことができます。

たとえば、パンダのトランプ:

写真

2匹のパンダのトランプ

パンプキンエクスプロージョン:

写真

カボチャが爆発するスローモーション

馬に乗って疾走する宇宙飛行士:

写真

疾走する馬に乗る宇宙飛行士

画像からビデオへ

VideoPoet は、指定されたプロンプトに基づいて入力画像をアニメーションに変換することもできます。

写真

左:雷鳴と稲妻に囲まれた荒れた海を航行する船。ダイナミックな油絵風に描かれている。

中央:きらめく星々で満たされた星雲の中を飛ぶ

右:杖を持った旅人が崖の端に立って、風に渦巻く海霧を眺めている

ビデオのスタイル化

ビデオのスタイル設定では、VideoPoet はまず光学フローと深度情報を予測し、次にモデルに追加のテキストを入力します。

写真

左: サングラスをかけ、太陽が輝くビーチでビーチボールを抱えているウォンバット

中央: 透明な氷の上でスケートをするテディベア

右:炉の輝きの中で吠える金属製のライオン

写真

左から右へ: フォトリアリスティック、デジタルアート、鉛筆画、水墨画、二重露光、360 パノラマ

ビデオをオーディオに変換する

VideoPoet はオーディオも生成できます。

以下に示すように、最初にモデルから 2 秒間のアニメーション クリップを生成し、次にテキスト ガイダンスなしでオーディオを予測してみます。これにより、単一のモデルからビデオとオーディオを生成できるようになります。

通常、VideoPoet は短編ビデオの出力に合わせて縦向きでビデオを生成します。

Google は、VideoPoet によって生成された多数の短いクリップで構成された短編映画も作成しました。

具体的なテキスト形式に関しては、研究者はバード氏に、場面の内訳とプロンプトのリストを添えて、旅するアライグマについての短編小説を書くように依頼した。次に、各キューごとにビデオ セグメントが生成され、生成されたすべてのセグメントがつなぎ合わされて、以下の最終ビデオが作成されました。

、所要時間 01:00

ビデオストーリーテリング

時間の経過とともに変化する手がかりを使用することで、視覚的なストーリーテリングを作成できます。

写真

入力: 水でできた歩く人

拡張: 水でできた歩く男。背景には稲妻があり、人物からは紫色の煙が出ています。

写真

入力: 松の木に囲まれた山道をバイクで走る2匹のアライグマ、8k

拡張: バイクに乗る 2 匹のアライグマ。流星群がアライグマの後ろから落ちてきて、地面に落ちて爆発を引き起こします

LLM ビデオジェネレーター

現在、Gen-2 と Pika 1.0 のビデオ生成のパフォーマンスは十分に驚異的ですが、残念ながら、連続した大きな動きのあるビデオの生成では驚くべきパフォーマンスを発揮できません。

通常、大きな動きがある場合、ビデオに目立つアーティファクトが生成されます。

これに対応して、Google の研究者は、テキストからビデオ、画像からビデオ、ビデオのスタイル設定、ビデオの復元/拡張、ビデオからオーディオなど、さまざまなビデオ生成タスクを実行できる VideoPoet を提案しました。

他のモデルと比較して、Google のアプローチは、各タスクごとに個別にトレーニングされた専用コンポーネントに依存せずに、複数のビデオ生成機能を 1 つの大規模な言語モデルにシームレスに統合することです。

写真

具体的には、VideoPoet には主に次のコンポーネントが含まれています。

- 事前トレーニング済みの MAGVIT V2 ビデオ トークナイザーと SoundStream オーディオ トークナイザー。さまざまな長さの画像、ビデオ、オーディオ クリップを、統一された語彙の個別のコード シーケンスに変換できます。これらのコードはテキストベースの言語モデルと互換性があり、テキストなどの他のモダリティと簡単に組み合わせることができます。

- 自己回帰言語モデルは、ビデオ、画像、オーディオ、テキスト間のクロスモーダル学習を実行し、シーケンス内の次のビデオまたはオーディオ トークンを自己回帰的に予測できます。

- 大規模言語モデルトレーニングフレームワークに、テキストからビデオ、テキストから画像、画像からビデオ、ビデオフレームの継続、ビデオの復元/拡張、ビデオのスタイル設定、ビデオからオーディオなど、複数のマルチモーダル生成学習目標を導入しました。さらに、これらのタスクを相互に組み合わせて、追加のゼロショット機能 (テキストからオーディオへの変換など) を実現することもできます。

写真

VideoPoet は、さまざまなビデオ中心の入力と出力にわたってマルチタスクを実行できます。その中で、LLM はテキストを入力として取り、テキストからビデオ、画像からビデオ、ビデオからオーディオ、様式化、画像拡張のタスクの生成をガイドすることを選択できます。

トレーニングに LLM を使用する主な利点は、既存の LLM トレーニング インフラストラクチャで導入されたスケーラブルな効率性向上の多くが再利用できることです。

ただし、LLM は個別のトークンで動作するため、ビデオ生成に課題が生じる可能性があります。

幸いなことに、ビデオ クリップとオーディオ クリップを個別のトークン (つまり、整数インデックス) のシーケンスにエンコードし、元の表現に戻すことができるビデオ トークナイザーとオーディオ トークナイザーがあります。

VideoPoet は、複数のトークナイザー (ビデオと画像の場合は MAGVIT V2、オーディオの場合は SoundStream) を使用して、ビデオ、画像、オーディオ、テキスト モダリティ全体で学習する自己回帰言語モデルをトレーニングします。

モデルがコンテキストに基づいてトークンを生成すると、トークナイザー デコーダーを使用して、これらのトークンを表示可能な表現に変換し直すことができます。

写真

VideoPoet タスク設計: トークナイザー エンコーダーとデコーダーを介して、さまざまなモダリティがトークンに変換されます。各モダリティは境界トークンで囲まれており、タスク トークンは実行されるタスクの種類を示します。

3つの大きな利点

まとめると、VideoPoet には Gen-2 などのビデオ生成モデルに比べて次の 3 つの利点があります。

より長い動画

VideoPoet は、ビデオの最後の 1 秒を調整し、次の 1 秒を予測することで、より長いビデオを生成できます。

VideoPoet は、繰り返しループすることで、ビデオを適切にスケーリングするだけでなく、複数の反復にわたってすべてのオブジェクトの外観を忠実に保持します。

以下は、テキスト入力から長いビデオを生成する VideoPoet の例 2 つです。

写真

左:色とりどりの花火を背景に火星で踊る宇宙飛行士

右: 青い川、滝、急峻な垂直の崖がある、ジャングルの中にあるエルフの石造りの都市の非常に鮮明なドローン撮影。

3 ~ 4 秒のビデオしか生成できない他のモデルと比較して、VideoPoet は一度に最大 10 秒のビデオを生成できます。

写真

ドローンで撮影した城の秋の風景

正確な制御

ビデオ生成アプリケーションの非常に重要な機能は、生成された動的効果をユーザーがどの程度制御できるかです。

これによって、モデルを使用して複雑で一貫性のある長いビデオを作成できるかどうかが大きく決まります。

VideoPoet は、テキストの説明を通じて入力画像に動的な効果を追加できるだけでなく、テキスト プロンプトを通じてコン​​テンツを調整し、目的の効果を実現することもできます。

写真

左:カメラの方を向いている;右:あくびをしている

入力画像のビデオ編集をサポートするだけでなく、テキストを介してビデオ入力を正確に制御することもできます。

一番左のアライグマのダンス動画では、ユーザーはテキストを使用してさまざまなダンスの動きを説明し、アライグマにさまざまなダンスをさせることができます。

写真

「左」を生成: ダンスロボット

「Medium」の生成: Griddy Dance を実行する

「右」を生成: フリースタイル

同様に、VideoPoet によって生成された既存のビデオ クリップもインタラクティブに編集できます。

入力ビデオを提供すると、オブジェクトの動きを変えてさまざまなアクションを実行できます。オブジェクトに対する操作は最初のフレームまたは中間フレームを中心に行うことができるため、高度な編集制御が可能になります。

たとえば、入力ビデオからランダムにセグメントを生成し、次に興味のある次のセグメントを選択することができます。

図の一番左のビデオは条件反射として使用され、最初のプロンプトの下で 4 つのビデオが生成されます。

「苔と新芽に覆われ、背の高い草に囲まれた、錆びて使い古された愛らしいスチームパンク ロボットのクローズアップ。」

最初の 3 つの出力では、指示されたアクションの自律的な予測は生成されません。前回の動画では、アクション生成をガイドするために「スタート、背景は煙です」というプロンプトが追加されました。

写真

カメラを動かすテクニック

VideoPoet では、テキスト プロンプトに必要なカメラ移動方法を追加することで、画像の変化を正確に制御することもできます。

たとえば、研究者たちはこのモデルを使用して、「アドベンチャー ゲームのコンセプト マップ、雪をかぶった山々、日の出、澄んだ川」というプロンプトの付いた画像を生成しました。次の例では、指定されたテキスト サフィックスを必要なアクションに追加します。

写真

左から右へ:ズームアウト、スライドズーム、左へのパン、アークモーションレンズ、ジブ撮影、ドローン航空写真

評価結果

最後に、VideoPoet は特定の実験評価でどのように機能するのでしょうか?

評価の客観性を確保するため、Google の研究者はさまざまなプロンプトですべてのモデルを実行し、人々に好みを評価するよう依頼しました。

次のグラフは、次の質問で VideoPoet が環境に優しい選択肢として選択された回数の割合を示しています。

テキスト忠実度:

写真

テキスト忠実度に関するユーザーの嗜好評価、つまり、プロンプトに正確に従うという点でビデオを好んだ人の割合

アクションの楽しさ:

写真

アクションの面白さに関するユーザーの好みの評価、つまり、楽しいアクションを生み出すために好まれる動画の割合

要約すると、平均して 24 ~ 35% の人が、VideoPoet によって生成された例が他のモデルよりもプロンプトに従っていると考えていましたが、他のモデルではこの割合はわずか 8 ~ 11% でした。

さらに、評価者の 41% ~ 54% が VideoPoet のサンプル アクションをより興味深いと評価しましたが、他のモデルの場合はわずか 11% ~ 21% でした。

今後の研究の方向性について、Google の研究者は、VideoPoet フレームワークによって、テキストを音声に、音声を動画に、動画の字幕などに拡張するなど、「any-to-any」生成が実現されると述べました。

ネットユーザーは、Runway と Pika は、Google と OpenAI がまもなく開始するテキストからビデオへの革新的なテクノロジーに耐えられるのかと疑問に思わずにはいられません。

写真

参考文献:

https://sites.research.google/videopoet/

https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

<<: 

>>: 

ブログ    

推薦する

知っておくべき 10 個の機械学習 API

[[257117]] [51CTO.com クイック翻訳] 今日では、携帯電話の写真ストリーム認識...

AIはイノベーションを通じて気候への影響を補うことができるでしょうか?

最も熱心な気候変動監視者でさえ希望を抱いている。なぜなら、人類の革新と技術が私たちをこの混乱に陥れた...

スマート運転の新たな戦い:「レーダーとビジョンの融合」に対抗、5つの勢力が別々に攻撃

[[440742]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

会話型 AI ソリューションを実装する際に避けるべき 7 つの間違い

会話型 AI ソリューションを実装する際によくある 7 つの間違いを見てみましょう。適切な戦略と計画...

新しい時代を受け入れよう: スマートホームが贅沢な生活を再定義する

イノベーションとテクノロジーの時代において、贅沢な暮らしはスマートホームによって変化しています。これ...

スタートアップに適した AI ビジネス モデルを選択するにはどうすればよいでしょうか?

[[406810]] [51CTO.com クイック翻訳]人工知能技術は企業が行うビジネスにとって...

Agora.io がモバイルゲーム向けリアルタイム音声サービス「AMG Voice」を開始

Agora.ioは3月9日、モバイルゲーム向けリアルタイム音声サービス「AMG Voice(Agor...

次世代の AI 人材をどう育成するか?

AI 人材とプロジェクト パイプラインを構築するには、教育的価値だけでなく技術的価値も必要です。そ...

世界を変えるために活動する5つのAIスタートアップ

ディープラーニングとニューラル ネットワークの進歩により、自然言語処理とコンピューター ビジョンに大...

「AI+コンピューティングパワー」が海外企業に「活力」を与えた

海外に進出する企業は、さまざまな市場のニーズをより正確に理解し、適応するために、大量の国境を越えたデ...

AIoTは自律時代を推進します。人工知能はIoTインフラに新たな競争上の優位性をもたらします。

人工知能とモノのインターネット (AIoT) は、テクノロジー分野における新しいプレーヤーの 1 つ...

...

...

...

ハッカーがGSMアルゴリズムを破り、携帯電話ユーザーが盗聴の危険にさらされる

以下の記事では、主にハッカーがGSMアルゴリズムをクラックし、携帯電話ユーザーが盗聴の危険にさらされ...