一言で女の子がN着の服を着替えてくれた。Googleが動画生成を新たな高みへ。ネットユーザー「競争が激化」

Google はたった 1 つの動きで、AI ビデオ生成を新たなレベルに引き上げました。

文章からビデオを生成することは、 Lumiereと呼ばれる AI の助けを借りて次のように実行できるようになりました。

△「太陽が輝き、ヨットが湖を航行している」

このような一貫性と品質は、ネットユーザーの AI 動画生成への熱意を再び燃え上がらせました。Google が戦いに加わったことで、視聴する楽しみがさらに増えました。

ヴィンセントの動画だけでなく、ルミエールではピカちゃんの「ワンクリック着せ替え」も再現しました。

左がGoogle、右がPika、どちらも範囲や文章を選択して動画編集を完了します。あなたはどちらを選びますか？

画像内の静止した炎をジャンプさせるには、1 つの選択で実行することもできます。

写真とビデオもあります:

ビデオのスタイル設定:

つまり、主な焦点は高品質と汎用性にあります。

詳しくは論文をご覧ください〜

ビデオ生成のための時空間拡散モデル

Lumiere は、以前のビデオ世代におけるいくつかの重要な問題を解決することを目指しています。

本物であること
多様化
動きの継続性

従来の方法では、拡散モデルで最初にいくつかのスパースキーフレームを生成し、一連の時間的超解像(TSR)モデルを使用してキーフレーム間のギャップを埋め、最後に空間的超解像モデルを使用して高解像度のビデオ結果を取得するのが一般的でした。

ご想像のとおり、このアプローチには、グローバルな一貫性という点で本質的な欠陥があります。

Lumiere の革新性は、提案された時空間 U-Net (STU-Net)アーキテクチャにあります。ビデオは空間次元と時間次元の両方で同時にダウンサンプリングおよびアップサンプリングされ、ネットワークの中間層でビデオの圧縮された時空間表現が得られます。

具体的には、このアーキテクチャに基づいて、モデルはビデオ内のすべてのフレームを一度に生成することができ、これにより、生成されたビデオの一貫性も向上します。

同時に、ほとんどの計算は圧縮された表現で行われるため、STU-Net は計算量を効果的に削減し、コンピューティングとメモリの要件を削減できます。

さらに、ビデオの解像度を向上させるために、研究者らは、線形加重空間超解像ネットワークを介して時間ウィンドウの重複によって生じる境界アーティファクトなどの問題に対処するMultiDiffusion技術を使用し、生成された画像を全体に融合して、一貫性のある高解像度のビデオ効果を実現しました。

継続時間と解像度に関して言えば、Lumiere は 1024×1024 および 16fps で 5 秒間のビデオを出力できます。

研究者らは次のように述べている。

5 秒は、ほとんどのビデオ作品の平均的なショットの長さを超えています。

エンドツーエンドのフルフレームレートのビデオ生成機能と時空間 U-Net アーキテクチャの効率的なコンピューティングにより、Lumiere は柔軟でスケーラブルであり、テキスト生成ビデオ、画像生成ビデオ、ビデオのスタイル設定、ビデオの編集と復元などのダウンストリームタスクに簡単に適用できることは特筆に値します。

△ビデオ修復

実験結果

研究者らは、Lumiere と他のテキストからビデオを生成するモデルを実験的に比較しました。

まず、人間のユーザーの判断を見てみましょう。

実験の設計では、ボランティアは Lumiere のビデオと他のベースラインモデルのビデオのペアを同時に視聴します。ボランティアには、視覚的な品質、ダイナミックな効果、テキストプロンプトへの準拠度が高いビデオを選択するよう求められました。

研究者らは約 400 件のフィードバックを収集し、その結果、Lumiere はビデオ品質とテキストマッチングの点で、Pika、Gen2、Imagen Video、SVD などのトップビデオ生成モデルのいくつかを上回っていることが示されました。

同時に、UCF101データセット（動作認識データセット）では、LumiereはMagicVideo、Make-A-Video、SVDなどのモデルと比較して競争力のあるFVDおよびIS指標を達成しました。

ネットユーザー：Google、モデルはどこですか？

効果は素晴らしく、ネットユーザーも興奮しているが、橋の豆袋は...

今回、Google は試験やオープンソースのリリースを行わず、論文のみを公開しました。

このおなじみの操作は、人々をほとんど麻痺させます。

このビデオは素晴らしいですが、Google はコード、リポジトリ、API を一切公開しないのでしょうか?

ジェミニがリリースされたときの偽のブルーダックのビデオを覚えている人もいるでしょう...

それで、今回も Google には明るい未来があると思いますか?

論文アドレス: https://arxiv.org/abs/2401.12945 プロジェクトアドレス:
https://lumiere-video.github.io/#section_video_stylization

<<: 人工知能を実現する方法 - データからインテリジェンスへ

>>: 教育に人工知能を使う理由

AIモデルは兆レベルの時代へと加速しており、中国のAIコンピューティングパワーは世界の30％を占めています

一言で女の子がN着の服を着替えてくれた。Googleが動画生成を新たな高みへ。ネットユーザー「競争が激化」

ビデオ生成のための時空間拡散モデル

実験結果

ネットユーザー：Google、モデルはどこですか？

AIモデルは兆レベルの時代へと加速しており、中国のAIコンピューティングパワーは世界の30％を占めています

魚眼カメラと超音波センサーの融合により、鳥瞰図による近距離障害物認識を実現

AIファースト戦略に移行する5つの方法

シーメンスとマイクロソフトが業界横断的なAI導入で協力

機械学習について知っておくべき5つのこと

都市治安分野における人工知能の応用と開発に関する研究

変化が起こっています！機械学習は人類をどこへ導くのでしょうか?

エッジAIデバイスの選び方

ビデオ監視産業の発展動向とAI技術の応用

推薦する

ディープラーニング画像認識の未来：機会と課題が共存

Googleは、生成AI製品のユーザーを著作権侵害の申し立てから保護することを約束

AIが指紋を偽造できる場合、生体認証は依然として安全ですか?

AIがサイバーセキュリティにできること、できないこと

医者から「ビジネスを奪いたい」ですか?人工知能はこれら3つの大きな困難を克服しなければならない

受賞歴のある調査 | インターネット業界における顔認識の認知度

MySQL インデックスのデータ構造とアルゴリズム: インデックスの実装

EasyDLは、臨床試験データの敵対的学習と複数のアルゴリズムの比較を簡単に処理します。

ChatGPT は検索エンジンに取って代わることができますか?