Google はたった 1 つの動きで、AI ビデオ生成を新たなレベルに引き上げました。 文章からビデオを生成することは、 Lumiereと呼ばれる AI の助けを借りて次のように実行できるようになりました。 △「太陽が輝き、ヨットが湖を航行している」 このような一貫性と品質は、ネットユーザーの AI 動画生成への熱意を再び燃え上がらせました。Google が戦いに加わったことで、視聴する楽しみがさらに増えました。 ヴィンセントの動画だけでなく、ルミエールではピカちゃんの「ワンクリック着せ替え」も再現しました。 左がGoogle、右がPika、どちらも範囲や文章を選択して動画編集を完了します。あなたはどちらを選びますか? 画像内の静止した炎をジャンプさせるには、1 つの選択で実行することもできます。 写真とビデオもあります: ビデオのスタイル設定: つまり、主な焦点は高品質と汎用性にあります。 詳しくは論文をご覧ください〜 ビデオ生成のための時空間拡散モデルLumiere は、以前のビデオ世代におけるいくつかの重要な問題を解決することを目指しています。
従来の方法では、拡散モデルで最初にいくつかのスパース キー フレームを生成し、一連の時間的超解像(TSR)モデルを使用してキー フレーム間のギャップを埋め、最後に空間的超解像モデルを使用して高解像度のビデオ結果を取得するのが一般的でした。 ご想像のとおり、このアプローチには、グローバルな一貫性という点で本質的な欠陥があります。 Lumiere の革新性は、提案された時空間 U-Net (STU-Net)アーキテクチャにあります。ビデオは空間次元と時間次元の両方で同時にダウンサンプリングおよびアップサンプリングされ、ネットワークの中間層でビデオの圧縮された時空間表現が得られます。 具体的には、このアーキテクチャに基づいて、モデルはビデオ内のすべてのフレームを一度に生成することができ、これにより、生成されたビデオの一貫性も向上します。 同時に、ほとんどの計算は圧縮された表現で行われるため、STU-Net は計算量を効果的に削減し、コンピューティングとメモリの要件を削減できます。 さらに、ビデオの解像度を向上させるために、研究者らは、線形加重空間超解像ネットワークを介して時間ウィンドウの重複によって生じる境界アーティファクトなどの問題に対処するMultiDiffusion技術を使用し、生成された画像を全体に融合して、一貫性のある高解像度のビデオ効果を実現しました。 継続時間と解像度に関して言えば、Lumiere は 1024×1024 および 16fps で 5 秒間のビデオを出力できます。 研究者らは次のように述べている。 5 秒は、ほとんどのビデオ作品の平均的なショットの長さを超えています。 エンドツーエンドのフルフレームレートのビデオ生成機能と時空間 U-Net アーキテクチャの効率的なコンピューティングにより、Lumiere は柔軟でスケーラブルであり、テキスト生成ビデオ、画像生成ビデオ、ビデオのスタイル設定、ビデオの編集と復元などのダウンストリーム タスクに簡単に適用できることは特筆に値します。 △ビデオ修復 実験結果研究者らは、Lumiere と他のテキストからビデオを生成するモデルを実験的に比較しました。 まず、人間のユーザーの判断を見てみましょう。 実験の設計では、ボランティアは Lumiere のビデオと他のベースライン モデルのビデオのペアを同時に視聴します。ボランティアには、視覚的な品質、ダイナミックな効果、テキストプロンプトへの準拠度が高いビデオを選択するよう求められました。 研究者らは約 400 件のフィードバックを収集し、その結果、Lumiere はビデオ品質とテキスト マッチングの点で、Pika、Gen2、Imagen Video、SVD などのトップ ビデオ生成モデルのいくつかを上回っていることが示されました。 同時に、UCF101データセット(動作認識データセット)では、LumiereはMagicVideo、Make-A-Video、SVDなどのモデルと比較して競争力のあるFVDおよびIS指標を達成しました。 ネットユーザー:Google、モデルはどこですか?効果は素晴らしく、ネットユーザーも興奮しているが、橋の豆袋は... 今回、Google は試験やオープンソースのリリースを行わず、論文のみを公開しました。 このおなじみの操作は、人々をほとんど麻痺させます。
ジェミニがリリースされたときの偽のブルーダックのビデオを覚えている人もいるでしょう... それで、今回も Google には明るい未来があると思いますか? 論文アドレス: https://arxiv.org/abs/2401.12945 プロジェクトアドレス: |
<<: 人工知能を実現する方法 - データからインテリジェンスへ
慢性閉塞性肺疾患を患っている女性は長い間病気で寝たきりの状態です。しかし、彼女の最後の願いは、アメリ...
昨日の人工知能プロジェクトに関する 10 の提案 - 理論に続き、今日は人工知能プロジェクトの 10...
テスラとペイパルの創業者イーロン・マスク氏は、将来私たちのほとんどが職を失うとさえ言っており、人工知...
[[258103]]テンセントテクノロジーニュース:フォーブスの寄稿者であるスティーブ・ウィルクス氏...
写真をじっくり見るだけで本物か偽物かがわかりますか?最近、ニューヨーク州立大学の中国人研究者が、目の...
2021 年 10 月、Jeff Dean が新しい機械学習アーキテクチャである Pathways ...
[51CTO.com からのオリジナル記事] 伝説によると、古代の神秘的な東洋の世界には、秘密で偉大...
海外メディアは9月7日、事情に詳しい関係者の話として、アップルが人工知能の構築に必要なコンピューティ...
テキサス州ダラスに本拠を置くクラウドセキュリティ企業トレンドマイクロの新しい調査によると、IT業界の...
アップルに3年間在籍した後、同社の機械学習担当ディレクターのイアン・グッドフェロー氏が突然辞任を発表...
ジェネレーティブ AI スタートアップの需要は高く、テクノロジー大手からの CVC および VC 資...
現在、人工知能の開発は引き続き盛んに行われており、新世代の科学技術革命の先駆者となりつつあります。米...