海外メディアの報道によると、1月26日、GoogleはLumiereと呼ばれる人工知能ビデオジェネレータを発表し、関連するプレプリント論文の中でこれを「リアルなビデオ生成のための時空間拡散モデル」と呼んだ。 Lumiere は、ローラースケートを履いたり、車を運転したり、ピアノを弾いたりといったおかしな状況にいるかわいい動物たちのビデオをうまく作成しています。 Google によれば、Lumiere は独自のアーキテクチャを活用して、ビデオの全期間を一度に生成します。あるいは、同社の言葉を借りれば、「モデルを 1 回通過するだけで、ビデオの全時間継続時間を瞬時に生成できる時空間 U-Net アーキテクチャを導入します」。これは、離れたキーフレームを合成し、その後に時間的超解像を行う既存のビデオ モデルとは対照的であり、このアプローチでは、本質的に全体的な時間的一貫性を実現することが困難です。 ” 簡単に言えば、Google のテクノロジーは、空間的側面 (ビデオ内のオブジェクトの位置) と時間的側面 (ビデオ内でオブジェクトがどのように移動し変化するか) の両方を同時に処理するように設計されています。そのため、多くの小さな部分やフレームを組み合わせてビデオを作成するのではなく、最初から最後まで 1 つのスムーズなプロセスでビデオ全体を作成できます。 Lumiere はさまざまなパーティー トリックも実行できます。Google のデモ ページには、この優れた例が掲載されています。たとえば、テキストからビデオへの生成 (書かれたプロンプトをビデオに変換する)、静止画像をビデオに変換する、参照画像を使用して特定のスタイルでビデオを生成する、テキストベースのプロンプトを使用して一貫したビデオ編集を適用する、画像の特定の領域をアニメーション化して映画のようなグラフィックを作成する、ビデオ ペイント機能 (たとえば、人が着ている服の種類を変更する) を提供するなどの機能があります。 ルミエールの研究論文の中で、グーグルの研究者らは、AIモデルが1024×1024ピクセルの5秒間の動画を出力し、それを「低解像度」と呼んでいると述べた。こうした制限にもかかわらず、研究者らはユーザー調査を実施し、Lumiere の出力は既存の AI ビデオ合成モデルよりも人気があると主張しています。 |
<<: トラフィックエンジニアリングによりコード生成の精度が2倍に向上: 19%から44%
[[212805]]人工知能の概念は1956年に初めて提唱されました。60年間の浮き沈みを経て、人...
多くの企業が AI イニシアチブの導入に意欲的に取り組んでいる一方で、AI が自社のビジネスにどのよ...
著者: 張傑[51CTO.comより引用] 2020年と比べると、2021年の自動運転業界にはよりエ...
GPT-3などの超大規模モデルの登場により、コンテキスト内学習も普及してきました。インコンテキスト...
産業革命以降、環境破壊のスピードと範囲は拡大し続け、環境問題や自然災害がますます増加し、生命と生存に...
OpenAI は、誰でも深層強化学習に習熟できるように設計された教育リソース「Spinning Up...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
ニューラル ネットワークに基づくプロジェクトにおけるボトルネックは通常、ネットワークの実装ではありま...
[[416068]] [51CTO.com クイック翻訳]人間が未来を予測することは困難ですが、人工...
ブロックチェーンと人工知能の関係は何ですか?ブロックチェーンは人工知能に影響を与えることができるか?...
ラボガイド科学技術の急速な発展により、人工知能(AI)は今日最もホットな話題の1つになりました。人工...
人工知能 (AI) は、建物の管理と制御の方法に革命をもたらし、これまで以上に効率的でコスト効率の高...