拡散モデルを使用してビデオを生成することもでき、その結果は非常に印象的です。新しいSOTAが達成されました。

拡散モデルを使用してビデオを生成することもでき、その結果は非常に印象的です。新しいSOTAが達成されました。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

​最近、拡散モデルが本当に人気になってきました。

以前、OpenAIはこれを使用して、長年チャートを独占していたGANを打ち負かしましたが、今度はGoogleがそれに倣い、ビデオ拡散モデルを提案しました

画像生成と同様に、最初の試行で印象的なパフォーマンスを示しました。

たとえば、「花火」と入力すると、次の効果を生成できます。

スクリーンには肉眼で見ても本物のように見える花火が映し出されました。

生成されたビデオをより長く、より高解像度にするために、著者らはこの拡散モデルに新しいサンプリング方法も導入しました。

最後に、モデルは無条件ビデオ生成タスクで新しい SOTA を達成しました

一緒に見ましょう。

画像拡散モデルからの拡張

この拡散ビデオ モデルは、標準画像拡散モデル UNet から拡張されています。

UNet は、残差によって接続された空間ダウンサンプリング チャネルとアップサンプリング チャネルに分割されたニューラル ネットワーク アーキテクチャです。

ネットワークは、複数の層の 2D 畳み込み残差ブロックで構成され、各層の後に空間注意ブロックが続きます。

固定数のフレームを持つブロックを使用し、3D U-Net を空間と時間で分解することで、ビデオ モデルに拡張できます。

具体的には:

まず、各 2D 畳み込みを 3D 畳み込み(空間のみ)に変更します。たとえば、3x3 畳み込みを 1x3x3 畳み込みに変更します(最初の軸はビデオ フレームをインデックスし、2 番目と 3 番目の軸は空間の高さと幅をインデックスします)

各空間注意ブロックにおける注意は、依然として空間次元に焦点を合わせています。

次に、各空間注意ブロックの後に時間注意ブロックが挿入されます。この時間注意ブロックは最初の軸に注意を払い、空間軸をバッチとして扱います

このようにビデオ Transformer 内の時空間注意を分解すると、計算がより効率的になることはよく知られています。

このようにして、モデルはビデオと画像で共同トレーニングすることができ、この共同トレーニングはサンプル品質の向上に非常に役立ちます。

さらに、より長く、より高解像度のビデオを生成するために、著者らは新しい調整手法である勾配法を導入しました。

主にモデルのサンプリング プロセスを変更し、勾配ベースの最適化を使用してノイズ除去データの条件付き損失を改善し、モデルの自己回帰をより多くのタイムステップより高い解像度に拡張します。

条件なしと条件なしのテキスト生成のパフォーマンスを評価する

無条件ビデオ生成の場合、既存のベンチマークでトレーニングと評価が実行されます。

このモデルは最終的に最高の FID スコアと IS スコアを達成し、以前の SOTA モデルをはるかに上回りました。

テキスト条件付きビデオ生成のために、著者らは空間解像度 64x64 ピクセルのキャプション付きビデオ 1,000 万本のデータセットでトレーニングを行いました。

これまでのビデオ生成モデルでは、さまざまな GAN、VAE、フローベース モデル、自己回帰モデルが使用されていました。

したがって、テキストからビデオを生成する拡散モデルの結果が報告されるのもこれが初めてです。

下の図は、分類器ガイダンスがない場合のモデル生成品質への影響を示しています。他の非拡散モデルと同様に、ガイダンスを追加すると、個々の画像の忠実度が向上します(右側のビデオ拡散モデルでは、画像がよりリアルで鮮明であることがわかります)

△写真はランダムにキャプチャされたビデオフレームです

最後に、著者らは、提案した勾配法が長いビデオを生成する際に従来の方法よりも確かに多様であり、生成されたサンプルがテキストと一致することをより確実にできることも検証しました。

△右は勾配法

論文アドレス: https://arxiv.org/abs/2204.03458

プロジェクトホームページ: https://video-diffusion.github.io/

<<:  Web3.0時代: インターネット上で作成したものはすべてあなたのものになります

>>:  米国はチップ供給を遮断、ロシアはリソグラフィー装置の再構築を決定

ブログ    
ブログ    

推薦する

Alimama は曲率空間学習フレームワークと連合学習ソリューションをオープンソース化し、共通の進歩のために AI 技術を一般に公開します。

9月15日、Alimamaは、曲率空間学習フレームワークと連合学習ソリューションという2つのAI技...

UiPath: 自動化とは、退化を拒否し、価値の高い仕事の創出に専念することです

【51CTO.comオリジナル記事】近年、RPAの開発はかつてないほど注目を集めています。 Mark...

長沙の無人タクシーが提起する疑問:本当に無人運転が可能なのか?

自動運転無人現在、スマートカーには2つの呼び方があります。自動車会社がクローズドなシナリオでテストす...

悪意のあるハッカーが生成AIを武器化している

研究結果をブログのネタとして使うことに慣れていないのですが、次の点に注目しました。Vulcan Cy...

ホーキング:人工知能やその他の技術の発展は人類を滅ぼすかもしれない

新浪科技報、北京時間3月15日、海外メディアの報道によると、スティーブン・ホーキング博士は最近、人類...

確率的隠れ層モデルに基づくショッピングペアリングプッシュ:アリババが新しいユーザー嗜好予測モデルを提案

論文:混合モデルアプローチによる電子商取引プッシュ通知での補完製品の推奨論文リンク: https:/...

Natureサブジャーナル:ニューロモルフィックコンピューティングがさらに進歩し、科学者はニューロンとシナプスの人工シミュレーションを実現した

ニューロモルフィック コンピューティングは、人間の脳を構成するニューロンとシナプスのメカニズムを模倣...

...

IDC: 生成型 AI への支出は今後 5 年間で年間 73% 増加し、2027 年には 1,430 億ドルに達する

IDCによると、世界の企業は2023年に160億ドル(ITホーム注:現在は約1169.6億人民元)を...

物流業界におけるインテリジェント化のトレンドは、倉庫ロボットの将来性を浮き彫りにしています。

近年、電子商取引業界の急速な発展により、物流業界、特に物流倉庫に対する要求は徐々に高まっています。人...

いくつかの小さな図でディープラーニングを徹底的に説明します

Andrew Ng 氏は、Tess Ferrandez 氏が修了したディープラーニング特別コースのイ...

触覚を感知し、自己治癒するロボットが現実になりつつある

人間の皮膚は柔軟性があり、触り心地がよく、自己治癒力があるため、複製するのが難しいです。しかし、科学...

ハッシュテーブルアルゴリズムの最初から最後までの徹底的な分析

注: この記事は 3 つの部分に分かれています。最初の部分は、Baidu の面接の質問における To...

アート業界におけるメタバースの探究

メタバースの概念がますます普及するにつれて、さまざまな業界がこの豊かな土地を探索し始めました。多くの...

AGVロボットマルチエージェント経路探索の4つの主要な研究方向

マルチエージェント経路探索 (MAPF) は、人工知能、ロボット工学、理論計算機科学、実践的オペレー...