この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 最近、拡散モデルが本当に人気になってきました。 以前、OpenAIはこれを使用して、長年チャートを独占していたGANを打ち負かしましたが、今度はGoogleがそれに倣い、ビデオ拡散モデルを提案しました。 画像生成と同様に、最初の試行で印象的なパフォーマンスを示しました。 たとえば、「花火」と入力すると、次の効果を生成できます。 スクリーンには肉眼で見ても本物のように見える花火が映し出されました。 生成されたビデオをより長く、より高解像度にするために、著者らはこの拡散モデルに新しいサンプリング方法も導入しました。 最後に、モデルは無条件ビデオ生成タスクで新しい SOTA を達成しました。 一緒に見ましょう。 画像拡散モデルからの拡張この拡散ビデオ モデルは、標準画像拡散モデル UNet から拡張されています。 UNet は、残差によって接続された空間ダウンサンプリング チャネルとアップサンプリング チャネルに分割されたニューラル ネットワーク アーキテクチャです。 ネットワークは、複数の層の 2D 畳み込み残差ブロックで構成され、各層の後に空間注意ブロックが続きます。 固定数のフレームを持つブロックを使用し、3D U-Net を空間と時間で分解することで、ビデオ モデルに拡張できます。 具体的には: まず、各 2D 畳み込みを 3D 畳み込み(空間のみ)に変更します。たとえば、3x3 畳み込みを 1x3x3 畳み込みに変更します(最初の軸はビデオ フレームをインデックスし、2 番目と 3 番目の軸は空間の高さと幅をインデックスします) 。 各空間注意ブロックにおける注意は、依然として空間次元に焦点を合わせています。 次に、各空間注意ブロックの後に時間注意ブロックが挿入されます。この時間注意ブロックは最初の軸に注意を払い、空間軸をバッチ軸として扱います。 このようにビデオ Transformer 内の時空間注意を分解すると、計算がより効率的になることはよく知られています。 このようにして、モデルはビデオと画像で共同トレーニングすることができ、この共同トレーニングはサンプル品質の向上に非常に役立ちます。 さらに、より長く、より高解像度のビデオを生成するために、著者らは新しい調整手法である勾配法を導入しました。 主にモデルのサンプリング プロセスを変更し、勾配ベースの最適化を使用してノイズ除去データの条件付き損失を改善し、モデルの自己回帰をより多くのタイムステップとより高い解像度に拡張します。 条件なしと条件なしのテキスト生成のパフォーマンスを評価する無条件ビデオ生成の場合、既存のベンチマークでトレーニングと評価が実行されます。 このモデルは最終的に最高の FID スコアと IS スコアを達成し、以前の SOTA モデルをはるかに上回りました。 テキスト条件付きビデオ生成のために、著者らは空間解像度 64x64 ピクセルのキャプション付きビデオ 1,000 万本のデータセットでトレーニングを行いました。 これまでのビデオ生成モデルでは、さまざまな GAN、VAE、フローベース モデル、自己回帰モデルが使用されていました。 したがって、テキストからビデオを生成する拡散モデルの結果が報告されるのもこれが初めてです。 下の図は、分類器ガイダンスがない場合のモデル生成品質への影響を示しています。他の非拡散モデルと同様に、ガイダンスを追加すると、個々の画像の忠実度が向上します(右側のビデオ拡散モデルでは、画像がよりリアルで鮮明であることがわかります) 。 △写真はランダムにキャプチャされたビデオフレームです 最後に、著者らは、提案した勾配法が長いビデオを生成する際に従来の方法よりも確かに多様であり、生成されたサンプルがテキストと一致することをより確実にできることも検証しました。 △右は勾配法 論文アドレス: https://arxiv.org/abs/2204.03458 プロジェクトホームページ: https://video-diffusion.github.io/ |
<<: Web3.0時代: インターネット上で作成したものはすべてあなたのものになります
>>: 米国はチップ供給を遮断、ロシアはリソグラフィー装置の再構築を決定
ロボットはコンピューターによってプログラムされた機械です。人間の介入なしに一連の複雑なアクションを自...
機械学習は非常に重要な技術です。現在、50%以上の企業が機械学習の導入を検討または計画しており、企業...
ソラは発売後すぐにリバースエンジニアリングによって「解剖」されたのでしょうか? !リーハイ大学とマイ...
[[187490]] 2016 年末、Google DeepMind は機械学習プラットフォームであ...
ヘッドセットにより、Meta は新たな命を吹き込まれます! SIGGRAPH 2023 カンファレン...
導入GPT4がリリースされてから半年以上が経ち、皆さんもある程度は理解できたかと思います。しかし一方...
[[201116]] Microsoft XiaoIce は仮想世界から現実世界へと飛び出し、徐々...
多くの友人から、PyTorch の学習方法を尋ねられました。長期間の練習を経て、初心者が知っておく必...
あなたも数独愛好家ですか? Aakash Jhawar さんは、多くの人と同じように、新しい困難な課...
[[202603]]ギリシャ、エーゲ海、イメロヴィグリの Airbnb の美しい景色導入データ プロ...
9月末、OpenAIはChatGPTのマルチモーダル機能の禁止を解除すると発表しました。マルチモーダ...