「Nuwa」のAIバージョンが登場!テキストから画像とビデオの生成: 8 つのタスクに 1 つのモデル

「Nuwa」のAIバージョンが登場!テキストから画像とビデオの生成: 8 つのタスクに 1 つのモデル

 

最近、視覚合成というタスクが大きな注目を集めています。 NVIDIA の GauGAN は数日前にバージョン 2.0 をリリースしたばかりですが、現在では新しいビジュアル合成モデル Nüwa も人気が出てきています。

GauGANと比較すると、Nuwaの生成モードはより多様です。テキスト落書きから画像を生成するだけでなく、テキストからビデオを生成することもできます。

VQ-VAE などの離散化 VAE スキームの出現により、DALL-E (画像) や GODIVA (ビデオ) などの視覚合成タスクに、効率的で大規模な事前トレーニングが徐々に適用されるようになりました。これらのモデルは大きな成功を収めていますが、まだいくつかの制限があります。画像とビデオを別々に処理し、そのうちの 1 つを生成することに重点を置いているため、モデルが画像とビデオの両方のデータからメリットを得ることが制限されます。対照的に、 Nuwa は、画像およびビデオ処理を含む 8 つの下流視覚タスクで優れた合成効果を発揮する、統合されたマルチモーダル事前トレーニング済みモデルです

論文アドレス: https://arxiv.org/pdf/2111.12417.pdf

GitHub アドレス: https://github.com/microsoft/NUWA

モデルの概要

この研究では、言語、画像、ビデオをカバーし、さまざまな視覚合成タスクに使用できる一般的な 3D トランスフォーマー エンコーダー デコーダー フレームワーク (下図を参照) を提案します。このフレームワークは、テキストまたは視覚スケッチを入力として受け取る適応型エンコーダーと、8 つの視覚合成タスクで共有されるデコーダーで構成されています。

「女媧」の全体構成図。

このフレームワークには、空間と時間におけるローカルな特徴を考慮するための 3D Nearby Attention (3DNA) メカニズムも含まれています。 3DNA は計算の複雑さを軽減するだけでなく、生成される結果の視覚的な品質も向上させます。いくつかの強力なベースラインと比較して、「Nuwa」はテキストから画像への生成、テキストからビデオへの生成、ビデオ予測などで SOTA 結果を達成しました。さらに、「Nuwa」は驚異的なゼロサンプル学習能力も実証しました。

「女媧」の 8 つのクロスモーダル合成モードは次のとおりです。

テキストを画像に:

画像への落書き:

画像の完成:

テキストに基づいて画像を編集します。

テキストをビデオに:

ビデオ予測:

グラフィティからビデオへ:

テキストに基づいて編集されたビデオ:

実験結果

合成結果はいくつかの実験を通じて評価されます。

まず、研究者らは、290万のテキストと画像のペアを含むテキストから画像への変換(T2I)生成用の概念キャプション、727,000本のビデオを含むビデオ予測(V2V)用の瞬間、および241,000のテキストとビデオのペアを含むテキストからビデオへの変換(T2V)生成用のVATEXデータセットの3つのデータセットで「Nuwa」を事前トレーニングしました。

SOTA方式との比較

テキストから画像への変換 (T2I) の微調整: この調査では、表 1 と図 3 に示すように、MSCOCO データセットでの「Nuwa」のパフォーマンスを比較しました。表 1 では、「Nuwa」は CogView よりも大幅に優れており、FID-0 は 12.9、CLIPSIM は 0.3429 でした。 XMC-GAN の FID-0 は 9.3 で Nuwa よりも優れていますが、図 3 に示すように、Nuwa の方がよりリアルな画像を生成できます。特に最後の例では、「Nuwa」によって生成された少年の顔がより鮮明になり、少年の横にある風船も非常にリアルになっています。

テキストからビデオへの変換 (T2V) の微調整: Kinetics データセットで Nuwa を評価し、結果を表 2 と図 4 に示します。表 2 では、Nuwa がすべての指標で最高のパフォーマンスを達成しています。

図 4 では、この研究では Nuwa の強力なゼロサンプル生成機能も実証されており、プールでゴルフをしたり、海で走ったりするなど、これまでに見たことのない画像を生成できます。

ビデオ予測 (V2V) の微調整: この研究では、「Nuwa」を BAIR Robot Pushing データセット上の他のモデルと比較しました。結果は表 3 に示されています。公平な比較のため、すべてのモデルで 64×64 の解像度を使用しています。条件(Cond.)として与えられたフレームは 1 つだけでしたが、Nuwa は SOTA FVD スコアを 94±2 から 86.9 に下げました。

スケッチから画像への (S2I) 微調整: この研究では、図 5 に示すように、MSCOCO に関する実験を実施します。 Taming-Transformers や SPADE と比較すると、Nuwa は多種多様なリアルな車を生成し、バスの窓の反射もはっきりと見えます。

画像補完 (I2I) ゼロショット評価: 塔の上部が与えられている場合、Taming Transformers モデルと比較して、Nuwa は周囲の建物、湖、花、木、山などを含む塔の下部のより豊かな想像を生成できます。

テキスト指示画像処理 (TI2I) ゼロショット評価: Nuwa は、画像の他の部分を変更せずに、高品質のテキスト一貫性のある結果を生成する強力な処理能力を実証します。

アブレーション実験

図 5 は、テキストからビデオへの (T2V) 生成タスクにおけるマルチタスク事前トレーニングの有効性を示しています。この研究では、挑戦的なデータセットMSR-VTT(自然な説明と実際のビデオを含む)で実験を実施しました。 「Nuwa」のFID-vidは47.68、CLIPSIMは0.2439です。

図9はテキストガイド付きビデオ処理(TV2V)を示しています。最初の行は、ダイバーが潜っている元のビデオ フレームを示しています。2 行目は、ダイバーが水面に向かって泳いでいるところを示しています。3 行目は、ダイバーが海の底まで泳げることを示しています。ダイバーが空に飛んでいる写真を生成したい場合はどうすればよいでしょうか。 「ヌワ」はそれを実現できます。写真からわかるように、ダイバーはロケットのように空に飛び立ちます。

<<:  Python における 7 つの主要なキーワード抽出アルゴリズムのベンチマーク

>>:  何開明のMAEが人気になってから、ビジュアルトランスフォーマーを整理したいですか?この記事は100以上の

ブログ    
ブログ    

推薦する

注目の話題レビュー:自動運転タクシーは商用化まであと一歩

自動運転については長い間議論されてきましたが、それが本当に人々の生活に不可欠なものになるのはいつでし...

Nvidia は Arm を買収して何をしたいのでしょうか?中国の承認後、クアルコムの影が再び現れる

またタトゥー?興味深いのは、この取引の解約手数料の詳細がまだ発表されていないことです。現時点では、独...

大手企業が人工知能への投資を増やす一方で、フェイスブックはトレンドに逆らって減速している

現在、GoogleやAmazonなどの大手テクノロジー企業は人工知能技術に多額の投資を行っており、人...

AlphaDev がソートアルゴリズムを 70% 高速化! C言語ライブラリの作者がDeepMindの最新AIについて解説

数日前、DeepMind はソートアルゴリズムを 70% 直接的に高速化する AlphaDev をリ...

ドローンは何に使えるのでしょうか?これらの使い方は本当に素晴らしいです!

ドローンは最近ますます人気が高まっています。高解像度カメラ付きの機械を数百ドルで購入することもできま...

ビジネスに人工知能を導入する際に考慮すべき3つの要素

最近、ますます多くの企業が人工知能に投資しています。しかし、成功するには、推論の解釈可能性、データ密...

...

スニーカーロボット大戦

[[430002]] 2019年、ボストンのバックベイにあるストリートウェアショップ「Bodega」...

Jupyter のアップグレード: さまざまな大規模モデルを接続し、コードを生成し、チャットを通じてエラーを修正できます

これで、大規模言語モデル (LLM) が Jupyter に接続されました。これは主に、Projec...

検索アルゴリズムはあなたの指先にあります: GitHubには最大のオープンソースアルゴリズムライブラリがあります

[[433085]]アルゴリズムは本質的に、1 つ以上の入力を受け入れ、内部計算とデータ操作を実行...

AIから本当に恩恵を受けるのは誰でしょうか?

人工知能の可能性は計り知れないものの、この技術革命から誰が最も恩恵を受けるのかについては議論が続いて...

2022年の企業向け人工知能技術の開発動向

調査によると、企業が人工知能を導入する方法が増え、開発者がユーザーに AI サービスを提供する新しい...