Google が基本世界モデルをリリース: 110 億のパラメータ、インタラクティブな仮想世界を生成可能

Google が基本世界モデルをリリース: 110 億のパラメータ、インタラクティブな仮想世界を生成可能

Sora がリリースされてからまだ 2 週間も経っていないが、Google の世界モデルが登場し、その機能はさらに強力になっているようだ。Sora が生成する仮想世界は「自律的かつ制御可能」だ。

ちょうど今、Google は生成 AI の新しいパラダイムである生成インタラクティブ環境 (Genie) を定義しました。 Genie は、単一の画像プロンプトからプレイ可能なインタラクティブな環境を生成できる、110 億のパラメータ ベースのワールド モデルです。

これまで見たことのない画像を提示して、私たち自身の想像の仮想世界とやりとりすることができます。

Genie は、合成画像、写真、さらには手描きのスケッチから、無限にプレイ可能な世界を生成できます。

Genie は、各フレーム ペア間の潜在的なアクションを推測する潜在的なアクション モデル、生のビデオ フレームを個別のトークンに変換するビデオ トークナイザー、潜在的なアクションと過去のフレーム トークンに基づいてビデオの次のフレームを予測するダイナミクス モデルの 3 つのコンポーネントで構成されています。

この技術の発表を見て、多くの人が「Google が再び AI 技術をリードするだろう」と言いました。

Google はまた、Genie によって学習された潜在的なアクションを、人間が設計した実際の環境に転送できることを示唆しています。この仮説に基づいて、Google はロボット工学分野における潜在世​​界モデルの応用の概念実証として、ロボット ビデオで Genie モデルをトレーニングしました。

混乱に陥ったゲーム、デザイン、XR、ロボット産業...

Genie の革命的な意義は 4 つの次元から理解できます。

まず、Genie はアクション ラベルなしで制御を学習できます。

具体的には、Genie はアクションラベル付きデータなしで、公開されているインターネット ビデオの大規模なデータセットの助けを借りてトレーニングされました。

これは本質的に難しいことです。なぜなら、インターネット ビデオには通常、実行されているアクションや、画像のどの部分を制御すべきかを示すラベルが付いていないからです。しかし、Genie はインターネット ビデオからきめ細かい制御を学習することができます。

Genie の場合、観測のどの部分が一般的に制御可能であるかを学習するだけでなく、生成された環境で一貫したさまざまな潜在的なアクションを推測します。同じ潜在アクションが、異なるプロンプト画像で同様の動作を生み出すことに注意してください。

第二に、Genie は次世代の「クリエイター」を育成することができます。

まったく新しいインタラクティブ環境を作成するには、たった 1 つの画像だけが必要です。これにより、仮想世界を生成してそこに入るためのさまざまな新しい方法への扉が開かれます。たとえば、最先端のテキストから画像へのモデルを使用して開始フレームを生成し、その後 Genie と連携して動的なインタラクティブ環境を生成することができます。

次のアニメーションでは、Google は Imagen2 を使用して画像を生成し、その後 Genie を使用してその画像に命を吹き込みました。

Genie はそれだけではありません。スケッチなど、ヒューマンデザインに関わるクリエイティブな分野にも応用できます。

あるいは、現実世界の画像に適用すると次のようになります。

繰り返しになりますが、Google は Genie が汎用インテリジェント エージェントを実現するための基礎であると考えています。これまでの研究では、ゲーム環境は AI エージェントの開発に効果的なテストベッドになり得るが、利用可能なゲームの数によって制限されることが多いことが示されています。

Genie を使用すると、将来の AI エージェントを、新しく生成された世界の無限のカリキュラムでトレーニングできるようになります。 Google は、Genie によって学習された潜在的なアクションを、人間が設計した実際の環境に転送できるという概念実証を発表しました。

最後に、Google は、Genie は追加のドメイン知識を必要とせずに複数のドメインに適用できる一般的なアプローチであると述べています。

使用されるデータは主に 2D プラットフォーマー ゲームのゲームプレイやロボット ビデオですが、この方法は汎用的で、あらゆるタイプのドメインに適用でき、より大きなインターネット データセットに拡張できます。

Google は、RT1 ​​のモーションフリー動画で、より小規模な 25 億のモデルをトレーニングしました。プラットフォームの場合と同様に、同じ潜在的なアクション シーケンスを持つ軌跡は、多くの場合、同様の動作を示します。

これは、Genie が一貫した行動空間を学習できることを示唆しており、これはロボットに汎用化された具現化された知能を構築するためのトレーニングに適している可能性があります。

技術の公開: 論文「Genie: 生成的インタラクティブ環境」が出版されました

Google DeepMind が Genie 論文を発表しました。


  • 論文アドレス: https://arxiv.org/pdf/2402.15391.pdf
  • プロジェクトのホームページ: https://sites.google.com/view/genie-2024/home?pli=1

この論文には、中国の学者であるユゲ(ジミー)・シー氏を含む6人もの共同筆頭著者がいる。彼女は現在、Google DeepMind の研究科学者であり、2023 年にオックスフォード大学で機械学習の博士号を取得しました。

方法の紹介

Genie アーキテクチャのいくつかのコンポーネントは、Vision Transformer (ViT) 上に構築されています。 Transformer の 2 次メモリ コストのため、ビデオ ドメインでは課題が生じ、ビデオには最大で 𝑂(10^4) トークンしか含められないことに注意してください。そのため、Google は、モデル容量と計算上の制約のバランスをとるために、すべてのモデル コンポーネントにメモリ効率の高い ST トランスフォーマー アーキテクチャ (図 4 を参照) を採用しています。

Genie は 3 つの主要コンポーネントで構成されています (次の図を参照)。

1) 潜在行動モデル(LAM)は、各フレームのペア間の潜在行動𝒂を推測するために使用されます。

2) ビデオトークナイザー。これは、生のビデオフレームを個別のトークンに変換するために使用されます。

3) 過去のフレームの潜在的なアクションとトークンが与えられた動的モデルは、ビデオの次のフレームを予測するために使用されます。

具体的には:

潜在アクション モデル: 制御可能なビデオ生成を実現するために、前のフレームで実行されたアクションに基づいて将来のフレームの予測を条件付けます。しかし、このようなアクションラベルはインターネット上のビデオではほとんど利用できず、アクション注釈を取得するためのコストが高くなる可能性があります。対照的に、潜在的な行動は完全に教師なしで学習します (図 5 を参照)。

ビデオ トークナイザー: 以前の研究を基に、ビデオを個別のトークンに圧縮して次元を削減し、より高品質のビデオ生成を実現します (図 6 を参照)。実装では、Google は VQ-VAE を使用しました。これは、動画の 𝑇 フレームを入力として受け取り、各フレームの離散表現を生成します。ここで、𝐷 は離散潜在空間のサイズです。トークナイザーは、標準の VQ-VQAE を使用してビデオ シーケンス全体に対してトレーニングされます。

動的モデル: デコーダーのみの MaskGIT トランスフォーマーです (図 7)。

ジーニーの推論プロセスは以下のとおりです

実験結果

拡張された結果

モデルの拡張動作を研究するために、Google は 27 億から 4100 万までのパラメータを持つモデルで実験を行い、モデル サイズとバッチ サイズの影響を調べました。実験結果を下の図 9 に示します。

モデルのサイズが大きくなるにつれて、最終的なトレーニング損失が減少することがわかります。これは、Genie アプローチがスケールアップによってメリットを得られることを強く示唆しています。同時に、バッチ サイズを増やすとモデルのパフォーマンスも向上します。

定性的な結果

Google は、Platformers データセットでトレーニングされた Genie 11B パラメータ モデルと、Robotics データセットでトレーニングされたより小規模なモデルに関する定性的な実験結果を示しました。結果は、Genie モデルがさまざまなドメインにわたって高品質で制御可能なビデオを生成できることを示しています。注目すべきは、Google が自社のプラットフォームでトレーニングされたモデルを定性的に評価するために、分布外 (OOD) 画像プロンプトのみを使用していることです。これは、Genie のアプローチの堅牢性と大規模データでのトレーニングの価値を実証しています。

エージェントのトレーニング。おそらくいつの日か、Genie はマルチタスク エージェントをトレーニングするための基本世界モデルとして使用できるようになります。図 14 では、著者らは、開始フレームが与えられた新しい RL 環境で、モデルを使用してさまざまな軌道を生成できることを示しています。

著者らは、手続き的に生成された 2D プラットフォーム ゲーム環境 CoinRun でこれを評価し、上限としてエキスパート アクションにアクセスできるオラクル行動クローニング (BC) モデルと比較します。

アブレーション研究。潜在行動モデルを設計する際、著者らは使用する入力の種類を慎重に検討しました。最終的な選択は生の画像 (ピクセル) を使用することでしたが、著者は Genie を設計する際に、トークン化された画像 (図 5 の x を z に置き換える) を使用するという代替案に対してこの選択を評価しました。この代替アプローチは「トークン入力」モデルと呼ばれます(表 2 を参照)。

トークナイザーアーキテクチャのアブレーション。著者らは、1) (空間のみ) ViT、2) (時空間) ST-ViViT、3) (時空間) CViViT の 3 つの単語分割器の選択肢のパフォーマンスを比較しました (表 3)。

<<:  ルカンはソラを世界モデルとして非難し、自己回帰LLMは単純すぎると述べた。

>>: 

ブログ    
ブログ    
ブログ    

推薦する

ElasticSearch はどのようにして TDigest アルゴリズムを使用して数十億のデータのパーセンタイルを計算するのでしょうか?

[[393929]]この記事はWeChatの公開アカウント「プログラマー李小冰」から転載したもので...

...

世界銀行:ロボットはまだ私たちの仕事を奪ってはいない

[[254699]]人間が機械に取って代わられるという悲観的な予測が広まっているにもかかわらず、自動...

ヘルスケアにおける AI: 注目すべき 3 つのトレンド

COVID-19 パンデミック、メンタルヘルス危機、医療費の高騰、人口の高齢化により、業界のリーダ...

...

ディープラーニングの救済: 不十分な注釈付きデータによるディープラーニング手法

概要: ディープラーニングのデータ依存の問題を解決し、データ注釈コストを削減することが、業界の研究の...

アメリカ心理学会:AIと頻繁に接触する従業員は孤独になりやすく、病気のリスクも高まる

アメリカ心理学会は6月14日、「AIと頻繁に接触する従業員は孤独になりやすく、病気のリスクも高まる」...

...

...

AIファイナンスブームの背後にはアリババとスタートアップ企業独自の狙いがある

中国の人工知能分野の二大大手であるMegvii TechnologyとSenseTime Techn...

「地表」から「宇宙」まで、探査ロボットが未知の領域の秘密を解き明かす

ロボットは現代社会で生み出された新しい種です。科学技術の進歩により、ロボットの開発はもはや人間の能力...

李開復:人工知能の「7つのブラックホール」は、最終的にはオープンエコシステムに置き換えられるだろう

最近、李開復氏は記者との独占インタビューで人工知能に関する自身の観察と洞察について語った。シリコンバ...

GPT-4 は人間よりも資金調達を理解しています。 AIビジネスプランがベンチャーキャピタルを熱狂させる

AI が作成した資金調達計画が、実際に VC を熱狂的に追いつめたと信じられますか? GPT-4 に...

ChatGPTはついにウェブを検索できるようになり、コンテンツは2021年9月以前のものに限定されなくなりました

米国時間9月28日水曜日、人工知能研究企業OpenAIは、同社のチャットボットChatGPTがMic...

...