Google が基本世界モデルをリリース: 110 億のパラメータ、インタラクティブな仮想世界を生成可能

Google が基本世界モデルをリリース: 110 億のパラメータ、インタラクティブな仮想世界を生成可能

Sora がリリースされてからまだ 2 週間も経っていないが、Google の世界モデルが登場し、その機能はさらに強力になっているようだ。Sora が生成する仮想世界は「自律的かつ制御可能」だ。

ちょうど今、Google は生成 AI の新しいパラダイムである生成インタラクティブ環境 (Genie) を定義しました。 Genie は、単一の画像プロンプトからプレイ可能なインタラクティブな環境を生成できる、110 億のパラメータ ベースのワールド モデルです。

これまで見たことのない画像を提示して、私たち自身の想像の仮想世界とやりとりすることができます。

Genie は、合成画像、写真、さらには手描きのスケッチから、無限にプレイ可能な世界を生成できます。

Genie は、各フレーム ペア間の潜在的なアクションを推測する潜在的なアクション モデル、生のビデオ フレームを個別のトークンに変換するビデオ トークナイザー、潜在的なアクションと過去のフレーム トークンに基づいてビデオの次のフレームを予測するダイナミクス モデルの 3 つのコンポーネントで構成されています。

この技術の発表を見て、多くの人が「Google が再び AI 技術をリードするだろう」と言いました。

Google はまた、Genie によって学習された潜在的なアクションを、人間が設計した実際の環境に転送できることを示唆しています。この仮説に基づいて、Google はロボット工学分野における潜在世​​界モデルの応用の概念実証として、ロボット ビデオで Genie モデルをトレーニングしました。

混乱に陥ったゲーム、デザイン、XR、ロボット産業...

Genie の革命的な意義は 4 つの次元から理解できます。

まず、Genie はアクション ラベルなしで制御を学習できます。

具体的には、Genie はアクションラベル付きデータなしで、公開されているインターネット ビデオの大規模なデータセットの助けを借りてトレーニングされました。

これは本質的に難しいことです。なぜなら、インターネット ビデオには通常、実行されているアクションや、画像のどの部分を制御すべきかを示すラベルが付いていないからです。しかし、Genie はインターネット ビデオからきめ細かい制御を学習することができます。

Genie の場合、観測のどの部分が一般的に制御可能であるかを学習するだけでなく、生成された環境で一貫したさまざまな潜在的なアクションを推測します。同じ潜在アクションが、異なるプロンプト画像で同様の動作を生み出すことに注意してください。

第二に、Genie は次世代の「クリエイター」を育成することができます。

まったく新しいインタラクティブ環境を作成するには、たった 1 つの画像だけが必要です。これにより、仮想世界を生成してそこに入るためのさまざまな新しい方法への扉が開かれます。たとえば、最先端のテキストから画像へのモデルを使用して開始フレームを生成し、その後 Genie と連携して動的なインタラクティブ環境を生成することができます。

次のアニメーションでは、Google は Imagen2 を使用して画像を生成し、その後 Genie を使用してその画像に命を吹き込みました。

Genie はそれだけではありません。スケッチなど、ヒューマンデザインに関わるクリエイティブな分野にも応用できます。

あるいは、現実世界の画像に適用すると次のようになります。

繰り返しになりますが、Google は Genie が汎用インテリジェント エージェントを実現するための基礎であると考えています。これまでの研究では、ゲーム環境は AI エージェントの開発に効果的なテストベッドになり得るが、利用可能なゲームの数によって制限されることが多いことが示されています。

Genie を使用すると、将来の AI エージェントを、新しく生成された世界の無限のカリキュラムでトレーニングできるようになります。 Google は、Genie によって学習された潜在的なアクションを、人間が設計した実際の環境に転送できるという概念実証を発表しました。

最後に、Google は、Genie は追加のドメイン知識を必要とせずに複数のドメインに適用できる一般的なアプローチであると述べています。

使用されるデータは主に 2D プラットフォーマー ゲームのゲームプレイやロボット ビデオですが、この方法は汎用的で、あらゆるタイプのドメインに適用でき、より大きなインターネット データセットに拡張できます。

Google は、RT1 ​​のモーションフリー動画で、より小規模な 25 億のモデルをトレーニングしました。プラットフォームの場合と同様に、同じ潜在的なアクション シーケンスを持つ軌跡は、多くの場合、同様の動作を示します。

これは、Genie が一貫した行動空間を学習できることを示唆しており、これはロボットに汎用化された具現化された知能を構築するためのトレーニングに適している可能性があります。

技術の公開: 論文「Genie: 生成的インタラクティブ環境」が出版されました

Google DeepMind が Genie 論文を発表しました。


  • 論文アドレス: https://arxiv.org/pdf/2402.15391.pdf
  • プロジェクトのホームページ: https://sites.google.com/view/genie-2024/home?pli=1

この論文には、中国の学者であるユゲ(ジミー)・シー氏を含む6人もの共同筆頭著者がいる。彼女は現在、Google DeepMind の研究科学者であり、2023 年にオックスフォード大学で機械学習の博士号を取得しました。

方法の紹介

Genie アーキテクチャのいくつかのコンポーネントは、Vision Transformer (ViT) 上に構築されています。 Transformer の 2 次メモリ コストのため、ビデオ ドメインでは課題が生じ、ビデオには最大で 𝑂(10^4) トークンしか含められないことに注意してください。そのため、Google は、モデル容量と計算上の制約のバランスをとるために、すべてのモデル コンポーネントにメモリ効率の高い ST トランスフォーマー アーキテクチャ (図 4 を参照) を採用しています。

Genie は 3 つの主要コンポーネントで構成されています (次の図を参照)。

1) 潜在行動モデル(LAM)は、各フレームのペア間の潜在行動𝒂を推測するために使用されます。

2) ビデオトークナイザー。これは、生のビデオフレームを個別のトークンに変換するために使用されます。

3) 過去のフレームの潜在的なアクションとトークンが与えられた動的モデルは、ビデオの次のフレームを予測するために使用されます。

具体的には:

潜在アクション モデル: 制御可能なビデオ生成を実現するために、前のフレームで実行されたアクションに基づいて将来のフレームの予測を条件付けます。しかし、このようなアクションラベルはインターネット上のビデオではほとんど利用できず、アクション注釈を取得するためのコストが高くなる可能性があります。対照的に、潜在的な行動は完全に教師なしで学習します (図 5 を参照)。

ビデオ トークナイザー: 以前の研究を基に、ビデオを個別のトークンに圧縮して次元を削減し、より高品質のビデオ生成を実現します (図 6 を参照)。実装では、Google は VQ-VAE を使用しました。これは、動画の 𝑇 フレームを入力として受け取り、各フレームの離散表現を生成します。ここで、𝐷 は離散潜在空間のサイズです。トークナイザーは、標準の VQ-VQAE を使用してビデオ シーケンス全体に対してトレーニングされます。

動的モデル: デコーダーのみの MaskGIT トランスフォーマーです (図 7)。

ジーニーの推論プロセスは以下のとおりです

実験結果

拡張された結果

モデルの拡張動作を研究するために、Google は 27 億から 4100 万までのパラメータを持つモデルで実験を行い、モデル サイズとバッチ サイズの影響を調べました。実験結果を下の図 9 に示します。

モデルのサイズが大きくなるにつれて、最終的なトレーニング損失が減少することがわかります。これは、Genie アプローチがスケールアップによってメリットを得られることを強く示唆しています。同時に、バッチ サイズを増やすとモデルのパフォーマンスも向上します。

定性的な結果

Google は、Platformers データセットでトレーニングされた Genie 11B パラメータ モデルと、Robotics データセットでトレーニングされたより小規模なモデルに関する定性的な実験結果を示しました。結果は、Genie モデルがさまざまなドメインにわたって高品質で制御可能なビデオを生成できることを示しています。注目すべきは、Google が自社のプラットフォームでトレーニングされたモデルを定性的に評価するために、分布外 (OOD) 画像プロンプトのみを使用していることです。これは、Genie のアプローチの堅牢性と大規模データでのトレーニングの価値を実証しています。

エージェントのトレーニング。おそらくいつの日か、Genie はマルチタスク エージェントをトレーニングするための基本世界モデルとして使用できるようになります。図 14 では、著者らは、開始フレームが与えられた新しい RL 環境で、モデルを使用してさまざまな軌道を生成できることを示しています。

著者らは、手続き的に生成された 2D プラットフォーム ゲーム環境 CoinRun でこれを評価し、上限としてエキスパート アクションにアクセスできるオラクル行動クローニング (BC) モデルと比較します。

アブレーション研究。潜在行動モデルを設計する際、著者らは使用する入力の種類を慎重に検討しました。最終的な選択は生の画像 (ピクセル) を使用することでしたが、著者は Genie を設計する際に、トークン化された画像 (図 5 の x を z に置き換える) を使用するという代替案に対してこの選択を評価しました。この代替アプローチは「トークン入力」モデルと呼ばれます(表 2 を参照)。

トークナイザーアーキテクチャのアブレーション。著者らは、1) (空間のみ) ViT、2) (時空間) ST-ViViT、3) (時空間) CViViT の 3 つの単語分割器の選択肢のパフォーマンスを比較しました (表 3)。

<<:  ルカンはソラを世界モデルとして非難し、自己回帰LLMは単純すぎると述べた。

>>: 

ブログ    
ブログ    
ブログ    

推薦する

スマート製造に関する新しい規制が8月に施行されます。これらは大きな影響力を持っており、知っておく必要があります

顔認識アプリケーションは司法解釈を受ける7月28日、我が国の最高人民法院は「顔認識技術を用いた個人情...

マルチエージェント強化学習の大規模モデルに関する予備的研究

1. 大規模マルチエージェント意思決定モデルの課題現実世界における多くの実際的な問題は、複数のエージ...

新たな黄金の10年が近づく中、人工知能はどのような機会と課題に直面するのでしょうか?

3月11日、全国人民代表大会の2つの会議が閉会した。「人工知能」は引き続きホットな話題だが、今年の...

PyTorch がトップカンファレンスを席巻: CVPR 論文は TensorFlow の 4 倍を占める

オープンソース フレームワークの分野では、PyTorch と TensorFlow の間で常に議論が...

ロボットがすべての仕事を奪ったら、人間はどうなるでしょうか?

[51CTO.com クイック翻訳] 過去1年間、人工知能と自動化技術が人間の雇用と労働市場に与え...

2019年に主流となった10のAIテクノロジー

1956年にコンピューターの専門家ジョン・マッカーシーが「人工知能」という言葉を作り出して以来、わず...

推奨に値する 7 つの優れたオープンソース AI ライブラリ

[[406029]] [51CTO.com クイック翻訳]人工知能 (AI) 研究の分野では、Ten...

毎日のアルゴリズム: 階段登り問題

[[433205]]階段を登っているとします。建物の最上部に到達するまでに n 歩かかります。一度に...

人工知能とセキュリティ:繋がる双子

何十年もの間、セキュリティは重要であると考えられてきましたが、いわゆる「コアビジネス」機能に関与した...

...

...

自動運転車は見たことのない物体を避けることができないのか?問題はトレーニングパイプラインにある

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

CES 2024 AIスマートホームのハイライト

ChatGPT が AI を話題にしてから 1 年以上経ちましたが、今年の Consumer Ele...

百度が新製品「小度」を発売、マルチラウンド対話と子供向けモードを追加

昨日の午後、百度は新製品発表会で「小度」スマートスピーカーを発表しました。このスマートスピーカーは百...