3万時間のビデオを視聴した後、GoogleのモデルはSoraとは異なる仮想世界と対話する新しい方法を見つけ、世界モデリングに向けてさらに一歩前進しました。

3万時間のビデオを視聴した後、GoogleのモデルはSoraとは異なる仮想世界と対話する新しい方法を見つけ、世界モデリングに向けてさらに一歩前進しました。

執筆者:今日は晴れ

制作:51CTO テクノロジースタック(WeChat ID:blog)

最近では、生成 AI の急速な発展により、テキスト、画像、音声、さらにはビデオを生成できるさまざまな AI ツールに人々が徐々に慣れてきました。

Google DeepMind が最近発表した Genie モデルは、まったく異なる機能を実現します。画像を「インタラクティブでプレイ可能な環境」に変換できます。

Genie プロジェクトの発表ページで、DeepMind は、静的な開始画像から生成されたシンプルなプラットフォーム スタイルのゲームのサンプル GIF を多数公開しています。この画像には、子供のスケッチ、現実世界の写真、さらには ImageGen2 によって処理されてゲームの GIF サンプルが生成されたテキスト プロンプトも含まれています。

写真

1. 基本的な世界モデル

Genie は生成 AI の新しいパラダイムを提供します。 Genie は、これまで見たことのない画像からヒントを得て、人々が想像上の仮想世界とやりとりできるようにし、基本的に基本世界モデルとして機能します。

Genie の出力は一見すると基本的な 2D ゲーム エンジンの出力と似ているように見えるかもしれませんが、このモデルは実際には人間のゲーム開発者と同じようにスプライトを描画したり、プレイ可能なプラットフォームを作成したりはしません。代わりに、システムは開始画像 (または複数の画像) をビデオ内のフレームとして扱い、特定の入力を受け取ると、次のフレーム (または複数のフレーム) 全体がどのように見えるかについて最善の推測を生成します。

Genie はトレーニング中にアクション ラベルを使用しませんが、代わりに公開されている大規模なインターネット ビデオ データセットからトレーニングされます。

このようにして、Genie モデルは、限られた静的な視覚情報またはテキストの説明を観察した後、大量のトレーニング データから学習したゲーム ルールと動的法則に基づいて、継続的かつインタラクティブなゲーム環境を推測して生成することができます。

つまり、ユーザーが簡単な写真や説明をアップロードすると、Genie はプレイヤーが探索したり操作したりできる関連する仮想ゲームシーンを構築しようとします。

2. 行動ラベルなしでの学習

Genie は、特にインターネット ビデオからきめ細かなコントロールを学習できるという点でユニークです。これは課題です。なぜなら、インターネット ビデオには、実行されているアクションや、画像のどの部分を制御すべきかを示すラベルが付いていないことが多いからです。驚くべきことに、Genie は観測のどの部分が一般的に制御可能であるかを学習するだけでなく、生成された環境全体で一貫したさまざまな潜在的なアクションを推測します。

モデルを構築するため、Genie はインターネット上に公開されている 20 万時間のゲーム ビデオから始め、数百の 2D ゲームから 3 万時間の標準化されたビデオを抽出しました。これらのビデオの個々のフレームは、機械学習アルゴリズムで簡単に使用できる 2 億パラメータのモデルにラベル付けされます。

ここから、システムは「潜在アクション モデル」を生成し、どのインタラクション「アクション」(ボタンの押下など)がこれらすべてのトークンに見られるフレームごとの変化を現実的かつ一貫して生成できるかを予測します。潜在アクション モデルを構築した後、Genie は任意の数の任意のフレームと潜在アクションを取得し、潜在的な入力が与えられた場合に次のフレームがどのようになるかについての根拠のある推測を生成できる「ダイナミクス モデル」を生成します。最終的なモデルには 9,420 億のトークンでトレーニングされた 107 億のパラメータがありましたが、Genie の結果では、より大きなモデルの方がより良い結果が得られることが示されています。

生成 AI を使用して同様のインタラクション モデルを作成する以前の作業では、機械学習アルゴリズムをガイドするために、「実際のアクション ラベル」またはトレーニング データのテキスト説明を使用していました。 Genie が他の研究と異なる点は、トークン化されたビデオ フレームを数時間だけ使用して、ビデオの背後にある基本的なアクションを推測し、「アクションやテキストの注釈なしでトレーニング」できることです。

「このように大幅に(分布外の)入力に一般化できる能力は、私たちのアプローチの堅牢性と、大量のデータでトレーニングすることの価値を強調するものであり、実際の動作を入力として使用した場合、これは非常に困難である」と Genie チームは研究論文に記している。

コントロールを学ぶ

スケッチ生成

写真

腕のエクササイズ

3. 言及しなければならない重要な制限事項

ラフスケッチから無限のプラットフォームゲームを生成できることに興奮しすぎる前に、覚えておくべき重要な制限がいくつかあります。

さらに、このシステムは現在 1 秒あたり 1 フレームでしか実行されず、リアルタイム再生よりも少なくとも 20 ~ 30 倍遅くなります。数フレームにわたってスムーズなアニメーションを示すサンプル GIF は、リアルタイムで生成するのに 1 分かかった一連のフレームをつなぎ合わせたものです。

Genie チームは、他の AI モデルと同様に、同社のシステムも「将来について非現実的な予測を生み出す」可能性があることを認めています。これは、彼らが共有したいくつかのサンプル GIF で特に顕著です。たとえば、あるデモでは、並行して飛んでいる 2 羽の鳥が突然 1 つの物体に融合し、物理法則に違反していました。また、別の例では、単純なジャンプを完了した後、キャラクターが重力に従って落下せず、浮き始めました。

これらの現象は、Genie が既存のゲーム素材に基づいて動的なシナリオを作成できるものの、現実世界のルールを学習して理解する能力に制限があり、場合によっては生成される結果が論理的に矛盾し非現実的になる可能性があることを示しています。

また、Genie チームがこれまでに公開したサンプルでは、​​ループして最初に戻る前に、アクションのフレームがいくつか (時には非常にぼやけている) 表示されるだけであることに気付いたかもしれません。これは、現在のシステムが最大で「16フレームのメモリ」の分析に制限されているためである可能性が高く、チームは「より長い時間枠にわたって一貫した環境を取得することが困難になる」と述べています。

つまり、システムのメモリ制限により、現在 Genie によって生成されるインタラクティブ環境は、16 フレームを超えると繰り返しになったり一貫性がなくなったりする可能性があり、そのため、より長い連続したゲームシーンを表示できなくなります。

4. 「世界モデル」への一歩

現在の Genie には多くの欠点がありますが、Genie の能力、特に「世界モデル」に対するその重要性を過小評価すべきではありません。

SORA の登場以来、AI が物理レベルから環境の動作ルールをシミュレートして理解できるようになる時期について、人々の関心と好奇心が高まっています。 Meta社の主任科学者LeCun氏は、Soraは「世界モデル」を実装することはできず、生成されたビデオがいかにリアルであっても、Soraが物理世界を理解しているわけではないと主張した。

しかし、Genie は違います。静止画像から始めても、Genie はプレイヤー キャラクターとゲームの背景を区別できるようです。そのため、観察されたオブジェクトのどの部分が一般的に制御可能かを理解し、生成された環境で一貫したさまざまな潜在的なアクションを推測することもできます。これは、ビデオトレーニングデータを解釈するために人間のガイダンスやアクションラベルからの支援を一切受けないモデルにとって、大きな進歩です。

Genie チームは、研究者たちはこの技術を使って「さまざまなアプリケーションで使用できる低レベルの制御可能なシミュレーションを備えた、ロボット工学の基礎となる世界モデルを作成する」ことを期待していると述べました。 Genie テクノロジー + 具現化された知能が無限の想像力を解き放つ可能性があることがわかります。

DeepMind の研究者たちは、この強力な世界モデル機能が人工知能の分野全体にどのような意味を持つのかをすでに見据えています。 DeepMind の研究科学者 Jack Parker-Holder 氏は X で、Genie は「AGI のトレーニングに必要な豊かで多様な環境を生成する実現可能な道筋」を示していると興奮気味に語りました。

写真

DeepMind の Richard Song 氏は、Genie は研究者が「汎用 (強化学習) エージェントのトレーニングに必要な、多数の多様なビデオゲーム環境」を生成するために必要な「無限のジェネレーター」につながる可能性があると付け加えた。

このプロジェクトは Google の外でも話題になり始めている。 Nvidia の AI 研究者 Jim Fan 氏は、Genie は「実際にアクションを推測する正しいアクション駆動型の世界モデル」であるため、いくつかの点で OpenAI の Sora ビデオ モデルを改良していると指摘しました。

こうした予測が当たるかどうかはともかく、このプロジェクトを間近で見た人たちの間で巻き起こった興奮を無視するのは難しい。 「このプロジェクトを見た時の私の反応は『ああ、これは最近見た中で最もクールなプロジェクトだ、超わくわくする!』でした」とディープマインドのルーカス・ベイヤー氏は書いている。

写真

5. 最後に

現代の認知科学では、人間は心の中に周囲の現実世界の抽象的なモデルを構築しており、これを「世界モデル」と呼ぶと考えられています。 「世界モデル」の問題は常に人工知能研究の焦点となってきました。しかし、大規模なモデルが世界に対する理解をどの程度深めることができるかについては、二極化した議論が巻き起こっています。

SORA の登場以来、AI が物理レベルから環境の動作ルールをシミュレートして理解できるようになる時期について、人々の関心と好奇心が高まっています。 Meta社の主任科学者LeCun氏は、Soraは「世界モデル」を実装することはできず、生成されたビデオがいかにリアルであっても、Soraが物理世界を理解しているわけではないと主張した。

今、ジーニーが誕生しました。もしソラがハリウッドを転覆させることができるなら、ジーニーはAIがブリザードと任天堂に正面から立ち向かう可能性を示している。

Tik Tok は、アルゴリズムを使用してコンテンツを推奨することで、前時代の王者になりました。未来が来ます。将来のコンテンツの制作と消費は AI によって完全に制御されるようになるのでしょうか?

参考リンク:

https://sites.google.com/view/genie-2024/home

https://arstechnica.com/gadgets/2024/03/googles-genie-model-creates-interactive-2d-worlds-from-a-single-image/

<<:  Claude3はマイクロソフトとOpenAIに警鐘を鳴らした

>>: 

ブログ    
ブログ    

推薦する

TSMC、7nmチップの商業生産を開始

TSMCのCEOである魏哲佳氏は、TSMCの7nm生産能力の増加が予想よりも遅いという最近の憶測を否...

HKU などが GraphGPT をリリース: パラメータを 1/50 に微調整し、精度を 10 倍向上! LLMは長いトークンなしでグラフ構造を理解できる

グラフニューラルネットワークは、グラフ構造のデータを分析および学習するための強力なフレームワークとな...

OpenAIを去った偉人カパシ氏は「教え始めた」。おなじみのミニコードスタイルのまま、新しいプロジェクトが日々増えている。

偉大なカルパシー氏はOpenAIを辞任し、当初は1週間の休暇を取ると脅していた。写真しかし、瞬く間に...

Keras でカスタム損失関数を作成する方法は?

[[284375]] UnsplashのDhruv Deshmukhによる写真損失関数を使用して、...

顔認識の背後にあるもの:怖いのは技術ではなく…

以前、AI顔変換ソフトウェアZAOが一夜にして人気を博したことで、サーバーが「満杯になって崩壊」する...

LeCun 氏と xAI 共同創設者の衝突: GPT-4 の主要な推論欠陥に対する解決策はないのか?ネットユーザー:人間も「ランダムなオウム」

最近、ルカン氏を含む一群の大物が再びLLMを攻撃し始めた。最新のブレークスルーは、LLM にはまった...

...

...

人工知能の技術的・経済的特徴とその「活性化効果」

人工知能(AI)とは、人間の知能をシミュレート、拡張、拡大するための理論、方法、技術、アプリケーショ...

AIは病気の予防に役立つ

手術室で外科医をサポートするロボットや、X 線や MRI 画像の評価を支援するソフトウェアが登場して...

パスワードバスター:機械学習

コンピュータの誕生以来、ユーザー名とパスワードは最も基本的なアクセス制御および ID 認証の方法でし...

Appleが記者会見でFaceIDを発表。あなたは顔認識機能を使ってみますか?

[[203619]] 「もし私が諜報員だったら、生体認証機能をオンにすることは絶対にありません。」...

200語あれば本一冊分は読める。GPT-3はすでに小説の要約を書くことができる

[[425896]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

2020年の新自動運転技術レポートが公開されました!

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

アレックス・グレイブス氏の新しい論文「ベイジアンフローネットワーク」は離散データ生成の問題を解決しており、論文全体が数式でいっぱいである。

最近、大規模なニューラル ネットワークが生成モデルに革命をもたらし、高解像度画像内のすべてのピクセル...