「Google版SORA」はぼやけたグラフィックで嘲笑されたが、世界シミュレーターとして新たな一歩を踏み出した。

「Google版SORA」はぼやけたグラフィックで嘲笑されたが、世界シミュレーターとして新たな一歩を踏み出した。

インタラクティブな仮想世界を作成するために使用される、Google の 110 億のパラメータ Genie が登場しました。

重要なポイント: トレーニングにビデオ監視は不要、1 枚の画像を与えるだけでプレイ可能な 2D 仮想世界を生成可能、このインタラクティブな仮想世界は自律的かつ制御可能。

しかし、最も厄介なのは、Genie の最終結果がぼやけすぎていることです。

このような:

または、次のようになります。

チームはまた、Genie には現時点では限界があり、1FPS でしかゲームを制作できないことも認めました。

ネットユーザーたちは不満を漏らさずにはいられなかった。ソラの効果と比較するのはもちろん、他のヴィンセントの動画やヴィンセントの写真と比べても、「2K」と「480p」の間にはギャップがある。

面白そうに見えますが、うーん、なんというか、画質やスタイルが 1980 年代のゲームっぽいです。

しかし、ジーニーのために立ち上がった人もいました。

たとえば、Nvidia の科学者 Jim Fan 氏は次のように明言しています。

ソラとは異なり、ジーニーは実際にはアクションを推測し、正しいアクションを実行できる世界のモデルです。

Genie チームの責任者である Tim Rocktäschel 氏は熱く語り、これ(Genie)は AGI の一般的な世界モデルに向けた有望な一歩であると信じていると述べました。

彼は、世界を代表するモデル擁護者、ヤン・ルカンのツイートを引用し、次のように述べた。

「OpenAIのSoraが世界を驚かせたのは事実だが、LeCun氏が言ったように、世界モデルには行動が必要だ。」

画質は一言で言えば、ぼやけている

話を元に戻しましょう。

Genie の魔法を視覚的に体験し、レンダリングを見てみましょう。

これは公式の例です:

現実世界の写真を Genie に取り込むと、アニメーション化されて無限の仮想世界に変換されます。

公園に来た小さな黄色い犬の様子です。

そして城の戦士たちは突進した。

Genie チームは Imagen2 を使用して画像を生成し、それを Genie に送信します。 Genie は画像を開始フレームとして使用し、次の効果を生成します。

研究チームによると、Genie は AI の絵画を運転の開始フレームとして使用できるだけでなく、人間の傑作を使っても同じ効果を実現できるという。

たとえば、これは子供が描いた絵です。

ジーニーに投げると、ワシが飛び立つような効果が得られます。

これも子供の落書きですが、Genie で処理しました。

上記の公式エフェクトでは、画質が明らかに異なることがわかります。

一部のネットユーザーが、これらのデモは 700 度の近視の人がメガネを外して世界を見ているように見えると言ったのも不思議ではありません。

なぜ出力が超高解像度ではないのかと多くの人から質問がありましたが、まだ回答はありません。

ぼやけた画質に加えて、Genie に関するもう 1 つの問題点は、ネットユーザーがデモが短すぎると感じていることです。

平均すると、それぞれ 2 秒未満続きます。

多くの人が不安を抱いています。

1分間のデモを見せてもらえますか? ? ?または、少なくとも 3 秒より長かったらどうなるか見てみましょう。

しかし、明らかにぼやけた画質と短い持続時間にもかかわらず、Genie は驚くべき新しい研究です。

結局のところ、幼稚園児を含め、誰でも世界を描き、そこに参加し、探検を始めることができるのです。

友人の中には、将来、ジーニーが「誰もが満足し、充実感を感じられる、無限に生成される世界」を創造できるようになるだろうとすでに想像している人もいる。

瞬く間に、AIは次の単語を生成する段階から次の世界を生成する段階へと進化しました。

ジーニー、普遍的なアプローチ

幸いなことに、Google DeepMind は Genie に関する論文「Genie: Generative Interactive Environments」を発表しました。

この論文では、Genie がインターネット ビデオから教師なしで学習し、インタラクティブな仮想世界を生成できる 11B パラメータのインタラクティブ環境生成モデルであることを示しています。

さらに、Genie はテキスト、画像、写真、さらには手描きのスケッチから最終的なインタラクティブな仮想世界を生成することができます。

Genie 全体は、次の 3 つの主要コンポーネントで構成されています。

  • 潜在行動モデル(LAM) ;
  • ビデオトークナイザー;
  • ポテンシャルダイナミクスモデル

その中で、潜在アクション モデルは、各フレームのペア間の潜在アクションを推測するために使用されます。

ビデオ生成を制御可能にするために、Google DeepMind は前のフレームで実行されたアクションを使用して将来のフレームを予測します。

このようなアクションラベルはインターネットビデオではほとんど利用できず、アクション注釈を取得するコストは非常に高いため、チームは潜在的なアクションを完全に教師なしで学習します。

つまり、Genie のトレーニングでは、アクション ラベル データを一切使用せずに、公開されている大量のインターネット ビデオ データセットを使用しました。

ビデオ トークナイザーの役割は、元のビデオ フレームを個別のトークンに変換することです。

3 つのコンポーネントのうちの 3 番目である潜在ダイナミクス モデルは、潜在的なアクションと過去のフレームのトークンに基づいて、ビデオの次のフレームを予測するために使用されます。

この論文では、トレーニングの過程で、20万時間を超えるインターネットゲームビデオがトレーニングデータとして使用されたことが紹介されています。

これらのデータセットは、2D プラットフォーム ゲームのビデオ クリップが含まれるようにキュレーションされています。

最終的に、推論プロセスは次のようになります。

Genie では、潜在的なアクションを通じて、生成された環境でユーザーが対話できることに注目する価値があります。

これらのアクションは因果アクション モデルを介して学習され、ユーザーは潜在的なアクションを指定してビデオ生成プロセスを制御できます。

ユーザーは潜在的なアクションを通じて生成された環境と対話し、新しい動的なビデオ コンテンツを作成します。

これが、Google が Genie がジェネラル エージェントを実現するための基礎であると考えている理由の 1 つです。

これまでの研究では、ゲーム環境は AI エージェントの開発に効果的なテスト プラットフォームになり得ることが示されていますが、実際には利用可能なゲームの数によって制限されることがよくあります。

Genie を使用すると、将来の AI エージェントは新しく生成された世界で無限にトレーニングできます。

ちなみに、この論文では「Genie が学習した潜在的な行動は実際の人間の環境に転送できる」という概念実証が示されていますが、これは将来実現するかもしれないことです。

Google も自社の立場を明確にしており、Genie は一般的なアプローチであると述べています。

つまり、Genie のトレーニング データは主に 2D ゲーム ビデオやロボット ビデオですが、追加のドメイン知識がなくても Genie を複数の分野に適用できます。

このアイデアをテストするために、Google は RT1 のモーションフリー動画でわずか 25 億の小規模モデルをトレーニングしました。

同じ潜在アクションシーケンスを持つ軌跡は、多くの場合、同様の動作を示すことがわかります。つまり、Genie は一貫したアクション空間を学習できます。

これはロボットの訓練や具現化された知能にとっても素晴らしいニュースです。

最後に、ジーニーの研究チームを見てみましょう〜

チームは多様な人々で構成されており、Jake Bruce、Michael Dennis、Ashley Edwards、Jack Parker-Holder、Yuge (Jimmy) Shi、Tim Rocktäschel の 6 人がこのプロジェクトに協力しています。

ユゲ(ジミー)・シーは、オーストラリア国立大学で学士号を取得し、2023年にオックスフォード大学で機械学習の博士号を取得した中国人です。

彼女は以前Meta AIでインターンをしており、2023年3月にGoogle DeepMindに入社しました。

さらに、研究チームのメンバーの多くは、Google DeepMind のOpen-Endednessチームのメンバーです。

研究チームには、ブリティッシュコロンビア大学のコンピューターサイエンスの准教授が含まれており、同准教授はGoogle DeepMindの上級研究コンサルタントも務めている。

彼はツイッターで黒板を叩いてこう言った。

えーん、注意してください、今見ている精霊は最悪のケースです!
すぐに完璧になると信じています。

参考リンク:
[1]https://sites.google.com/view/genie-2024/home.

[2] https://arxiv.org/pdf/2402.15391.pdf.

<<:  AI がデータセンターを持続可能性の原動力に変える方法

>>:  マイクロソフトがバックアップとして OpenAI を選択: GPT-4 レベルの大規模モデルはオンラインになるとすぐに爆発的に増加し、コストはわずか 2,200 万ドル

推薦する

自動運転車の安全性保証、検証、認証の見直し

2022年2月6日にarXivにアップロードされたレビュー論文「自動運転車の安全性保証、検証、認証:...

2022 年のビジネス インテリジェンスの 7 つのトレンド

ビジネス インテリジェンスは AI に置き換えられることはありません。BI は今でも存在し、役立って...

ケビン・ケリーがAIブームを解説:超人的なAIを暴く5つの神話

人工知能は非常に人気が高まっているため、ニュースで報道される超知能に関する予測が実現可能なものなのか...

一人称視点でガンダムを運転する? !コックピットに直接座り、VRを操作して材料を掴む。掘削機よりも柔軟。

日本のアニメに詳しい友人なら、間違いなくメカウォーズにも詳しいでしょう。たとえば、最も人気があり愛さ...

2040枚の画像で訓練されたViTの精度は96.7%で、移行パフォーマンスも驚異的だ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ゲームに「顔認識」を追加したことで生まれた考え

最近、国内で人気の「チキン早食い」ゲームに「顔認識システム」が導入され、大きな論争を巻き起こした。多...

人工知能は都市をよりインテリジェントに発展させる力を与える

人工知能などのハイテク手段を基盤として構築された都市脳は、都市の経済発展のための「ブラックテクノロジ...

AI ロボットは製造業にどのような変化をもたらすのでしょうか?

AIロボットとは?人工知能 (AI) ロボットは、現実世界の環境で動作する人工知能エンティティです...

...

登ったり、ジャンプしたり、狭い隙間を通り抜けたり:オープンソースの強化学習戦略により、ロボット犬がパルクールを行えるようになる

パルクールはエクストリームスポーツであり、複雑な環境におけるさまざまな障害物を素早く克服する必要があ...

8つの予測分析ツールの比較

予測分析ツールとは何ですか?予測分析ツールは、人工知能とビジネスレポートを融合します。これらのツール...

...

ファーウェイ、次世代スマート製品戦略と新+AIシリーズ製品を発表

[中国、上海、2019年9月18日] ファーウェイはHUAWEI CONNECT 2019で、Eng...

...