「Google版SORA」はぼやけたグラフィックで嘲笑されたが、世界シミュレーターとして新たな一歩を踏み出した。

インタラクティブな仮想世界を作成するために使用される、Google の 110 億のパラメータ Genie が登場しました。

重要なポイント: トレーニングにビデオ監視は不要、1 枚の画像を与えるだけでプレイ可能な 2D 仮想世界を生成可能、このインタラクティブな仮想世界は自律的かつ制御可能。

しかし、最も厄介なのは、Genie の最終結果がぼやけすぎていることです。

このような：

または、次のようになります。

チームはまた、Genie には現時点では限界があり、1FPS でしかゲームを制作できないことも認めました。

ネットユーザーたちは不満を漏らさずにはいられなかった。ソラの効果と比較するのはもちろん、他のヴィンセントの動画やヴィンセントの写真と比べても、「2K」と「480p」の間にはギャップがある。

面白そうに見えますが、うーん、なんというか、画質やスタイルが 1980 年代のゲームっぽいです。

しかし、ジーニーのために立ち上がった人もいました。

たとえば、Nvidia の科学者 Jim Fan 氏は次のように明言しています。

ソラとは異なり、ジーニーは実際にはアクションを推測し、正しいアクションを実行できる世界のモデルです。

Genie チームの責任者である Tim Rocktäschel 氏は熱く語り、これ(Genie)は AGI の一般的な世界モデルに向けた有望な一歩であると信じていると述べました。

彼は、世界を代表するモデル擁護者、ヤン・ルカンのツイートを引用し、次のように述べた。

「OpenAIのSoraが世界を驚かせたのは事実だが、LeCun氏が言ったように、世界モデルには行動が必要だ。」

画質は一言で言えば、ぼやけている

話を元に戻しましょう。

Genie の魔法を視覚的に体験し、レンダリングを見てみましょう。

これは公式の例です:

現実世界の写真を Genie に取り込むと、アニメーション化されて無限の仮想世界に変換されます。

公園に来た小さな黄色い犬の様子です。

そして城の戦士たちは突進した。

Genie チームは Imagen2 を使用して画像を生成し、それを Genie に送信します。 Genie は画像を開始フレームとして使用し、次の効果を生成します。

研究チームによると、Genie は AI の絵画を運転の開始フレームとして使用できるだけでなく、人間の傑作を使っても同じ効果を実現できるという。

たとえば、これは子供が描いた絵です。

ジーニーに投げると、ワシが飛び立つような効果が得られます。

これも子供の落書きですが、Genie で処理しました。

上記の公式エフェクトでは、画質が明らかに異なることがわかります。

一部のネットユーザーが、これらのデモは 700 度の近視の人がメガネを外して世界を見ているように見えると言ったのも不思議ではありません。

なぜ出力が超高解像度ではないのかと多くの人から質問がありましたが、まだ回答はありません。

ぼやけた画質に加えて、Genie に関するもう 1 つの問題点は、ネットユーザーがデモが短すぎると感じていることです。

平均すると、それぞれ 2 秒未満続きます。

多くの人が不安を抱いています。

1分間のデモを見せてもらえますか？ ? ?または、少なくとも 3 秒より長かったらどうなるか見てみましょう。

しかし、明らかにぼやけた画質と短い持続時間にもかかわらず、Genie は驚くべき新しい研究です。

結局のところ、幼稚園児を含め、誰でも世界を描き、そこに参加し、探検を始めることができるのです。

友人の中には、将来、ジーニーが「誰もが満足し、充実感を感じられる、無限に生成される世界」を創造できるようになるだろうとすでに想像している人もいる。

瞬く間に、AIは次の単語を生成する段階から次の世界を生成する段階へと進化しました。

ジーニー、普遍的なアプローチ

幸いなことに、Google DeepMind は Genie に関する論文「Genie: Generative Interactive Environments」を発表しました。

この論文では、Genie がインターネットビデオから教師なしで学習し、インタラクティブな仮想世界を生成できる 11B パラメータのインタラクティブ環境生成モデルであることを示しています。

さらに、Genie はテキスト、画像、写真、さらには手描きのスケッチから最終的なインタラクティブな仮想世界を生成することができます。

Genie 全体は、次の 3 つの主要コンポーネントで構成されています。

潜在行動モデル（LAM） ;
ビデオトークナイザー;
ポテンシャルダイナミクスモデル。

その中で、潜在アクションモデルは、各フレームのペア間の潜在アクションを推測するために使用されます。

ビデオ生成を制御可能にするために、Google DeepMind は前のフレームで実行されたアクションを使用して将来のフレームを予測します。

このようなアクションラベルはインターネットビデオではほとんど利用できず、アクション注釈を取得するコストは非常に高いため、チームは潜在的なアクションを完全に教師なしで学習します。

つまり、Genie のトレーニングでは、アクションラベルデータを一切使用せずに、公開されている大量のインターネットビデオデータセットを使用しました。

ビデオトークナイザーの役割は、元のビデオフレームを個別のトークンに変換することです。

3 つのコンポーネントのうちの 3 番目である潜在ダイナミクスモデルは、潜在的なアクションと過去のフレームのトークンに基づいて、ビデオの次のフレームを予測するために使用されます。

この論文では、トレーニングの過程で、20万時間を超えるインターネットゲームビデオがトレーニングデータとして使用されたことが紹介されています。

これらのデータセットは、2D プラットフォームゲームのビデオクリップが含まれるようにキュレーションされています。

最終的に、推論プロセスは次のようになります。

Genie では、潜在的なアクションを通じて、生成された環境でユーザーが対話できることに注目する価値があります。

これらのアクションは因果アクションモデルを介して学習され、ユーザーは潜在的なアクションを指定してビデオ生成プロセスを制御できます。

ユーザーは潜在的なアクションを通じて生成された環境と対話し、新しい動的なビデオコンテンツを作成します。

これが、Google が Genie がジェネラルエージェントを実現するための基礎であると考えている理由の 1 つです。

これまでの研究では、ゲーム環境は AI エージェントの開発に効果的なテストプラットフォームになり得ることが示されていますが、実際には利用可能なゲームの数によって制限されることがよくあります。

Genie を使用すると、将来の AI エージェントは新しく生成された世界で無限にトレーニングできます。

ちなみに、この論文では「Genie が学習した潜在的な行動は実際の人間の環境に転送できる」という概念実証が示されていますが、これは将来実現するかもしれないことです。

Google も自社の立場を明確にしており、Genie は一般的なアプローチであると述べています。

つまり、Genie のトレーニングデータは主に 2D ゲームビデオやロボットビデオですが、追加のドメイン知識がなくても Genie を複数の分野に適用できます。

このアイデアをテストするために、Google は RT1 のモーションフリー動画でわずか 25 億の小規模モデルをトレーニングしました。

同じ潜在アクションシーケンスを持つ軌跡は、多くの場合、同様の動作を示すことがわかります。つまり、Genie は一貫したアクション空間を学習できます。

これはロボットの訓練や具現化された知能にとっても素晴らしいニュースです。

最後に、ジーニーの研究チームを見てみましょう〜

チームは多様な人々で構成されており、Jake Bruce、Michael Dennis、Ashley Edwards、Jack Parker-Holder、Yuge (Jimmy) Shi、Tim Rocktäschel の 6 人がこのプロジェクトに協力しています。

ユゲ（ジミー）・シーは、オーストラリア国立大学で学士号を取得し、2023年にオックスフォード大学で機械学習の博士号を取得した中国人です。

彼女は以前Meta AIでインターンをしており、2023年3月にGoogle DeepMindに入社しました。

さらに、研究チームのメンバーの多くは、Google DeepMind のOpen-Endednessチームのメンバーです。

研究チームには、ブリティッシュコロンビア大学のコンピューターサイエンスの准教授が含まれており、同准教授はGoogle DeepMindの上級研究コンサルタントも務めている。

彼はツイッターで黒板を叩いてこう言った。

えーん、注意してください、今見ている精霊は最悪のケースです！
すぐに完璧になると信じています。

参考リンク:
[1]https://sites.google.com/view/genie-2024/home.

[2] https://arxiv.org/pdf/2402.15391.pdf.

<<: AI がデータセンターを持続可能性の原動力に変える方法

>>: マイクロソフトがバックアップとして OpenAI を選択: GPT-4 レベルの大規模モデルはオンラインになるとすぐに爆発的に増加し、コストはわずか 2,200 万ドル

AIはオミクロン変異体の構造を1時間で予測、誤差は原子直径の半分のみ

ブログ

LLM評価レビュー論文が出版され、3つの側面から包括的にまとめられ、データベースも掲載されている

ブログ

指先で操作できる人工知能（基礎編）

ブログ

機械学習がゲームにおける物理シミュレーションに革命をもたらす

ブログ

人工知能は教育の未来を変える：私たちをより賢くする

ブログ

AIが企業の採用ルールをどう変えるのか

ブログ

AI の専門家に転身した男性の感動的なストーリー。素人から Alibaba Cloud で最優秀賞を獲得するまで、彼が経験した落とし穴は 100 日間で学ぶには十分です。

ブログ

クロスカメラトラッキングと「スマート」な眼認識技術戦略の研究と実装

ブログ

AIはあなたの建物をスマートで健康的な建物にします

ブログ

「Google版SORA」はぼやけたグラフィックで嘲笑されたが、世界シミュレーターとして新たな一歩を踏み出した。

画質は一言で言えば、ぼやけている

ジーニー、普遍的なアプローチ

AIはオミクロン変異体の構造を1時間で予測、誤差は原子直径の半分のみ

LLM評価レビュー論文が出版され、3つの側面から包括的にまとめられ、データベースも掲載されている

指先で操作できる人工知能（基礎編）

機械学習がゲームにおける物理シミュレーションに革命をもたらす

人工知能は教育の未来を変える：私たちをより賢くする

AIが企業の採用ルールをどう変えるのか

AI の専門家に転身した男性の感動的なストーリー。素人から Alibaba Cloud で最優秀賞を獲得するまで、彼が経験した落とし穴は 100 日間で学ぶには十分です。

クロスカメラトラッキングと「スマート」な眼認識技術戦略の研究と実装

AIはあなたの建物をスマートで健康的な建物にします

推薦する

生成AI技術：医師の燃え尽き症候群を軽減する新たな希望

春の耕作が進むにつれ、農業ロボットが近代的な農業システムの形成に貢献している

人工知能と機械学習が進化する10の方法

光と闇：人工知能と人類の未来

AIプログラマーの負担を軽減！マイクロソフト、スケーラブルなインテリジェンスをサポートするためにディープラーニングライブラリ SynapseML を導入

Keras 対 PyTorch: どちらが「ナンバーワン」のディープラーニングフレームワークでしょうか?

機械学習は増加傾向にありますが、そのアルゴリズムの結果は公正なのでしょうか?

70年前、彼は試験を避けたかったが、インターネット全体に影響を与えた

Nature: 科学者がディープラーニングを使って初めて人間の意識を定量化

AI と ROI に関する真実: AI は本当に成果をもたらすことができるのか?

PyTorch 1.0 プレビューがリリースされました: Facebook の最新のオープンソース AI フレームワーク

1秒で元の写真に戻る: Adobe Photoshop のリバースツールは、編集した場所を認識して修正するのに役立ちます

2020年のAIの7つの開発トレンド