ランウェイが次期ユニバーサルワールドモデルを正式発表！ビデオ AI の最大の問題を解決するには、AI に頼って世界をシミュレートするのでしょうか?

AIビデオトラックのPika 1.0は最近非常に人気があります。2人の中国人創業者のチームが半年で作ったこの製品は、Runwayの約2年の開発成果をほぼ打ち負かしました。

ピカの執拗な圧力に直面して、ランウェイは広報面で少なくともいくらかの地位を取り戻す努力をするだろうと私は思ったが、ランウェイの対応戦略は次のような発表だった。

あなたと競争するつもりはありません。私の目標は星の海です。

Runway は本日、一般世界モデルを作成し、Gen AI を使用して世界全体をシミュレートすることを正式に発表しました。

一般世界モデル (GWM)

私たちは、AI の次の大きな進歩は視覚世界とそのダイナミクスを理解するシステムから生まれると信じており、それが一般的な世界モデルに関する新たな長期研究の取り組みを開始している理由です。

世界モデルとは、AI システムが環境について内部的に理解するものです。環境に関する理解を活用して、その環境で起こり得る将来の出来事をシミュレートできます。

現在まで、世界モデルの研究は主に、ビデオゲームのようなシミュレーションや運転などの特定の領域など、非常に限定され制御された環境に限られてきました。

一般的な世界モデルの目標は、現実世界と同じくらい幅広く多様なシナリオと相互作用を提示し、シミュレートできるようにすることです。

Runway の見解では、Gen-2 のようなビデオ生成システムは、一般的な世界モデルの非常に初期段階かつ限定的なバージョンと見ることができます。

リアルな短編動画を生成するには、Gen-2 が物理学と力学をある程度理解する必要があります。

ただし、複雑なカメラの動きやオブジェクトの動きなどの問題を処理するには、依然として限界があります。

真に一般的な世界モデルを構築するには、多くの未解決の研究課題に直面します。その 1 つは、これらのモデルが環境の一貫したマップを生成でき、その環境内を移動して対話する機能を持つ必要があることです。

彼らは、世界の動的な変化を捉えるだけでなく、そこに住む人々の行動のダイナミクスを理解する必要があり、そのためには現実に近い人間行動モデルを構築する必要があります。

私たちはこれらの課題に取り組むためのチームを構築しており、私たちの研究活動に参加することにご興味がおありでしたら、ぜひご参加ください。

Runway のワールドモデル宣言の場合は、次のように翻訳できます。

現在、当社の AI ビデオ生成システムは、次のような奇妙なコンテンツを多数含むビデオを生成できます。

それで、

あるいはこれ:

LLM が幻覚を生み出し、存在しないコンテンツを作り出すのと同じように、生のビデオ AI も現実世界を理解する方法がないため、多くの奇妙な動きや画像を生成します。

このような状況に直面して、Runway には良い解決策がないように思われるため、この問題を解決するために人材を募集する必要があります。

簡単に言えば、AIが客観世界を理解し、客観世界の動きや発展の法則に従って動画を生成できるようにすることです。

もっと広い意味で言えば、この課題の解決にご協力いただければ、Runway は AI が動画を生成するツールになるだけでなく、客観世界の原理や法則に従って、現実世界と整合性の高い新しい世界を生成することも可能になります。

この新しい世界では、現実世界で起こり得るあらゆることをシミュレートできます。

AIがそのような能力を持つことができれば、さまざまな場所での応用シナリオや可能性が生まれ、より大きなことを実現できるようになります。

ピカは？彼らはただ映画を作るためのツールを作りたいだけだと言っていませんでしたか？私たちはまったく同じ方向に進んでいません。

世界モデルとは一体何でしょうか?

現在の AI システムが私たちが住む世界を理解できるかどうかについては、まだほとんどわかっていません。

チューリングの巨匠ルカン氏は、現法学修士課程の学生を、天文学や地理学については何でも知っているようだが、3歳児の理解力も持ち合わせていないと常に嘲笑している。

他の科学者たちも、LLM がすでに何らかの方法で世界を理解できることを確認しています。

ルカン自身が世界を理解できるように強く主張する「世界モデル」は、まだほとんどPPT上に残る概念であり、現実に実装する道筋はまだ見つかっていないようです。

ネットユーザーの間で熱い議論

これに対して、一部のネットユーザーは、これは人工知能の進化における次の論理的なステップだと述べた。

これが AGI を実現する唯一の方法であるとさえ考えられています。LLM やその他のニューラルネットワークシステムは椅子を簡単に記述できますが、世界モデルは「椅子を体験」できるようになります。

<<:

>>: 表の数学的推論の正解率は98.78%です！ UCLA が新しい「カメレオン推論フレームワーク」を発表

4分！ OpenAIのロボットハンドは、プログラミングなしで完全に独学で、片手でルービックキューブを解くことを学習しました。

ブログ

最強のやつでもGPT-4Vに合格できないの？大学入試をベースとしたテストベンチマーク「MMMU」が誕生

ブログ

2023 年のネットワークパーティション: AI と自動化が状況をどのように変えるか

ブログ

DeepFakeはもう人々を騙せません！米国の大手テクノロジー企業7社が共同でAI生成コンテンツに透かしを追加

ブログ

人工知能のこれらの5つのトレンドが世界に影響を与えることは注目に値する。

ブログ

顔認識は安全ですか?どのような個人情報を慎重に保護すべきでしょうか?

ブログ

AlphaGO よりも強力な人工知能アルゴリズムが登場しました!まさに中国です！

ブログ

従来のモデルに別れを告げて、機械学習がディープラーニングへとどのように移行していくのかを見てみましょう。

ブログ

決まりました！国は人工知能に関する重要なニュースを発表し、これらの人々は集団的に失業することになるだろう...

ブログ

ランウェイが次期ユニバーサルワールドモデルを正式発表！ビデオ AI の最大の問題を解決するには、AI に頼って世界をシミュレートするのでしょうか?

一般世界モデル (GWM)

世界モデルとは一体何でしょうか?

ネットユーザーの間で熱い議論

4分！ OpenAIのロボットハンドは、プログラミングなしで完全に独学で、片手でルービックキューブを解くことを学習しました。

最強のやつでもGPT-4Vに合格できないの？大学入試をベースとしたテストベンチマーク「MMMU」が誕生

2023 年のネットワークパーティション: AI と自動化が状況をどのように変えるか

DeepFakeはもう人々を騙せません！米国の大手テクノロジー企業7社が共同でAI生成コンテンツに透かしを追加

人工知能のこれらの5つのトレンドが世界に影響を与えることは注目に値する。

顔認識は安全ですか?どのような個人情報を慎重に保護すべきでしょうか?

AlphaGO よりも強力な人工知能アルゴリズムが登場しました!まさに中国です！

従来のモデルに別れを告げて、機械学習がディープラーニングへとどのように移行していくのかを見てみましょう。

決まりました！国は人工知能に関する重要なニュースを発表し、これらの人々は集団的に失業することになるだろう...

推薦する

ブロックチェーン + AI、完璧な組み合わせですね?

交通渋滞の解決、放射線の監視、現場での捜索救助...ドローンにはどんな素晴らしい用途があるのでしょうか?

LSTM は惨めに失敗しました!ある少年が時系列モデルを使って恋人の感情を予測した4ページの論文を発表した。

Googleの研究ディレクターはスタンフォード大学で教鞭をとり、「人工知能：現代的アプローチ」の著者でもある。

基本的なプログラミングアルゴリズムを簡単に習得する（I）

Google の自動運転車は「先天的な欠陥」があるが、その商品化は「中止」の運命を免れるだろうか?

ChatGPTの背後にある技術的進化を分析する

百度がナレッジグラフをひっそりとリリース、次世代検索エンジンのプロトタイプを公開

情報の流れの中のゲーム：「易典子心」の探求と思考

知湖橋プラットフォームにおける大型モデルの応用と実践

メタバースの錬金術には物理の基本法則が必要です! Nvidia副社長：現実世界のデータトレーニングは不要

AI + データサイエンス: スポーツ業界を変える6つの方法

マイクロソフトの新しい AI テクノロジー: プロフィール写真を動かして感情を「伝える」

2020 年の人工知能に関するトップ 10 の予測

Python 用 OpenCV について Dlib を使って顔検出を実装する