NTU Yu Yangによる徹底分析：「世界モデル」とは何か？

メディアがSoraを大々的に宣伝するなか、OpenAIの紹介資料ではSoraを「世界シミュレーター」と呼び、世界モデルという言葉が再び目につきましたが、世界モデルを紹介する記事はほとんどありませんでした。

ここでは、世界モデルとは何かを確認し、Sora が世界シミュレーターであるかどうかについて説明します。

世界モデルとは何ですか?

AI の分野で「世界」や「環境」という言葉が使われる場合、それは通常、それをインテリジェントエージェントと区別するためです。

インテリジェントエージェントを最も研究している分野は、強化学習とロボット工学です。

したがって、世界モデルと世界モデリングは、ロボット工学の分野の論文に最初に、そして最も頻繁に登場することがわかります。

現在、「世界モデル」という用語は、Jurgen が 2018 年に arxiv に投稿した「世界モデル」という記事に最も大きな影響を与えている可能性があります。この記事は最終的に、「Recurrent World Models Facilitate Policy Evolution」というタイトルで NeurIPS'18 に掲載されました。

この論文では、ワールドモデルが何であるかを定義していませんが、認知科学における人間の脳のメンタルモデルとの類似性を引き出し、1971 年の論文を引用しています。

メンタルモデルは人間の脳が周囲の世界を映し出す鏡像である

Wikipedia で紹介されているメンタルモデルは、それが認知、推論、意思決定のプロセスに関与している可能性があることを明確に指摘しています。メンタルモデルには、主に「メンタル表現」と「メンタルシミュレーション」という 2 つの部分が含まれます。

外部現実の内部表現であり、認知、推論、意思決定に大きな役割を果たすと仮定されています。この用語は、1943 年にケネスクレイクによって造られ、脳は出来事を予測するために使用する現実の「小規模モデル」を構築すると提唱されました。

これまでの議論はまだ漠然としていますが、論文の構造図では世界モデルが何であるかが明確に説明されています。

図の垂直方向の V->z は観測値の低次元表現で、VAE によって実装されています。水平方向の M->h->M->h は、次の瞬間に予測されるシーケンスの表現で、RNN によって実装されています。これら 2 つの部分を合わせて世界モデルといいます。

つまり、ワールドモデルには主に状態表現と遷移モデルが含まれており、これらは精神的表現と精神的シミュレーションにも対応しています。

上の図を見ると、これはすべてのシーケンス予測のための世界モデルではないのかと疑問に思うかもしれません。

実は、強化学習に詳しい学生なら、この図の構造が間違っている（不完全である）ことが一目でわかります。実際の構造は下の図のようになります。RNNの入力はzだけでなく、アクションアクションでもあります。これは通常のシーケンス予測ではありません（アクションを追加すると大きく異なりますか？はい、アクションを追加するとデータ分布が自由に変更できるため、大きな課題が生じます）。

Jurgen によるこの論文は強化学習の分野に属します。

さて、強化学習にはモデルベースのRLがたくさんあるのではないでしょうか？モデルと世界モデルの違いは何でしょうか？答えはノーです。同じことです。ユルゲンは最初に一節を述べた

基本的な意味は、モデルベースの強化学習の作業がどれだけあっても、私は RNN の先駆者だということです。モデルとして RNN を使用することを発明したのは私であり、それをやりたいだけなのです。

Jurgen 氏の以前の記事では、モデルベースの RL についても詳しく説明しました。モデルは学習しましたが、そのモデルで RL を完全にトレーニングしたわけではありません。

RL がモデル内で完全にトレーニングされない理由は、実際にはモデルベース RL のモデルに何らかの違いがあるためではなく、むしろモデルベース RL の方向性に対する長年の不満、つまりモデルの精度が十分でなく、モデル内で完全にトレーニングされた RL 効果が非常に低いためです。この問題は近年まで解決されていませんでした。

賢明なサットンは、モデルの不正確さの問題をずっと以前に認識していました。 1990 年に、Dyna フレームワークを提案した論文「Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming」(ワークショップから変遷した最初の会議である ICML で発表) では、このモデルをアクションモデルと呼び、アクション実行の結果の予測を強調しました。

RL は、不正確なモデルが原因で戦略が適切に学習されないことを防ぐために、モデルから学習しながら (行 5)、実際のデータから学習します。

ご覧のとおり、世界モデルは意思決定にとって非常に重要です。正確な世界モデルを入手できれば、世界モデル内で試行錯誤することで、現実に最適な決定を見つけることができます。

これが世界モデルの中核機能、つまり反事実的推論です。つまり、データでは確認されていない決定であっても、その決定の結果を世界モデルで推測することができます。

因果推論を理解している学生は、反事実的推論という用語に馴染みがあるでしょう。チューリング賞受賞者のジュディア・パールによる人気科学書「The Book of Why」では、因果関係の階段が描かれています。最下層は「関連付け」で、これは今日のほとんどの予測モデルが行っていることです。中間層は「介入」で、強化学習における探索は典型的な介入です。最上層は反事実で、これは想像を通じて「もし～だったら」という質問に答えます。ジュデアが反事実的推論のために描いた図は、科学者が心の中で想像するものであり、ユルゲンが論文で使用した図に似ています。

左: ユルゲンの論文における世界モデルの概略図。右: ユダヤ書の因果律。

ここで結論づけられるのは、AI 研究者の世界モデルの追求は、データを超えて反事実的推論を行い、「もしも」の質問に答えようとする試みであるということです。これは人間が本来持っている能力ですが、現在の AI はまだそれが苦手です。ブレークスルーが達成されれば、AI の意思決定能力が大幅に強化され、完全自動運転などのシナリオへの応用が可能になります。

ソラは世界シミュレーターですか？

シミュレーターという言葉はエンジニアリング分野でより頻繁に登場しますが、その機能は世界モデルと同じであり、ユーザーは現実世界では実装が難しい高コストで高リスクの試行錯誤を行うことができます。 OpenAI は意味を変えずにフレーズを言い換えたいようです。

Sora によって生成されたビデオは、漠然としたプロンプトによってのみガイドされ、正確に制御することは困難です。したがって、これはビデオツールに近いものであり、「もしも」の質問に正確に答えるための反事実的推論のツールとして使用することはできません。

デモビデオがトレーニングデータとどの程度異なるかが明確ではないため、Sora の生成能力がどれほど強力であるかを評価することさえ困難です。

さらに残念なのは、これらのデモではソラが物理法則を正確に学習していないことが示されていることです。 Sora によって生成されたビデオは物理法則に準拠していないと指摘する人もいます [OpenAI が Wensheng ビデオモデル Sora をリリース。AI は物理世界の動きを理解できます。これは世界モデルですか?それはどういう意味ですか？ ]

OpenAI は、CG 生成データも含め、十分なトレーニングデータに基づいてこれらのデモをリリースしたと思います。しかし、それでも、いくつかの変数を持つ方程式で記述できる物理法則はまだ習得されていません。

OpenAI は、Sora が物理世界のシミュレーターへの道筋を示していると考えていますが、単にデータを蓄積するだけでは、より高度なインテリジェントテクノロジーへの道筋にはならないようです。

<<: 自動運転と軌道予測についてはこちらの記事をお読みください。

>>: Microsoft が OpenAI のライバルと提携!ミストラルの最新のトップレベルモデルはオープンソースではなくなった