世界モデルに関するいくつかの誤解と自動運転との統合に関する考察

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

世界モデルとは何ですか?

世界モデルとは何ですか? Yann LeCun の PPT 説明を参照できます。

つまり、時刻 1 から時刻 t までの履歴状態情報を入力し、それを現在のアクションと組み合わせることで、次の状態を予測することができます。

平たく言えば、世界モデルは世界の動的な進化として理解できると思います。

世界モデルの研究活動の紹介

世界モデル

論文リンク: https://arxiv.org/abs/1803.10122

この論文と「Recurrent World Models Facilitate Policy Evolution」は同じ論文です。

この作品は非常に重要であり、その後の多くの作品のアイデアの源となっています。

作業ガイド

本論文では、周囲の時空間の表現を教師なしで学習し、この時空間表現に基づいて単純なポリシーモジュールで特定のタスクを解決できる生成世界モデルを構築します。

インスピレーション

人間は限られた感覚に基づいて世界を認識し、理解します。私たちが下す決定や行動は、実際には私たち自身の内部モデルに基づいています。
日常生活における大量の情報を処理するために、私たちの脳は時空間情報を学習します。私たちは場面を観察し、それに関する抽象的な情報を記憶することができます。また、私たちの知覚は、内部モデルに基づく脳の未来予測によって、ある瞬間に制御されているという証拠もあります。
例えば、下の写真を見ると、動いているように見えますが、実際はすべて静止していることがわかります。

方法

上記の簡単な例から、脳は実際に将来の感覚データを予測している、つまり将来の可能性のあるシナリオを想像していることがわかります。この発見に基づいて、著者はフレームワークを設計しました。フレームワーク図は次のとおりです。

フレームワーク図は、ビジョンモデル (V)、メモリ RNN (M)、コントローラー (C) という 3 つの主要モジュールで構成されています。

まず、ビジョンモデル (V) です。このモジュールの主な機能は、観測の表現を学習することです。ここで使用される方法は、VAE (変分オートエンコーダ) です。その主な機能は、画像などの入力観測を特徴に変換することです。

VAE のネットワーク構造図は次のとおりです。

簡単に説明すると、観測画像が入力されると、まずエンコーダーを通過して特徴が抽出され、次にデコーダーを通過して画像が復元されます。プロセス全体ではラベル付けは必要なく、自己教師ありで行われます。 VAE を使用する理由について私が個人的に理解しているのは、デザイン全体が生成的であるということです。

2番目はメモリRNN（M）で、そのネットワーク構造は次のとおりです。

このモジュールの主な機能は、世界モデルと見なすことができる状態の進化を学習することです。

最後に、コントローラー (C) があります。この部分の役割は、明らかに次のアクションを予測することです。ここでの設計は非常にシンプルで、目的は、データに基づいて学習できる前のモジュールに焦点を移すことです。式は次のとおりです。

履歴を使用した状態の蓄積そして現在の観察、次のアクションを予測します。

全体的な推論プロセスは次のとおりです。

つまり、最初に観測が V に渡されて特徴が取得され、次に M に渡され、最後に観測と履歴情報が一緒に C に送信されてアクションが取得されます。アクションに基づいて、環境との相互作用によって新しい観測が生成され、これが継続されます。

PlaNet: ピクセルから計画のための潜在ダイナミクスを学習する

論文リンク: https://arxiv.org/abs/1811.04551

ブログ: https://planetrl.github.io/

作業ガイド

本稿では、画像ピクセルから環境のダイナミクスを学習し、コンパクトな潜在空間でアクションを計画および予測するモデルベースのエージェントである Deep Planning Network (PlaNet) を提案します。環境の動的な変化を学習するために、確率的要素と決定論的要素を備えた遷移モデルが提案されています。さらに、多段階の予測も可能です。

筆者は本研究の最大の貢献はRSSM（再帰型状態空間モデル）の導入であると考えているので、以下では主にRSSMについて紹介する。

RSSM

この図は、本論文で提案されたRSSMと他の2つの方法を比較したものです。図に示すように、四角は決定論的変数を表し、円はランダム変数を表します。図aは決定論的モデル、つまりRNNの暗黙の状態を通じて継続的に情報を伝達する行動と報酬は予測可能であり、つまり予測される行動と報酬は確実でなければならない。図bはランダムだが、状態はこれはランダムです。たとえば、特定の分布に従う場合、サンプリングは異なり、生成されるアクションと報酬もそれに応じて変化するため、ランダムです。図 c からわかるように、アクションと報酬を予測するための入力は 2 つの部分で構成され、1 つは決定論的であり、もう 1 つはランダムです。

3 つの方法の利点と欠点を比較すると、次のようになります。

a. 決定論的アプローチは、モデルが複数の未来を恣意的に予測することを防ぐことができます。ご想像のとおり、モデルの精度が十分でない場合、予測される未来は不正確になり、その後の計画で誤った結果につながる可能性があります。

b. ランダムアプローチの問題点は、ランダムな蓄積を複数回行った後、最初の入力とは何の関係もなくなる可能性があり、情報を記憶するのが難しいことです。

c. 決定論的方法とランダムな方法の組み合わせ。決定論的部分によってモデルがランダムに実行されるのを防ぎ、ランダム部分によってフォールトトレランスを向上させます。

Dreamer-V1: 夢をコントロールする: 潜在的想像力による行動の学習

論文リンク: https://arxiv.org/abs/1912.01603

導入

タイトルからわかるように、Dreamer-V1 は潜在的な想像力、つまり夢から制御する行動を学習します。これは、チャウ・シンチーの映画「蘇娥娥伝」の眠れる羅漢拳に少し似ています。その方法は、想像した絵に基づいて学習することです。

方法

次の図は、DreamerV1 の 3 つのコンポーネントを示しています。

a. 過去の観察と行動に基づいて環境のダイナミクスを学習し、主に観察と行動をコンパクトな潜在状態空間に抽出することを学習します。

b. バックプロパゲーションを通じて、DreamerV1 は想像力を訓練することができます。

c. 過去の状態と現在の観察に基づいて、次の状態とアクションを予測します。

次回は主に潜在想像力を通して行動を学習する方法を紹介します。

潜在的想像力による行動の学習

アルゴリズムのフローは次のとおりです。

最初から始めると、まず各、次の式に従って、次の式を得ることができます。 :

だから次の式に従って対応する報酬を予測します。

価値関数の推定値を取得します。

DreamerV2: 離散世界モデルで Atari をマスターする

論文リンク: https://arxiv.org/abs/2010.02193

導入

DreamerV1は潜在想像力の学習を重視し、DreamerV2は予測の学習を重視しており、両者の学習方法に違いはない、と筆者は考えている。違いは、DreamerV2はDreamerV1に比べて前述のRSSMを使用していることである。論文タイトルにあるAtariはゲームの名前であり、このゲームの解は離散世界モデルである。ここでの離散性は、観測された入力が離散形式で表現できるためである。DreamerV2は、Atariゲームにおいて非モデル方式を超えた最初のモデルベース方式である。

方法

ネットワーク構造は次のとおりです。

全体的な構造は DreamerV1 とあまり変わりません。どちらも画像を再構築するタスクを持っています。唯一の違いは、事前分布と事後分布に関する KL 損失、つまりこれら 2 つの分布の KL 損失があることです。

TransitionモデルもDreamerV1とは異なります。V1ではこのようになっています。

つまり、過去の状態と行動に基づいて次の状態を予測するのであり、V2では次のようになる。つまり、RNN の決定論的な暗黙の状態に基づいて次の観測分布を予測します。ここでの違いは主に RSSM の導入によるものです。

Actor Critic 学習段階の構造は次のとおりです。

このプロセスは非常に明確です。つまり、後続の観測がない場合、サンプリングは事前分布から直接実行されるため、トレーニング中は事前分布が事後分布に近くなるはずです。

SEM2: セマンティックマスクワールドモデルによるエンドツーエンドの都市型自動運転のサンプル効率と堅牢性の向上

論文リンク: https://arxiv.org/abs/2210.04017

導入

タイトルからわかるように、エンドツーエンドの自動運転のサンプリング効率と堅牢性を向上させる主な目的は、セマンティックマスクワールドモデルを使用することです。ここで、セマンティックマスクはセマンティックセグメンテーションヘッドの出力を指し、入力端にはライダーも追加されます。

出発点

著者は、以前の研究で埋め込まれた世界モデルの潜在状態には、タスクに関係のない情報が大量に含まれており、その結果、サンプリング効率が低く、堅牢性が低いと考えています。また、以前の方法では、トレーニングデータの分布が不均一であるため、以前の方法で学習した運転ポリシーでは、コーナーケースに対処することが困難です。

方法の概要

前述の情報の冗長性に対応するために、ここではセマンティックマスクワールドモデル（SEM2）を提案します。つまり、セマンティックマスクの予測がデコーダー部分に追加され、モデルが運転タスクに関連性の高いよりコンパクトな特徴を学習できるようになります。ネットワーク構造は次のとおりです。

各パーツのパラメータは以下のとおりです。

構造はDreamerV2に似ており、入力にLIDARが追加され、デコーダーに車両のセマンティックマスクを予測するフィルターが追加されています。右下隅はセマンティックマスクの内容で、主に地図情報、ルート情報、障害物情報、車両情報などが含まれています。

マルチソースサンプラー

前述の著者は、以前のトレーニングセットのデータが不均衡で、たとえば直線道路が多すぎると述べました。ここでは、サンプリング方式が使用されています。簡単に言えば、トレーニングの各バッチで、さまざまなシーンのサンプルが均等に追加されるため、トレーニングサンプルのバランスの取れた分散の効果が得られます。

上図に示すように、通常のデータ、道路からの流出データ、衝突データが各バッチで混合されてトレーニングされます。これにより、モデルはさまざまなケースのデータを確認でき、一般化とコーナーケースの解決に役立ちます。

Wayve-MILE: 都市部での運転のためのモデルベースの模倣学習

コード: https://github.com/wayveai/mile.

論文: https://arxiv.org/abs/2210.07729

ブログ: https://wayve.ai/thinking/learning-a-world-model-and-a-driving-policy/

導入

MILEはWayveの研究成果です。コードや詳細なブログの説明があり、良い研究成果と言えます。

SEM2のネットワーク構造では報酬予測も必要ですが、MILEでは報酬予測はありません。タイトルに模倣学習とありますが、ここでは同じ環境においてコーチの行動をターゲットとしてあり、モデルはコーチの行動を直接学習するため、模倣学習と呼ばれています。MILEの研究は非常に刺激的です。事前分布、事後分布、サンプリングのアイデアは、以前のいくつかの研究でも使用されていますが、これらの概念はMILEフレームワークでよりよく説明されていると感じています。

ネットワーク構造

関連するパラメータは次のとおりです。

左端の部分だけ見るとVAEの結果だと考えられます。下側がエンコーダー、再構成された画像の上側がデコーダーです。
中間のRNN部分もRSSMを使用しています。この部分は未来を生成できる世界モデル部分と考えることができます。
未来を生み出す鍵は、未来の世界の分布を知ることです。これが役割です。トレーニング時には事前分布を事後分布に近づけます。推論想像モードで観測が無い場合は事前分布からサンプリングを行います。
トレーニング中は、事前分布と事後分布にドロップアウトメカニズムが使用されます。つまり、トレーニング中は、サンプルは一定の確率で事前分布からサンプリングされます。
ネットワーク構造には再構成画像部分が描かれているが、実験では再構成画像の損失は使用されていない。

長期予測効果図は次のとおりです。

世界モデルの今後の展開

筆者は、上記で紹介した世界モデル関連の研究のいくつかは、強化学習や模倣学習などと密接に関係していると考えています。世界モデルは未来を予測するための基礎となっていることがわかります。筆者は、世界モデルを考える上でいくつかの主要な方向性があると考えています。

世界モデルのアーキテクチャ設計。上記の方法は、基本的に RNN と RSSM のフレームワークに基づいています。ただし、この設計が最善であるかどうか、またトレーニングと推論に役立つかどうかについては、さらに調査する必要があります。
世界モデルは具体的に何を学習する必要があるのか、あるいは、自動運転において世界モデルは何を学習する必要があるのかといった特定のタスクでは、2D 情報、3D 情報、軌跡情報、地図情報、占有情報などです。。。。。。この情報に基づいてどのように計画を立てればよいでしょうか?
世界モデルを LLM と組み合わせる方法、または既存の LLM のいくつかのメソッド、構造、機能を活用する方法。
自己監督を実現するにはどうすればよいでしょうか。MILE や SEM2 などの上記の方法では、セマンティックマスクの注釈情報が必要です。ただし、注釈データは常に限られており、コストがかかります。

オリジナルリンク: https://mp.weixin.qq.com/s/VYdMVBpxRd1ETfGf6djK8w

<<: 人工知能が気候変動対策に革命を起こす6つの方法

>>: