混合交通流におけるコネクテッド自動運転車の衝突回避方法: モデルベースの強化学習アプローチ

[[429494]]

2021年10月11日にarXivにアップロードされた論文「混合交通流における人間の運転する車両のエラーによって引き起こされる衝突の差し迫った状況への対処：CAV向けのモデルベースの強化学習アプローチ」は、パデュー大学のコネクテッドおよび自動運転交通センター（CCAT）の著者らによって執筆されたもので、そのうちの1人はCMUのロボット工学研究所（RI）の客員教授です。

この論文では、コネクテッド自律走行車 (CAV)、人間が運転する車両 (HDV)、コネクテッド人間が運転する車両 (CHDV) などの混合交通フローも研究しています。最近では、この研究方向に関する論文はあまり多くありません。

本稿では、CAV に導入され、HDV による衝突を予測して回避する軌道を生成する、シンプルなモデルベースの強化学習 (RL) システムを開発します。このモデルには、ディープラーニングベースの動作予測モデルや MPC による高速軌道計画アルゴリズムなど、エンドツーエンドのデータ駆動型アプローチが採用されています。

このシステムは、車両ダイナミクスの物理的環境に関する事前の知識や仮定を必要とせず、あらゆるタイプの車両（トラック、バス、オートバイなど）に導入できる一般的なアプローチです。 CARLA シミュレーターで複数の差し迫った衝突シナリオをトレーニングおよびテストします。

車両とあらゆるものをつなぐ (V2X) 機能を備えたコネクテッド自律走行車 (CAV) が事故ゼロを実現する鍵であると考えられています。しかし、安全性が極めて重要なシナリオデータは依然として大量に必要であり、その量は不足していることが多いです。

モデルベースの強化学習 (RL) は、データを使用して状態遷移モデルを推定し、推定されたモデルに基づいて計画を立てます。この組み合わせアプローチは、データ/トレーニング効率とモデル非依存という 2 つのアプローチの利点を活用します。

一般的に、AV 軌道計画のためのモデルベースの RL 方法は、状態予測と経路計画という 2 つのモジュールで構成されます。状態予測は、物理的環境の推定として、過去の情報から将来の状態を推測するという問題に特に対処します。言い換えれば、過去の軌跡に基づいて、ターゲットが近い将来（予測期間）にどのような状態（位置、速度、加速度など）に到達するかを周囲に「伝える」ことになります。

ここでの状態予測モジュールは、ニューラルネットワーク構造に基づいています。実験では、3 層の全結合ニューラルネットワーク (FCN)、単層長短期記憶ネットワーク (LSTM)、単層 FCN (線形回帰) の 3 つのモデルがテストされました。周囲の車両の変化により、集中型モデルの代わりに分散型予測モデルが採用され、つまり、各インテリジェントエージェントは異なる状態予測モデルを持ちます。

経路計画は状態予測モデルに基づいています。状態予測は不完全であるため、計画モジュールはエラーの伝播を防ぐために安全なパスを確実に出力する必要があります。第二に、計画モジュールは、特に新しいエージェント（歩行者が突然道路を横断したり、周囲の車両が積極的に車線を変更したりする場合）が出現したときに、非常に動的なシナリオに適応する必要があります。

モデル予測制御 (MPC) は一般的な制御方法であり、上記の両方の基準を満たす一般的な方法です。重要な考え方は、各タイムステップで「再計画」し、現在の最適な軌道の最初のステップのみを実行することです。この方法は、各タイムステップでアクションの実現可能性を評価するため、急速に変化するシーンに対応できます。

古典的な MPC は、物理環境 (システムダイナミクス) の「与えられた」モデルを使用して、計画問題を複雑な最適化問題として定式化しようとします。モデルベースの RL 設定では、著者らは MPC とデータ駆動型状態予測モジュールを組み合わせて、複雑な最適化アルゴリズムを高速でシンプルな計画アルゴリズムに置き換えます。提案された方法の利点には、データ効率、モデルの解釈可能性、安定性、およびシナリオ間の転送可能性（堅牢性）が含まれます。

MPC の計画方法は、次の 4 つのステップで構成されます。

（１）各タイムステップはシーケンスを生成し、各シーケンスにはℎ個のアクションが含まれます。ここで、はテスト軌道の数、ℎは計画期間です。
（２）各軌道について、合計ℎアクションが状態予測モデルに順番に入力され、各ステップの将来の状態とコストが計算される。
（３）各軌道のコストを合計します。
（４）累積コストが最も低い軌道を選択し、その軌道の最初のアクションを実行する。

エンドツーエンドのアルゴリズム全体は次のとおりです。

エンドツーエンドのアルゴリズムは、ウォームアップフェーズ (データの収集)、トレーニングフェーズ (状態予測モデルの推定)、およびパスプランニングフェーズ (衝突の回避) の 3 つの主要なフェーズで構成されます。これら 3 つのステップは、モデルベースの RL メソッドのプロセスに従います。つまり、経験を収集し、モデルを推定し、推定されたモデルを使用して計画を立てます。テスト (計画) フェーズで得られた経験をリプレイメモリに追加し、モデルを再トレーニングして、展開後もモデルを改善できるようにすることができます。

図に示すように、重大な衝突状況が 2 つあります。主な原因は、図の灰色の車両による違法または強引な車線変更です。赤色の車両が灰色の車両の死角に入っていることが、現実世界で起こり得ることです。

図に示すように、CARLA では 4 台の車両がシミュレートされています。黄色の車両は「故障した」 HDV を表し、赤色の車両は CAV を表します。

写真では、黄色の HDV が灰色の車両を追い越そうとしていますが、死角にある赤色の車両 (CAV) を認識できません。この積極的な車線変更は、特に狭い運転環境では衝突につながる可能性があります (CAV は急ブレーキをかけることができません。急ブレーキをかけると青い HDV との追突事故につながるからです)。 CAV は、システムの崩壊を回避するために一連の操作を実行する必要があります。シミュレーションでは、黄色の HDV が左側から追い越し、右側の CAV と側面衝突する可能性があるシナリオも設定されています。

シミュレーションのステップサイズは 0.05 秒/ステップ (または 20 ステップ/秒) で、黄色の HDV の積極的な追い越しアクションは、Logitech G27 レーシングホイールを使用した手動運転によって生成されます。さらに、著者らは、CARLA シミュレータに接続するための Open AI ジムと Python API インターフェースを開発しました。

以下は、異なる運転速度での衝突回避成功の実験結果の比較です。

<<: ベアリングポイント調査 - 2022 年の 5 つのテクノロジートレンド

>>: AIが金融犯罪を予測、検出、防止する方法