自動運転車は複雑な相互作用の問題をどのように解決するのでしょうか?清華大学とMITが共同でM2Iソリューションを提案

自動運転車が公道を走るようになると、必然的に道路上の「暗黙のルール」のいくつかを学習する必要が出てきます。自動運転システムは、他者の言葉や表情を観察し、いつ減速して道を譲るべきか、また他者が道を譲っていることに気付いてできるだけ早く加速すべきかを迅速に判断できるように適応する必要があります。道路環境の複雑さにより、多くの初心者ドライバーは適切な判断ができない可能性があります。

この複雑さにより、ルールベースの方法ではすべての状況を矛盾なくカバーすることが困難になります。清華大学の研究チームは、既存の軌道予測データセットから道路上のさまざまな「エチケット」を学習し、衝突時の礼儀関係を正しく判断する自己教師学習に基づく方法を提案した。この研究では、複雑なインタラクションが満載の Waymo Interactive Motion Prediction データセットで予測された関係をテストし、予測された関係をシーンレベルのインタラクティブな軌道予測に使用する M2I フレームワークを提案しました。

このプロジェクトは、清華大学のSun Qiao氏とMITのHuang Xin氏が中心となり、清華MARSラボのZhao Xing教授の指導を受けて完成しました。

論文アドレス: https://arxiv.org/abs/2202.11884
プロジェクトアドレス: https://tsinghua-mars-lab.github.io/M2I/

軌道予測問題は自動運転システムの重要な部分であり、自動運転車の安全運転には不可欠です。軌道予測モジュールは通常、検出と追跡の下流システムとして使用され、既存の高精度マップと周囲の他の車両や歩行者の情報を使用して、将来どのような行動を取るかを予測します。軌道予測システムは、軌道またはヒートマップの形式で予測結果を出力するため、下流の計画システムは、自律走行車自体にとって最も合理的な次の決定または軌道を計画できます。

ほとんどの軌道予測方法は、GNN または注意ベースの方法を通じて道路上の車両と歩行者の関係を学習しようとしますが、これらの方法は通常、克服するのが難しい次のような課題に直面します。

1. モデルによって予測される関係は暗黙的であるため解釈可能性に欠け、モデルが実際にこれらの関係を学習したかどうかを判断することは困難です。

2. モデルによって予測された関係と最終的な出力軌跡は一致しておらず（図1の最初の行に示すように）、自然な重なりが生じ、シーンレベルの合理性を保証できません。

3. 道路利用者の意思決定は連続的であり、モデル予測では予測の論理的な順序を区別できず、並列で 1 つずつ予測することしかできません。

図1：車両別軌道予測法によって出力された軌道は互いに衝突する可能性がある

これらの問題を解決するために、研究者はシンプルで効果的なフレームワーク M2I を提案しました (図 1 の 2 行目を参照)。 M2I フレームワークを使用すると、既存の軌道予測モデルをすばやく変換して、シーンレベルの関係予測機能と、1 台の車両の軌道に基づいて別の車両の軌道を予測する機能を取得できます。これら 2 つの機能を使用することで、新しいモデルでインタラクティブなシナリオの予測精度が向上します。

マルチエージェント軌道予測からシングルエージェント軌道予測へ

まず、M2Iの全体的な枠組みを見てみましょう。 M2I は、図 2 に示すように 3 つのモジュールで構成されています。これら 3 つのモジュールは、関係予測モジュール、単一エージェントの軌道予測、条件付き軌道予測です。

図2: M2I軌道予測フレームワーク

関係予測

道路利用者間の複雑な関係は、複数の関係ペアに抽象化できます。この研究では、道路利用者の各ペアを影響者と対応者に分類します。対応者は、衝突時に道を譲る必要がある当事者として定義され、影響者は道を譲る必要がない当事者です。したがって、インタラクションにおける軌道予測問題は、2 つの軌道予測に抽象化できます。1 つはインフルエンサーの軌道を予測することであり、もう 1 つは予測されたインフルエンサーの軌道を使用してレスポンダーの軌道を予測することです。この方法により、シーンレベルで両者が予測する軌道の一貫性が確保され、重複などの不合理な状況を最大限に回避できます。

では、誰が影響力を持ち、誰が反応するのかをどのように予測するのでしょうか?あるいは、紛争の際に誰が譲るべきかを予測する。この研究では、時空間軌跡のインターリーブに基づいて既存のデータセットから Ground Truth ラベルをマイニングする方法を提案しました。具体的には、データセット内で、2 人の道路利用者の軌跡が異なる時間に交差する場合、この方法では、交差点を最初に通過するエージェントをインフルエンサーとしてマークし、後で通過するエージェントをレスポンダーとしてマークします。この自動生成されたラベルから学習することで、モデルは競合が発生した場合の先行関係を学習できます。

本研究で使用した関係予測モデルは、DenseTNT の軌道予測ヘッドを通常の分類ヘッドに置き換えることによって得られます。研究者たちは、既存のモデルの他の部分に一切変更を加えずに、関係性の予測において 90% を超える精度を達成できることを発見しました。比較実験により、条件付き軌道予測に精度の高い関係を使用すると、より良い結果が得られることがわかっています。

研究者らは関係予測をマルチエージェント関係予測にも拡張した。本研究では、複数のエージェントについて、それらをペアで予測し、予測結果を有向グラフに整理してそれらの関係性を表現します。結果を図3に示します。M2Iの関係性予測モジュールは、複数のエージェントの関係性予測に十分に拡張できます。

図3: 複雑なシナリオにおけるマルチエージェント関係予測

軌道予測

M2I フレームワークの単一エージェント軌道予測モジュールの代わりに、一般的な軌道予測モジュールを使用できます。この論文の実験では、研究者は単一エージェント軌道予測に DenseTNT を使用しました。条件付き軌道予測では、研究者らは DenseTNT のエンコーダーを修正し、インフルエンサーの将来の軌道 (使用された Waymo データセットでは、将来の軌道は 8 秒、合計 80 フレーム) をモデルが学習するためのその他の情報とともにエンコードしました。トレーニング中、インフルエンサーの将来の軌道はデータセット内の真実の軌道であり、予測中、インフルエンサーの将来の軌道は単一エージェントモジュールによって出力された軌道です。条件付き軌道予測については、この研究ではエンコーダー以外のモデルの他の構造は変更しませんでした。

実験結果

実験結果によると、リーダーボード上の他のいくつかの方法と比較して、M2I フレームワークを使用する DenseTNT モデルは他の方法よりも大幅に優れたパフォーマンスを発揮します。特に車両間の相互作用において、M2I 予測を使用すると、他のモデルと比較して mAP のパフォーマンスが明らかに向上します。

図4: M2Iはインタラクティブモーション予測において他の既存の方法よりも大幅に優れている

この研究では、バックボーンとして TNT を使用することも試みました。実験結果によると、M2I フレームワークを使用すると、TNT はインタラクティブなシナリオでのパフォーマンスも向上できることが示されており、M2I フレームワークが特定のバックボーンに限定されないことが証明されています。

定性分析では、M2I フレームワークを使用した後、予測された軌跡がシーンレベルでの実際のインタラクション軌跡に近づくことが示されています (図 5 を参照)。

図5: M2Iは、シーン内で相互作用する2台の車両が次々に旋回を完了する方法をより適切に学習します。

<<: ビジュアル Transformer アーキテクチャの進歩を整理した記事: CNN と比較して、ViT が勝っているのはどこでしょうか?

>>: AIがあなたの仕事を奪わないと決めつけないでください。