WaymoとGoogleが自動運転のマルチ軌道行動予測を実現するTNTモデルを提案

はじめに: Waymo は最近、フェニックス地域で安全担当者なしの無人タクシーの運行を開始すると発表し、真の無人車両の最初の商用利用を実現しました。同時に、Waymo は一連の新しい研究論文も公開しました。この記事では、Waymo の行動予測に関する研究成果について説明します。

周囲の車両や歩行者は次の数秒間に何をするでしょうか?これは安全な自動運転を実現するために答えなければならない重要な問題であり、自動運転分野における行動予測問題です。

[[347027]]

行動予測の難しさは、周囲の歩行者や車両の不確実性と、ルール外のさまざまな行動にあります。こうした状況をルールでまとめることは難しいため、研究者は最近、より合理的な予測結果を得るためにデータ駆動型のディープラーニング手法を使い始めています。

この点に関して、Waymo と Google のチームは、自動運転の行動を予測するための一連のモデルを提案しており、これにより無人車は抽象的な道路環境を理解し、車両や歩行者について複数の予測を行うことができるようになります。

今年 6 月の CVPR 論文で、チームは初めて新しいモデル VectorNet を提案しました。

このモデルでは、チームは初めて、ベクトルを使用して地図情報と移動オブジェクトの表現を簡素化し、周囲の環境情報を抽象的に把握する方法を提案しました。このアプローチは、画像によるレンダリングという従来の方法を放棄し、データ量と計算量を削減する効果を実現します。 Waymo はブログ投稿で、この技術により行動予測の精度が向上することも明らかにした。

最近、チームはさらなる研究を発表し、TNT (Target-driveN Trajectory Predictio) を提案しました。 TNT は、教師あり学習法を使用して車両と歩行者に対して多重軌道回帰を実行する目的地誘導軌道予測手法です。最終モデルは、各軌道の可能性を明確に示しながら、複数の将来の軌道の予測を出力できます。

この論文では、TNT の公開データセット Argoverse でのテストパフォーマンスがチャンピオンの結果に匹敵し、INTERACTION、Stanford Drone、Waymo の内部データセットで非常に優れた結果を達成したことが紹介されています。

この論文は国際ロボット学習会議 (CoRL) に受理されました。

複数の将来のシナリオを予測する

Waymoはブログで、VectorNetはベクトルを使って世界を抽象的に表現し、それによって周囲の環境を認識し理解するという点で画期的な進歩を遂げたと指摘した。環境を理解した後の次のステップは、より優れた行動予測を実現することです。

自動運転の行動予測が他の問題と異なるのは、周囲の車両や歩行者が次の数秒間に移動する可能性のある方法が多数あることです。これらの可能性自体も、自動運転車の意思決定計画に影響を与えるでしょう。

たとえば、前方の車両が左折する確率が 80%、右折する確率が 20% であると機械が計算できれば、自動運転車はこの結果に基づいてより適切な意思決定計画を立てることができます。同時に、機械にとっては、たとえ他の車両が右折する可能性が 1% であっても、その可能性を無視することはできません。

このような複数の可能性に対する複数の軌道の予測は、技術的に非常に困難です。現在のニューラルネットワークでは、複数の軌跡を予測するタスクに対処することが困難です。

業界関係者によると、ニューラルネットワークは、1 対多の問題よりも、1 対 1 および多対 1 のフィッティング問題に優れているとのことです。多対一は一般的な分類問題です。車両の写真を複数入力すると、ニューラルネットワークはこれらの写真を「車」として正確に識別できます。一般的な回帰問題のように、1対1で車両の写真を入力すると、ニューラルネットワークは車両の長さ、幅、高さ、その他の寸法を推定できます。しかし、サンプルを入力して、ニューラルネットワークに 3 つの結果を回帰させたい場合、これはニューラルネットワークでは得意ではありません。

現在市場に出回っている基本的なソリューションは、交通ルールに基づいて周囲の車両や歩行者の移動可能性を取得することであると報告されています。交通規則でこの道路を直進、左折、右折することが許可されている場合、3 つの可能性があります。しかし、この方法の予測結果は、車線借用や違法Uターンなど、ルール外のケースが考慮されていないため、完全に信頼できるものではありません。実際、長期運用下での自動運転の安全性を確保するには、ルール外の状況に対処する能力が非常に重要です。

過去 2 年間に発表された論文は、多くのチームがマルチ軌道予測に生成モデルを使用しようとしていることを示しています。つまり、GAN や VAE などのモデルを使用して潜在空間をサンプリングすると、特定のシナリオにおける周囲のターゲットの複数の潜在的な選択肢を取得できます。

しかし、生成モデルに依存する場合の問題は、サンプル収集に多くのランダム性があり、信頼性が求められるシステムでは受け入れられないことです。前方の車両が左折する確率が 90%、右折する確率が 10% であると仮定すると、サンプリング方法を使用すると、右折する可能性を無視して、3 つのサンプルで左折が発生する可能性が非常に高くなります。自動運転の分野では、この手法による行動予測を実用化することは困難です。

教師あり学習を使用して正確な予測を実現する

研究チームが提案したTNTは、教師あり学習法を用いて初めて車両や歩行者のマルチ軌道予測を行う、目的地誘導型軌道予測手法です。このモデルの最大の貢献は、サンプリングに依存せずに、純粋に教師あり学習を通じて複数の軌跡の行動予測を実行できることです。

具体的には、モデルの行動予測は順に 3 つのステップに分かれており、各ステップには特定の目標があります。1. マップの事前情報を使用して、目的地を離散化して予測します。2. 予測された目的地に基づいて、ターゲットの軌道をさらに予測します。3. 予測された複数の軌道の中で、各軌道を選別してスコアリングし、各オプションの可能性を予測して、最も確率の高い軌道を選択します。

技術的なレベルでは、教師あり学習を使用する利点は、最終モデルが各軌道の可能性を明確に示しながら、複数の将来の軌道を予測できることです。たとえば、3 つの軌跡を出力する場合、モデルは、左に曲がる確率が 30%、右に曲がる確率が 30%、直進する確率が 40% であることを明確に指摘できます。このような予測結果は、実際に意思決定システムで使用することができます。

最終的なパフォーマンスに関しては、単一のTNTモデルの行動予測精度は、公開データセットArgoverseのテストパフォーマンスにおけるチャンピオン結果に匹敵し、INTERACTIONやStanford Droneなどのテストでも非常に優れた結果を達成しました。

[[347029]]

図｜論文著者チーム、左から趙星、高済陽、孫塵

この論文の中心的な著者はWaymoとGoogleの出身者です。このうち、趙星氏はウェイモの研究科学者で、浙江大学で学士号を取得し、マサチューセッツ工科大学で博士号を取得しています。高吉陽氏は現在ウェイモのシニアエンジニアで、清華大学で学士号を取得し、その後南カリフォルニア大学で博士号を取得しています。孫塵氏も清華大学で学士号を取得し、その後南カリフォルニア大学で博士号を取得しています。現在はグーグルの研究科学者です。

<<: AIロボットが大規模に導入されると、私たちはより良くなるのでしょうか？

>>: ニューラルネットワーク: 神秘的で驚異的なニューラルネットワークの完全な歴史