WaymoとGoogleが自動運転のマルチ軌道行動予測を実現するTNTモデルを提案

WaymoとGoogleが自動運転のマルチ軌道行動予測を実現するTNTモデルを提案

はじめに: Waymo は最近、フェニックス地域で安全担当者なしの無人タクシーの運行を開始すると発表し、真の無人車両の最初の商用利用を実現しました。同時に、Waymo は一連の新しい研究論文も公開しました。この記事では、Waymo の行動予測に関する研究成果について説明します。

周囲の車両や歩行者は次の数秒間に何をするでしょうか?これは安全な自動運転を実現するために答えなければならない重要な問題であり、自動運転分野における行動予測問題です。

[[347027]]

行動予測の難しさは、周囲の歩行者や車両の不確実性と、ルール外のさまざまな行動にあります。こうした状況をルールでまとめることは難しいため、研究者は最近、より合理的な予測結果を得るためにデータ駆動型のディープラーニング手法を使い始めています。

この点に関して、Waymo と Google のチームは、自動運転の行動を予測するための一連のモデルを提案しており、これにより無人車は抽象的な道路環境を理解し、車両や歩行者について複数の予測を行うことができるようになります。

今年 6 月の CVPR 論文で、チームは初めて新しいモデル VectorNet を提案しました。

このモデルでは、チームは初めて、ベクトルを使用して地図情報と移動オブジェクトの表現を簡素化し、周囲の環境情報を抽象的に把握する方法を提案しました。このアプローチは、画像によるレンダリングという従来の方法を放棄し、データ量と計算量を削減する効果を実現します。 Waymo はブログ投稿で、この技術により行動予測の精度が向上することも明らかにした。

最近、チームはさらなる研究を発表し、TNT (Target-driveN Trajectory Predictio) を提案しました。 TNT は、教師あり学習法を使用して車両と歩行者に対して多重軌道回帰を実行する目的地誘導軌道予測手法です。最終モデルは、各軌道の可能性を明確に示しながら、複数の将来の軌道の予測を出力できます。

この論文では、TNT の公開データセット Argoverse でのテストパフォーマンスがチャンピオンの結果に匹敵し、INTERACTION、Stanford Drone、Waymo の内部データセットで非常に優れた結果を達成したことが紹介されています。

この論文は国際ロボット学習会議 (CoRL) に受理されました。

複数の将来のシナリオを予測する

Waymoはブログで、VectorNetはベクトルを使って世界を抽象的に表現し、それによって周囲の環境を認識し理解するという点で画期的な進歩を遂げたと指摘した。環境を理解した後の次のステップは、より優れた行動予測を実現することです。

自動運転の行動予測が他の問題と異なるのは、周囲の車両や歩行者が次の数秒間に移動する可能性のある方法が多数あることです。これらの可能性自体も、自動運転車の意思決定計画に影響を与えるでしょう。

たとえば、前方の車両が左折する確率が 80%、右折する確率が 20% であると機械が計算できれば、自動運転車はこの結果に基づいてより適切な意思決定計画を立てることができます。同時に、機械にとっては、たとえ他の車両が右折する可能性が 1% であっても、その可能性を無視することはできません。

このような複数の可能性に対する複数の軌道の予測は、技術的に非常に困難です。現在のニューラル ネットワークでは、複数の軌跡を予測するタスクに対処することが困難です。

業界関係者によると、ニューラル ネットワークは、1 対多の問題よりも、1 対 1 および多対 1 のフィッティング問題に優れているとのことです。多対一は一般的な分類問題です。車両の写真を複数入力すると、ニューラル ネットワークはこれらの写真を「車」として正確に識別できます。一般的な回帰問題のように、1対1で車両の写真を入力すると、ニューラル ネットワークは車両の長さ、幅、高さ、その他の寸法を推定できます。しかし、サンプルを入力して、ニューラル ネットワークに 3 つの結果を回帰させたい場合、これはニューラル ネットワークでは得意ではありません。

現在市場に出回っている基本的なソリューションは、交通ルールに基づいて周囲の車両や歩行者の移動可能性を取得することであると報告されています。交通規則でこの道路を直進、左折、右折することが許可されている場合、3 つの可能性があります。しかし、この方法の予測結果は、車線借用や違法Uターンなど、ルール外のケースが考慮されていないため、完全に信頼できるものではありません。実際、長期運用下での自動運転の安全性を確保するには、ルール外の状況に対処する能力が非常に重要です。

過去 2 年間に発表された論文は、多くのチームがマルチ軌道予測に生成モデルを使用しようとしていることを示しています。つまり、GAN や VAE などのモデルを使用して潜在空間をサンプリングすると、特定のシナリオにおける周囲のターゲットの複数の潜在的な選択肢を取得できます。

しかし、生成モデルに依存する場合の問題は、サンプル収集に多くのランダム性があり、信頼性が求められるシステムでは受け入れられないことです。前方の車両が左折する確率が 90%、右折する確率が 10% であると仮定すると、サンプリング方法を使用すると、右折する可能性を無視して、3 つのサンプルで左折が発生する可能性が非常に高くなります。自動運転の分野では、この手法による行動予測を実用化することは困難です。

教師あり学習を使用して正確な予測を実現する

研究チームが提案したTNTは、教師あり学習法を用いて初めて車両や歩行者のマルチ軌道予測を行う、目的地誘導型軌道予測手法です。このモデルの最大の貢献は、サンプリングに依存せずに、純粋に教師あり学習を通じて複数の軌跡の行動予測を実行できることです。

具体的には、モデルの行動予測は順に 3 つのステップに分かれており、各ステップには特定の目標があります。1. マップの事前情報を使用して、目的地を離散化して予測します。2. 予測された目的地に基づいて、ターゲットの軌道をさらに予測します。3. 予測された複数の軌道の中で、各軌道を選別してスコアリングし、各オプションの可能性を予測して、最も確率の高い軌道を選択します。

技術的なレベルでは、教師あり学習を使用する利点は、最終モデルが各軌道の可能性を明確に示しながら、複数の将来の軌道を予測できることです。たとえば、3 つの軌跡を出力する場合、モデルは、左に曲がる確率が 30%、右に曲がる確率が 30%、直進する確率が 40% であることを明確に指摘できます。このような予測結果は、実際に意思決定システムで使用することができます。

最終的なパフォーマンスに関しては、単一のTNTモデルの行動予測精度は、公開データセットArgoverseのテストパフォーマンスにおけるチャンピオン結果に匹敵し、INTERACTIONやStanford Droneなどのテストでも非常に優れた結果を達成しました。

[[347029]]

図|論文著者チーム、左から趙星、高済陽、孫塵

この論文の中心的な著者はWaymoとGoogleの出身者です。このうち、趙星氏はウェイモの研究科学者で、浙江大学で学士号を取得し、マサチューセッツ工科大学で博士号を取得しています。高吉陽氏は現在ウェイモのシニアエンジニアで、清華大学で学士号を取得し、その後南カリフォルニア大学で博士号を取得しています。孫塵氏も清華大学で学士号を取得し、その後南カリフォルニア大学で博士号を取得しています。現在はグーグルの研究科学者です。

<<:  AIロボットが大規模に導入されると、私たちはより良くなるのでしょうか?

>>:  ニューラル ネットワーク: 神秘的で驚異的なニューラル ネットワークの完全な歴史

ブログ    
ブログ    
ブログ    

推薦する

...

エネルギー分野における人工知能の5つの主要な応用

[[435080]]エネルギー分野における AI の革新と進歩により、企業がエネルギーを生産、販売、...

3分レビュー:8月の自動運転業界の完全な概要

[[426135]]チップ不足と疫病の影響により、今年初めから自動運転産業の発展は減速を余儀なくされ...

マイクロソフトは、対話してマルチモーダルコンテンツを生成できる AI モデル CoDi をリリースしました。

マイクロソフトは 7 月 11 日にプレスリリースを発行し、Combinable Diffusion...

OpenAIを退社して無職だったカルパシー氏が大規模モデルを使った新プロジェクトに取り組み、1日で星の数が1000を突破

じっとしていられないアンドレイ・カルパティに新しいプロジェクトが! OpenAIはここ数日、非常に忙...

データ サイエンティストに Kubernetes クラスターの管理を任せるのはやめましょう…

[[317899]]生産機械学習には組織的な問題があります。この問題は、生産機械学習の比較的新しい...

...

世界を理解する、最新のレビューは自動運転の新しい時代を開く

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

rsyncのコアアルゴリズム

Rsync は、Unix/Linux でファイルを同期するための効率的なアルゴリズムです。2 台のコ...

フラッシュは廃止されるが、5G時代の新技術は過去を思い出す暇を与えないだろう

Adobe が 2020 年 12 月 31 日をもって有名な Flash ソフトウェアのサポートを...

ビッグモデルの時代、周志華教授の「ラーニングウェア」の考え方を分析:小さなモデルでも大きなことができる

ビッグモデルの時代に入りつつあることは間違いありません。オープンソースやクローズドソースのさまざまな...

AI時代、私たちは将来の仕事にどう備えればいいのでしょうか?

将来のテクノロジーとそれによって可能になるかもしれない新しいタイプの仕事について多くのことが書かれて...

人工知能は人間に取って代わるでしょうか?将来、誰もがスーパーパワーを持つようになると思いますか?

ここ数十年、人類の技術は驚くほど急速に発展してきました。多くの映画、テレビ番組、小説などの影響で、多...

人工知能の急速な発展により、小売業界は第5の変革期を迎えている。

[[252330]]人工知能の急速な発展は、新しい小売業者に力を与え、小売業界の「人、商品、場所」...