自動運転のためのエンドツーエンドの計画方法の概要

自動運転のためのエンドツーエンドの計画方法の概要

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

1. ウーブン・プラネット(トヨタ子会社)のソリューション:アーバン・ドライバー2021

この記事は21年前のものですが、多くの新しい記事がこれを比較基準として使っているので、その方法も見る必要があるかもしれません。

ざっと見たところ、主にポリシー勾配を使用して、状態->最近のアクションのマッピング関数を学習していることがわかりました。このマッピング関数を使用すると、実行軌跡全体を段階的に推測できます。最終的な損失は、この推測によって与えられた軌跡を、エキスパートの軌跡にできるだけ近づけることです。

当時の効果は良好だったはずなので、さまざまな新しいアルゴリズムのベースラインになりました。

2. 南洋理工大学 ソリューション1:逆強化学習による条件付き予測行動計画 2023.04

まず、ルールを使用してさまざまな動作を列挙し、10 ~ 30 個の軌跡を生成しました。 (予測結果は使用されません)
条件付き予測を使用して、メイン車両の各候補軌道の予測結果を計算し、IRL を使用して候補軌道にスコアを付けます。

条件付き共同予測モ​​デルは次のようになります。

この方法の優れた点は、条件付きジョイント予測を利用してインタラクティブな予測を非常にうまく実行し、アルゴリズムに一定のゲーム機能を与えることです。
しかし、個人的には、このアルゴリズムの欠点は、最初に 10 ~ 30 個の軌道しか生成せず、軌道生成時に予測が考慮されないことだと考えています。最終的には、これらの軌道の 1 つが IRL スコアリング後の最終結果として直接選択されます。予測を考慮した後、10 ~ 30 個の軌道が理想的ではないという状況に遭遇することはよくあります。それは、不自由な人々の中から将軍を選ぼうとするのと同じで、選んだ将軍もやはり不自由な人のままです。この解決策に基づいて、選択するサンプルの品質を解決するとよいでしょう。

3. NVIDIA ソリューション: 2023.02 学習した行動モデルによるツリー構造のポリシー プランニング

ルール ツリー サンプリングを使用し、レイヤーごとに検討し、各レイヤーの各子ノードに対して条件付き予測を生成し、ルールを使用して予測結果と主要な車両軌道にスコアを付け、いくつかのルールを使用して不正なものを排除します。次に、DP を使用して最適な軌道を生成します。DP の考え方は、Apollo の dp_path_optimizer に似ていますが、時間ディメンションが追加されています。

しかし、次元が1つ増えたため、その後の拡張回数を重ねても、解空間が大きく、計算量が大きすぎる状況が依然として存在します。現在の論文に書かれている方法は、ノードが多すぎると、いくつかのノードをランダムに破棄して、計算量を制御可能にすることです(ノードが多すぎると、n層後になる可能性があり、影響は比較的小さい可能性があるという意味だと思います)

この論文の主な貢献は、このツリーサンプリング規則を通じて連続解空間をマルコフ決定プロセスに変換し、DP を使用してそれを解決することです。

4. 南洋理工大学と NVIDIA の 2023 年 10 月の最新共同計画: DTPP: 自動運転におけるツリー ポリシー計画のための微分可能な共同条件予測とコスト評価

タイトルを見るだけでとてもワクワクします。

1. 条件付き予測により、特定のゲーム効果が保証されます。2. 微分可能で、勾配全体を返すことができるため、予測を IRL と一緒にトレーニングできます。これは、エンドツーエンドの自動運転システムを構築するための必要条件でもあります。3. ツリーポリシープランニング。特定のインタラクティブな推論機能を備えている場合があります。

注意深く読んでみると、この記事は非常に有益であり、方法も非常に巧妙であることがわかりました。

これは主に、NVIDIA の TPP と Nanyang Technological University の逆強化学習による条件付き予測行動計画の組み合わせと改良に基づいており、Nanyang Technological University の以前の論文における選択軌道の悪さの問題を効果的に解決します。

論文提案の主なモジュールは次のとおりです。

1. 条件付き予測モジュール: メイン車両の過去の軌跡 + プロンプト軌跡 + 障害物車両の過去の軌跡を入力し、プロンプト軌跡に近づくメイン車両の予測軌跡と、メイン車両の動作と一致する障害物車両の予測軌跡を提供します。
次に、スコアリング モジュールは、メイン車両 + 障害物車両の軌道をスコアリングして、その軌道がエキスパートの動作に似ているかどうかを確認します。学習方法は IRL です。
3. 候補となる軌道を生成するために使われるツリーポリシー検索モジュール

ツリー サーチ ソリューションは、メイン ビークルの実行可能なソリューションを探索するために使用されます。探索プロセスの各ステップでは、探索された軌道が入力として使用され、条件付き予測を使用して、メイン ビークルと障害物ビークルの予測軌道が与えられます。次に、スコアリング モジュールが呼び出され、軌道の品質が評価されます。これは、拡張ノードを検索する次のステップの方向に影響します。この方法を使用すると、比較的大きな差のあるいくつかの主要な車両軌道を取得でき、軌道を生成するときに障害物車両との相互作用が常に考慮されます。

従来の IRL では、軌道時間次元の前後にある多数の障害物のさまざまな特徴 (相対的な s、l、ttc など) など、多くの特徴が人工的に作成されます。モデルを微分可能にするために、本論文では予測エゴコンテキスト MLP を直接使用して、主車両の周囲の環境情報を暗黙的に表す重み配列 (サイズ = 1 * C) を生成します。次に、MLP を使用して、主車両の軌道 + 対応するマルチモーダル予測結果を直接特徴配列 (サイズ = C * N、N は候補軌道の数を指します) に変換し、2 つの行列を乗算して最終的な軌道スコアを取得します。次に、IRL で専門家に最高得点をもらいます。個人的には、これは計算効率のため、デコーダーをできるだけシンプルにするため、または一定量の主要な車両情報が失われるためではないかと感じています。計算効率を気にしないのであれば、より複雑なネットワークを使用してEgo ContextとPredicted Trajectoriesを接続すると、より良い効果が得られるのではないでしょうか。あるいは、微分可能性をあきらめた場合でも、手動で設定された機能を追加することを検討できます。これにより、モデルの効果も向上するはずです。

時間消費の面では、このソリューションは 1 つの重いエンコード + 複数の軽量デコードという方法を採用しており、計算遅延を効果的に削減します。記事では、遅延を 98 ミリ秒まで削減できると述べています。

これは SOTA 学習ベースのプランナーの 1 つであり、そのクローズド ループ効果は、前の記事で言及した nuplan によって 1 位にランク付けされたルール ベース ソリューション PDM の効果に近いです。

要約する

これを読んで、このパラダイムは良いアイデアだと感じました。途中で特定のプロセスを調整する方法が見つかります。

  1. 予測モデルを使用していくつかのルールを導き、候補となるエゴ軌道を生成する
  2. 各軌道について、条件付きジョイント予測を使用してインタラクティブな予測を行い、エージェント予測を生成します。ゲームのパフォーマンスを向上させることができます。
  3. IRLなどの方法では、条件付き共同予測の結果を使用して、前方の主な車両軌道を評価し、最適な軌道を選択します。

オリジナルリンク: https://mp.weixin.qq.com/s/ZJtMU3zGciot1g5BoCe9Ow

<<:  ガートナー、2024年以降のIT組織とユーザーに関する重要な予測を発表

>>:  ワールドモデルや DriveGPT などの大規模モデルは自動運転に何をもたらすのでしょうか?

ブログ    
ブログ    

推薦する

エッジコンピューティングと人工知能について知っておくべき7つのこと

エッジ コンピューティングと AI はどのように連携するのでしょうか? エッジ コンピューティングが...

Midjourney 5.2 がリリースされました!オリジナルの絵画から3Dシーンを生成し、無限の宇宙を無限に拡大します

旅の途中と安定した拡散が限界に達しました! Stable Diffusion XL 0.9 がリリー...

IoTとAIの相乗効果:予知保全の可能性を解き放つ

モノのインターネット (IoT) と人工知能 (AI) の融合により、産業の風景に革命をもたらす変革...

GPT-5 が誕生しました。50,000 個の H100 が必要です。世界のH100総需要は43万個、Nvidia GPUは品薄の嵐に

「誰がどれだけの H100 を受け取るのか、そしていつ H100 を受け取るのかは、シリコンバレーで...

...

お茶や水を出すロボットを購入する見込みはありますか?メタとニューヨーク大学がOK-Robotを開発

「xx、テレビ台のリモコンを取ってきて。」 家庭環境では、多くの家族が必然的にこの種の作業を命じられ...

マスクを着用していても、AIはあなたが何を言っているか理解できる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

2011 コンピュータソフトウェア試験プログラマー: アルゴリズム分析の基礎学習

コンピュータの問題解決のプロセスにおいて、データ構造とアルゴリズムはプログラムの 2 つの主要要素で...

...

Google の内部対立が激化!従業員が共同書簡に署名:AIマスターのジェフ・ディーン氏は謝罪すべき!

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

機械学習は将来どこに向かうのでしょうか?インテル・南京大学共同研究センターが答えを提供する

[51CTO.com からのオリジナル記事] 人工知能アルゴリズムに関しては、ディープラーニングが現...

効率が1200倍にアップ! MIT、医薬品製造向けの新たなAIモデルを開発

海外メディアTech Xploreによると、MITの研究者らは最近、新しいタンパク質分子の構造を事前...

シリコンバレーのエンジニアの間で大人気だったこの技術共有セッションで、ディディはどんなことを話したのでしょうか?

11月19日、滴滴出行は米国の新研究オフィスで地元の科学研究者向けの技術サロンを開催した。 Did...

AI Punk が MNIST に敬意を表す: Python と開発ボードのみを使用して、決して繰り返されない時計を作成

はい、この時計があれば、MNIST 手書きデータセットなしでは生きていけません。私たちは古代の真空管...

選択ガイド:機械学習をサポートする8つのデータベースの詳細解説

プラットフォームを選択するための第一の原則は、「データに近い」ことです。コードをデータの近くに保つこ...