この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 1. ウーブン・プラネット(トヨタ子会社)のソリューション:アーバン・ドライバー2021この記事は21年前のものですが、多くの新しい記事がこれを比較基準として使っているので、その方法も見る必要があるかもしれません。 ざっと見たところ、主にポリシー勾配を使用して、状態->最近のアクションのマッピング関数を学習していることがわかりました。このマッピング関数を使用すると、実行軌跡全体を段階的に推測できます。最終的な損失は、この推測によって与えられた軌跡を、エキスパートの軌跡にできるだけ近づけることです。 当時の効果は良好だったはずなので、さまざまな新しいアルゴリズムのベースラインになりました。 2. 南洋理工大学 ソリューション1:逆強化学習による条件付き予測行動計画 2023.04まず、ルールを使用してさまざまな動作を列挙し、10 ~ 30 個の軌跡を生成しました。 (予測結果は使用されません) 条件付き共同予測モデルは次のようになります。 この方法の優れた点は、条件付きジョイント予測を利用してインタラクティブな予測を非常にうまく実行し、アルゴリズムに一定のゲーム機能を与えることです。 3. NVIDIA ソリューション: 2023.02 学習した行動モデルによるツリー構造のポリシー プランニングルール ツリー サンプリングを使用し、レイヤーごとに検討し、各レイヤーの各子ノードに対して条件付き予測を生成し、ルールを使用して予測結果と主要な車両軌道にスコアを付け、いくつかのルールを使用して不正なものを排除します。次に、DP を使用して最適な軌道を生成します。DP の考え方は、Apollo の dp_path_optimizer に似ていますが、時間ディメンションが追加されています。 しかし、次元が1つ増えたため、その後の拡張回数を重ねても、解空間が大きく、計算量が大きすぎる状況が依然として存在します。現在の論文に書かれている方法は、ノードが多すぎると、いくつかのノードをランダムに破棄して、計算量を制御可能にすることです(ノードが多すぎると、n層後になる可能性があり、影響は比較的小さい可能性があるという意味だと思います) この論文の主な貢献は、このツリーサンプリング規則を通じて連続解空間をマルコフ決定プロセスに変換し、DP を使用してそれを解決することです。 4. 南洋理工大学と NVIDIA の 2023 年 10 月の最新共同計画: DTPP: 自動運転におけるツリー ポリシー計画のための微分可能な共同条件予測とコスト評価タイトルを見るだけでとてもワクワクします。 1. 条件付き予測により、特定のゲーム効果が保証されます。2. 微分可能で、勾配全体を返すことができるため、予測を IRL と一緒にトレーニングできます。これは、エンドツーエンドの自動運転システムを構築するための必要条件でもあります。3. ツリーポリシープランニング。特定のインタラクティブな推論機能を備えている場合があります。 注意深く読んでみると、この記事は非常に有益であり、方法も非常に巧妙であることがわかりました。 これは主に、NVIDIA の TPP と Nanyang Technological University の逆強化学習による条件付き予測行動計画の組み合わせと改良に基づいており、Nanyang Technological University の以前の論文における選択軌道の悪さの問題を効果的に解決します。 論文提案の主なモジュールは次のとおりです。 1. 条件付き予測モジュール: メイン車両の過去の軌跡 + プロンプト軌跡 + 障害物車両の過去の軌跡を入力し、プロンプト軌跡に近づくメイン車両の予測軌跡と、メイン車両の動作と一致する障害物車両の予測軌跡を提供します。 ツリー サーチ ソリューションは、メイン ビークルの実行可能なソリューションを探索するために使用されます。探索プロセスの各ステップでは、探索された軌道が入力として使用され、条件付き予測を使用して、メイン ビークルと障害物ビークルの予測軌道が与えられます。次に、スコアリング モジュールが呼び出され、軌道の品質が評価されます。これは、拡張ノードを検索する次のステップの方向に影響します。この方法を使用すると、比較的大きな差のあるいくつかの主要な車両軌道を取得でき、軌道を生成するときに障害物車両との相互作用が常に考慮されます。 従来の IRL では、軌道時間次元の前後にある多数の障害物のさまざまな特徴 (相対的な s、l、ttc など) など、多くの特徴が人工的に作成されます。モデルを微分可能にするために、本論文では予測エゴコンテキスト MLP を直接使用して、主車両の周囲の環境情報を暗黙的に表す重み配列 (サイズ = 1 * C) を生成します。次に、MLP を使用して、主車両の軌道 + 対応するマルチモーダル予測結果を直接特徴配列 (サイズ = C * N、N は候補軌道の数を指します) に変換し、2 つの行列を乗算して最終的な軌道スコアを取得します。次に、IRL で専門家に最高得点をもらいます。個人的には、これは計算効率のため、デコーダーをできるだけシンプルにするため、または一定量の主要な車両情報が失われるためではないかと感じています。計算効率を気にしないのであれば、より複雑なネットワークを使用してEgo ContextとPredicted Trajectoriesを接続すると、より良い効果が得られるのではないでしょうか。あるいは、微分可能性をあきらめた場合でも、手動で設定された機能を追加することを検討できます。これにより、モデルの効果も向上するはずです。 時間消費の面では、このソリューションは 1 つの重いエンコード + 複数の軽量デコードという方法を採用しており、計算遅延を効果的に削減します。記事では、遅延を 98 ミリ秒まで削減できると述べています。 これは SOTA 学習ベースのプランナーの 1 つであり、そのクローズド ループ効果は、前の記事で言及した nuplan によって 1 位にランク付けされたルール ベース ソリューション PDM の効果に近いです。 要約するこれを読んで、このパラダイムは良いアイデアだと感じました。途中で特定のプロセスを調整する方法が見つかります。
オリジナルリンク: https://mp.weixin.qq.com/s/ZJtMU3zGciot1g5BoCe9Ow |
<<: ガートナー、2024年以降のIT組織とユーザーに関する重要な予測を発表
>>: ワールドモデルや DriveGPT などの大規模モデルは自動運転に何をもたらすのでしょうか?
エッジ コンピューティングと AI はどのように連携するのでしょうか? エッジ コンピューティングが...
旅の途中と安定した拡散が限界に達しました! Stable Diffusion XL 0.9 がリリー...
モノのインターネット (IoT) と人工知能 (AI) の融合により、産業の風景に革命をもたらす変革...
「誰がどれだけの H100 を受け取るのか、そしていつ H100 を受け取るのかは、シリコンバレーで...
「xx、テレビ台のリモコンを取ってきて。」 家庭環境では、多くの家族が必然的にこの種の作業を命じられ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
コンピュータの問題解決のプロセスにおいて、データ構造とアルゴリズムはプログラムの 2 つの主要要素で...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
[51CTO.com からのオリジナル記事] 人工知能アルゴリズムに関しては、ディープラーニングが現...
海外メディアTech Xploreによると、MITの研究者らは最近、新しいタンパク質分子の構造を事前...
11月19日、滴滴出行は米国の新研究オフィスで地元の科学研究者向けの技術サロンを開催した。 Did...
はい、この時計があれば、MNIST 手書きデータセットなしでは生きていけません。私たちは古代の真空管...
プラットフォームを選択するための第一の原則は、「データに近い」ことです。コードをデータの近くに保つこ...