ADMap: 干渉防止オンライン高精度マップへの新しいアプローチ

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

序文と著者の個人的な理解

皆さん、こんにちは。Heart of Autonomous Driving に招待され、ベクトル化された高精度マップをオンラインで再構築するための当社の妨害防止手法 ADMap を紹介できることを大変嬉しく思います。私たちのコードは https://github.com/hht1996ok/ADMap で公開されています。

自動運転の分野では、オンライン HD マップ再構築は計画および予測タスクにとって非常に重要です。最近の研究では、この需要を満たすために多くの高性能 HD マップ再構築モデルが構築されています。ただし、ベクトル化されたインスタンス内のポイントシーケンスでは、予測バイアスによりジッターやギザギザが発生し、後続のタスクに影響する可能性があります。そこで、私たちは、Anti-Disturbance Map再構築フレームワーク（ADMap）を提案しました。この記事では、モデルの速度と全体的な精度のバランスを取り、展開中にエンジニアに混乱を引き起こさないようにすることを目指しています。したがって、Multi-Scale Perception Neck (MPN)、Instance Interactive Attention (IIA)、Vector Direction Difference Loss (VDDL) という 3 つの効率的で効果的なモジュールが提案されています。インスタンス間およびインスタンス内のポイント順序関係を段階的に探索することにより、モデルはポイント順序予測プロセスをより適切に監視します。

nuScenesとArgoverse2でADMapの有効性を検証しました。実装結果では、各ベンチマークで最高のパフォーマンスが達成されたことが示されています。 nuScenes ベンチマークでは、カメラのみのフレームワークとマルチモーダルフレームワークの ADMap の mAP が、ベースラインと比較してそれぞれ 4.2% と 5.5% 向上しました。 ADMapv2 は推論の遅延を短縮するだけでなく、ベースラインパフォーマンスも効果的に向上し、最高 mAP は 82.8% に達します。 Argoverseでは、ADMapv2のmAPが14.8FPSを維持しながら62.9%まで向上しています。

要約すると、私たちが提案した ADMap には、主に次のような貢献があります。

より安定したベクトル化された高精度マップを再構築するために、エンドツーエンドの ADMap が提案されました。
MPN は、推論リソースを増やすことなく、マルチスケール情報をより適切にキャプチャします。IIA はインスタンス間およびインスタンス内での効果的な相互作用を完了し、ポイントレベルの特徴をより正確にします。VDDL は、ポイントシーケンス再構築プロセスをより細かく制約し、ポイントシーケンスの幾何学的関係を監視します。
ADMap は、ベクトル化された高精度マップのリアルタイム再構築を可能にし、nuScenes ベンチマークと Argoverse2 で最高の精度を実現します。

提案された方法

図 1 に示すように、インスタンス内の予測ポイントは必然的にジッタやオフセットが発生します。このジッタにより、再構築されたインスタンスベクトルが不均一またはギザギザになり、オンライン高精度マップの品質と実用性に重大な影響を及ぼします。その理由は、既存のモデルがインスタンス間およびインスタンス内の相互作用を十分に考慮していないためだと考えられます。インスタンスポイントとマップのトポロジ情報間の相互作用が不完全な場合、予測される位置が不正確になります。さらに、L1 損失やコサイン埋め込み損失などの監視だけでは、幾何学的関係を効果的に使用してインスタンスポイントの予測プロセスを制約することはできません。ネットワークは、ポイント間のベクトルセグメントを使用して、ポイントシーケンスの方向情報を正確に取得し、各ポイントの予測プロセスをより正確に制約する必要があります。

上記の問題を軽減するために、私たちはベクトル化された高精度地図のリアルタイムかつ安定した再構築を実現する、Anti-Disturbance Map再構築フレームワーク（ADMap）を革新的に提案しました。

方法設計

図 2 に示すように、ADMap は、Multi-Scale Perception Neck (MPN)、Instance Interactive Attention (IIA)、および Vector Direction Difference Loss (VDDL) を通じて、ポイント順序のトポロジ構造をより細かく予測します。以下では、それぞれ MPN、IIA、VDDL について紹介します。

マルチスケール知覚ネック

ネットワークがより詳細な BEV 機能を取得できるようにするために、融合された BEV 機能を入力とする Multi-Scale Perception Neck (MPN) を提案しました。ダウンサンプリング後、各レベルの BEV 特徴はアップサンプリングレイヤーに接続され、特徴マップが元のサイズに復元され、最後に各レベルの特徴マップがマルチスケール BEV 特徴にマージされます。

図 2 に示すように、点線はこのステップがトレーニング中にのみ実装されることを示し、実線はこのステップがトレーニングと推論の両方で実装されることを示します。トレーニングプロセス中に、マルチスケール BEV 特徴マップと各レベルの BEV 特徴マップが Transformer Decoder に送られ、ネットワークはさまざまなスケールでシーンのインスタンス情報を予測し、より洗練されたマルチスケール特徴をキャプチャできるようになります。推論プロセス中、MPN はマルチスケール BEV 機能のみを保持し、各レベルで機能マップを出力しません。これにより、推論中にネックのリソース使用量が変更されないことが保証されます。

トランスデコーダー

Transformer Decoder では、インスタンスレベルのクエリのセットとポイントレベルのクエリのセットが定義されます。ポイントレベルのクエリは、すべてのインスタンス間で共有されます。これらの階層型クエリは、次のように定義されます。

デコーダーは、階層クエリを反復的に更新する複数のカスケードされたデコードレイヤーで構成されています。各デコード層では、階層クエリが自己注意メカニズムに入力され、階層クエリが相互に情報を交換できるようになります。Deformable Attention は、階層クエリとマルチスケール BEV 機能との対話に使用されます。

インスタンスインタラクティブアテンション

デコード段階で各インスタンスの特徴をより適切に取得するために、インスタンス自己注意とポイント自己注意で構成されるインスタンスインタラクティブアテンション (IIA) を提案しました。インスタンスレベルとポイントレベルの埋め込みを並列に抽出する MapTRv2 とは異なり、IIA はクエリ埋め込みをカスケード的に抽出します。インスタンス埋め込み間の特徴の相互作用は、ネットワークがポイントレベルの埋め込み間の関係を学習するのにさらに役立ちます。

図 3 に示すように、Deformable クロスアテンションによって出力された階層的埋め込みは、インスタンスの自己注意に入力されます。ポイント次元とチャネル次元をマージした後、次元はに変換されます。次に、階層的埋め込みを複数の MLP で構成される埋め込みレイヤーに接続してインスタンスクエリを取得し、これをマルチヘッドセルフアテンションに入れてインスタンス間のトポロジ関係をキャプチャし、インスタンス埋め込みを取得します。インスタンスレベルの情報をポイントレベルの埋め込みに組み込むために、インスタンス埋め込みとレイヤーごとの埋め込みを合計します。追加された特徴は、ポイント自己注意に入力され、各インスタンスのポイント特徴と相互作用して、ポイントシーケンス間のトポロジ関係をさらに洗練させます。

ベクトル方向差損失

高精度マップには、車線、縁石、横断歩道などのベクトル化された静的マップ要素が含まれます。 ADMap は、これらの開いた形状 (車線、縁石) と閉じた形状 (横断歩道) に対してベクトル方向差損失を提案します。インスタンス内部で点順序ベクトル方向をモデル化し、予測ベクトル方向と実際のベクトル方向の差から点方向をより細かく監視することができます。さらに、真のベクトル方向の差が大きいポイントは、一部のシーンのトポロジの劇的な変化（予測しにくい）を表すものと考えられ、モデルではより注意を払う必要があります。したがって、ネットワークがこの急激な変化点を正確に予測できるように、真のベクトル方向の差が大きいポイントには、より大きな重みが与えられます。

図4は予測された点の順序を示している{ そして実数点列{ 予測ベクトル線そして実数ベクトル線{ の初期モデリング。反対の角度が同じ損失を受けないようにするために、ベクトル線θ ' 間の角度差の余弦を計算します。

この関数は、ベクトル線の座標位置を累積し、正規化操作を表します。実際のインスタンス内の各ポイントのベクトル角度の差を使用して、各ポイントに異なる重みを割り当てます。重みは次のように定義されます。

ここで、はインスタンス内のポイントの数を表し、関数は e を底とする指数関数を表します。最初の点と最後の点の間のベクトル角度の差は計算できないため、最初の点と最後の点の重みを 1 に設定します。グラウンドトゥルースのベクトル角度の差が大きくなると、そのポイントに大きな重みを割り当て、ネットワークが大幅に変化したマップトポロジーにさらに注意を払うようにします。点列内の各点の角度差損失は次のように定義されます。

θを使用して損失値を[0.0, 2.0]の範囲に調整します。各点の隣接するベクトル線間の角度差の余弦を追加することにより、損失は各点の幾何学的位相情報をより包括的にカバーします。最初の点と最後の点の間には隣接するベクトル線が 1 つしかないため、最初の点と最後の点の間の損失は、単一のベクトル間の角度差の余弦になります。

実験

公平な評価を行うために、地図の要素を車線、道路境界、横断歩道の 3 種類に分類します。平均精度 (AP) は地図構築の品質を評価するために使用され、予測されたポイントシーケンスと実際のポイントシーケンス間の面取り距離の合計は、2 つが一致するかどうかを判断するために使用されます。面取り距離のしきい値は [0.5, 1.0, 1.5] に設定されています。これら 3 つのしきい値でそれぞれ AP を計算し、その平均を最終的な指標として使用します。

比較実験

表 1 は、nuScenes データセットにおける ADMap と最先端の方法の指標を示しています。カメラのみのフレームワークでは、ADMap の mAP はベースライン (MapTR) と比較して 5.5% 向上し、ADMapv2 の mAP はベースライン (MapTRv2) と比較して 1.4% 向上しました。 ADMapv2 は 82.8% という最高の mAP を達成し、現在のベンチマークで最高のパフォーマンスを達成しました。詳細については、後続の arxiv バージョンで発表される予定です。速度の面では、ADMap はベースラインと比較して、FPS がわずかに低下したものの、モデルのパフォーマンスを大幅に向上させました。 ADMapv2 はパフォーマンスを向上させるだけでなく、モデル推論速度も向上させることに注目すべきです。

表 2 は、ADMap のメトリクスと Argoverse2 の最先端の手法を示しています。カメラのみのフレームワークでは、ADMap と ADMapv2 はベースラインと比較してそれぞれ 3.4% と 1.3% 向上します。マルチモーダルフレームワークでは、ADMap と ADMapv2 がそれぞれ 75.2% と 76.9% の mAP で最高のパフォーマンスを達成しました。スピードの面で。 ADMapv2 は MapTRv2 よりも 11.4ms 高速です。

アブレーション実験

表 3 では、nuScenes ベンチマーク上の ADMap のさまざまなモジュールのアブレーション実験を示します。

表 4 は、さまざまな注意メカニズムを挿入した場合の最終的なパフォーマンスへの影響を示しています。 DSA は分離された自己注意を表し、IIA はインスタンス相互作用注意を表します。結果は、IIA が DSA と比較して mAP を 1.3% 改善することを示しています。

表 5 は、機能を融合した後にバックボーンレイヤーとネックレイヤーを追加した場合の mAP への影響を報告しています。 SECOND ベースのバックボーンレイヤーとネックレイヤーを追加した後、mAP は 1.2% 増加しました。 MPN を追加した後、推論時間を増やすことなく、モデルの mAP が 2.0% 増加しました。

表 6 は、nuScenes ベンチマークに VDDL を追加した場合のパフォーマンスへの影響を報告しています。重みを 1.0 に設定すると、mAP が最も高くなり、53.3% に達することがわかります。

表 7 は、nuScenes ベンチマークにおける MPN ダウンサンプリングレイヤーの数による最終パフォーマンスへの影響を報告しています。ダウンサンプリングレイヤーの数が増えるほど、モデルの推論速度は遅くなります。そのため、速度とパフォーマンスのバランスをとるために、ダウンサンプリングレイヤーの数を 2 に設定しました。

ADMap が点順序の乱れの問題を効果的に軽減することを確認するために、平均面取り距離 (ACE) を提案しました。面取り距離の合計が 1.5 未満の予測インスタンスを選択し、平均面取り距離 (ACE) を計算しました。 ACE が小さいほど、インスタンスポイントシーケンスの予測の精度が高くなります。表 8 は、ADMap が点群の乱れの問題を効果的に軽減できることを証明しています。

結果を視覚化する

次の 2 つの図は、nuScenes データセットと Argoverse2 データセットの視覚化結果です。

要約する

ADMap は、効率的かつ効果的なベクトル化 HD マップ再構築フレームワークであり、予測偏差によりインスタンスベクトルのポイント順序で発生する可能性のあるジッターやギザギザの現象を効果的に軽減します。広範囲にわたる実験により、私たちが提案した方法は、nuScenes と Argoverse2 ベンチマークの両方で最先端のパフォーマンスを達成することが示されました。 ADMap は、ベクター高精度地図再構築タスクの研究を前進させ、自動運転などの分野の発展を促進するものと考えています。

<<: SAPはイノベーションで顧客の成功を支援し、AI時代のデータ主導のビジネス変革の未来を形作ります

>>: 大型モデル全般において中国と米国の差を縮めるにはどうすればいいでしょうか？全国人民代表大会でその答えが分かった