Far3D: 150m まで直接到達、視覚的な 3D オブジェクト検出への新しいアプローチ (AAAI2024)

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

最近、Arxiv で純粋な視覚的周囲知覚に関する新しい研究を読みました。これは PETR シリーズの手法の続きであり、純粋な視覚的知覚における長距離ターゲット検出の問題を解決し、知覚範囲を 150 メートルまで拡張する方法に焦点を当てています。論文の方法と結果はかなり参考になるので、解釈してみましょう。

Far3D: サラウンドビュー 3D オブジェクト検出の可能性を広げる
論文リンク: https://arxiv.org/abs/2308.09616
著者所属機関: 北京理工大学 & Megvii Technology

ミッションの背景

3D オブジェクト検出は、車両周囲のオブジェクトを正確に特定して分類することを目的として、自動運転の 3D シーンを理解する上で重要な役割を果たします。純粋な視覚的周囲知覚法は、低コストと幅広い適用性という利点があり、大きな進歩を遂げてきました。しかし、それらのほとんどは短距離の知覚に焦点を当てており（たとえば、nuScenes の知覚距離は約 50 メートル）、長距離検出の分野はあまり研究されていません。遠くの物体を検出することは、特に高速走行時や複雑な道路状況での実際の運転において安全な距離を維持するために重要です。

最近、低コストで実装できるサラウンドビュー画像からの 3D オブジェクト検出において目覚ましい進歩が遂げられています。しかし、ほとんどの研究は短距離の認識範囲に焦点を当てており、長距離の検出についての研究はあまり行われていません。既存の方法を直接拡張して長距離をカバーすると、計算コストが高くなり、収束が不安定になるなどの課題が生じます。これらの制限に対処するために、本論文では Far3D と呼ばれる新しいスパースクエリベースのフレームワークを提案します。

論文のアイデア

既存のサラウンドビュー知覚方法は、中間表現に応じて、BEV 表現に基づく方法とスパースクエリ表現に基づく方法の 2 つのカテゴリに大まかに分類できます。 BEV 特性ベースのアプローチは、集中的な BEV 特性計算のために計算コストが非常に高く、長距離シナリオに拡張することが困難です。スパースクエリ表現に基づくこの方法では、計算量を大幅に削減し、スケーラビリティを強化しながら、トレーニングデータからグローバル 3D クエリを学習できます。しかし、弱点もあります。グローバル固定クエリは、クエリ数の二次増加を回避できますが、動的なシーンに適応するのが難しく、通常、長距離検出ではターゲットを見逃します。

図 1: Argoverse 2 データセットにおける 3D 検出と 2D 検出のパフォーマンス比較。

長距離検出では、スパースクエリ表現に基づく方法には主に 2 つの課題があります。

1 つ目は、リコール性能が低いことです。 3D 空間でのクエリの分布がまばらであるため、長距離範囲では一致する正のクエリが少数しか生成されません。上図に示すように、3D 検出の再現率は低いのに対し、既存の 2D 検出の再現率ははるかに高く、両者の間には明らかなパフォーマンスの差があります。したがって、高品質の 2D オブジェクトの事前確率を活用して 3D クエリを改善することは、正確なオブジェクトの位置特定と包括的なカバレッジの実現に役立つ有望なアプローチです。
第二に、2D 検出結果を直接導入して 3D 検出を支援すると、エラー伝播の問題に直面します。下の図に示すように、2 つの主な原因は、1) 不正確な深度予測によるオブジェクトの位置エラーと、2) 距離とともに増加するフラスタム変換の 3D 位置エラーです。これらのノイズの多いクエリはトレーニングの安定性に影響を与えるため、最適化するには効果的なノイズ除去方法が必要になります。さらに、トレーニング中、モデルは密集した近くのオブジェクトに過剰適合し、まばらに分布している遠くのオブジェクトを無視する傾向を示します。

上記の問題を解決するために、本論文では以下の設計を行います。

データセットから学習した 3D グローバルクエリに加えて、2D 検出結果から生成された 3D 適応クエリも導入されています。具体的には、まず 2D 検出器と深度予測ネットワークを使用して 2D ボックスと対応する深度を取得し、次に 3D 適応クエリの初期化として空間変換を通じて 3D 空間に投影します。
異なる距離にあるオブジェクトの異なるスケールに適応するために、Perspective-aware Aggation が設計されています。これにより、3D クエリがさまざまなスケールのフィーチャと対話できるようになり、さまざまな距離にあるオブジェクトのフィーチャをキャプチャするのに役立ちます。たとえば、遠くの物体には高解像度の特徴が必要ですが、近くの物体には異なります。この設計により、モデルは機能と適応的に相互作用できるようになります。
範囲変調 3D ノイズ除去と呼ばれる戦略は、クエリエラーの伝播と収束の遅延の問題を軽減するように設計されています。異なる距離でのクエリ回帰の難易度の違いを考慮して、ノイズの多いクエリは、グラウンドトゥルースボックスの距離とスケールに応じて調整されます。 GT 付近のノイズの多いクエリの複数のグループがデコーダーに入力され、それぞれ 3D 実ボックス (正のサンプルの場合) が再構築され、負のサンプルが破棄されます。

主な貢献

本稿では、高品質の 2D オブジェクトを活用して 3D 適応クエリを生成する新しいスパースクエリベースの検出フレームワークを提案し、それによって 3D 検出の認識範囲を拡大します。
この論文では、さまざまなスケールと視点からの視覚的特徴を集約する視点認識集約モジュールと、クエリエラーの伝播とフレームワークの収束の問題を解決するためのターゲット距離ベースの 3D ノイズ除去戦略を設計します。
長距離 Argoverse 2 データセットの実験結果では、Far3D が従来のサラウンドビューメソッドを上回り、いくつかの LIDAR ベースのメソッドよりも優れていることが示されています。そして、その汎用性は nuScenes データセットで検証されています。

モデル設計

Far3D パイプラインの概要:

サラウンドビュー画像はバックボーンネットワークと FPN レイヤーに入力され、2D 画像の特徴を取得するためにエンコードされ、その後、カメラパラメータを使用してエンコードされます。
2D 検出器と深度予測ネットワークを使用して、信頼性の高い 2D オブジェクトボックスとそれに対応する深度が生成され、カメラ変換を通じて 3D 空間に投影されます。
生成された 3D 適応クエリは、初期の 3D グローバルクエリと結合され、デコーダーレイヤーによって反復的に回帰され、3D オブジェクトボックスが予測されます。さらに、このモデルは長期的なクエリ伝播を通じて時系列モデリングを実現できます。

視点を考慮した集約:

長距離検出モデルにマルチスケールの特徴を導入するために、本論文では 3D 空間変形可能注意を適用します。まず、クエリに対応する 3D 位置付近でオフセットサンプリングを実行し、次に 3D-2D ビュー変換を通じて画像の特徴を集約します。 PETR シリーズのグローバルアテンションを置き換えるこの方法の利点は、計算量を大幅に削減できることです。具体的には、3D 空間内の各クエリ参照ポイントについて、モデルはその周囲の M 個のサンプルオフセットを学習し、これらのオフセットポイントをさまざまな 2D ビューフィーチャに投影します。

その後、3D クエリは投影されたサンプリングされたフィーチャと対話します。このようにして、異なる視点やスケールからのさまざまな特徴が、それらの相対的な重要性を考慮して 3 次元クエリに収束されます。

範囲変調 3D ノイズ除去:

異なる距離での 3D クエリには異なる回帰の難しさがあり、これは既存の 2D ノイズ除去方法 (通常は 2D クエリを平等に扱う DN-DETR など) とは異なります。難易度の違いは、クエリの一致密度とエラーの伝播によって生じます。一方、遠くのオブジェクトに対応するクエリの一致度は、近くのオブジェクトに対応するクエリの一致度よりも低くなります。一方、2D 事前確率を 3D 適応クエリに導入すると、2D オブジェクトボックス内の小さなエラーが増幅され、この効果はオブジェクトの距離とともに増加することは言うまでもありません。したがって、GT ボックスに近い一部のクエリは肯定的なクエリと見なすことができますが、明らかに逸脱しているその他のクエリは否定的なクエリと見なす必要があります。本論文では、これらの正のサンプルを最適化し、負のサンプルを直接破棄することを目的とした 3D ノイズ除去法を提案します。

具体的には、著者らは、正と負の両方のサンプルグループを追加することにより、GT に基づくノイズの多いクエリを構築します。どちらのタイプでも、オブジェクトの位置とサイズに応じてランダムノイズが適用され、長距離知覚におけるノイズ除去学習が容易になります。正式には、正のサンプルは 3D ボックス内のランダムなポイントとして定義され、負のサンプルはグラウンドトゥルースに対してより大きなオフセットを適用し、その範囲はオブジェクトまでの距離に応じて変化します。このアプローチでは、トレーニングプロセス中にノイズの多い候補の陽性サンプルと偽陽性サンプルをシミュレートできます。

実験結果

Far3D は、150 メートルの検知範囲で Argoverse 2 で最高のパフォーマンスを実現します。モデルをスケールアップすると、いくつかの LiDAR ベースの方法のパフォーマンスに到達でき、純粋な視覚方法の可能性を実証できます。

一般化パフォーマンスを検証するために、著者らは nuScenes データセットでも実験を行い、検証セットとテストセットの両方で SoTA パフォーマンスが達成されたことを示しました。

アブレーション実験では、3D 適応クエリ、視点を考慮した集約、範囲変調 3D ノイズ除去のそれぞれの利点が実証されています。

紙の思考

Q: この記事の目新しい点は何ですか?
A: 主な新機能は、遠距離のシーンの知覚問題を解決することです。既存の方法を長距離シナリオに拡張するには、計算コストや収束の難しさなど、多くの問題があります。この論文の著者らは、このタスクのための効率的なフレームワークを提案しています。各モジュールは個別に見るとよく似ているように見えるかもしれませんが、すべては遠くのターゲットを検出するという目的を果たし、明確な目標を持っています。

Q: MV2D と BevFormer v2 の違いは何ですか?
A: MV2D は主に 2D アンカーに依存して対応する特徴を取得し、3D を結合しますが、明示的な深度推定がないため、遠くの物体に対する不確実性が比較的大きくなり、収束が困難です。BevFormer v2 は主に 2D バックボーンと 3D タスクシーン間のドメインギャップを解決します。一般に、2D 認識タスクで事前トレーニングされたバックボーンは 3D シーンを認識する能力が不十分であり、長距離タスクの問題を探求していません。

Q: クエリ伝播と機能伝播を組み合わせるなど、タイミングを改善することはできますか?
A: 理論的には可能ですが、実際のアプリケーションではパフォーマンスと効率のトレードオフを考慮する必要があります。

Q: 他に改善すべき点はありますか?
A: ロングテール課題と長距離評価指標の両方において改善の余地があります。 Argoverse 2 のような 26 カテゴリのターゲットでは、モデルはロングテールカテゴリでパフォーマンスが低下し、最終的には平均精度が低下しますが、これについては調査されていません。一方、遠くの物体と近くの物体の両方を評価するために統一された測定基準を使用することは適切ではない可能性があり、さまざまな現実世界のシナリオに適応できる実用的な動的評価基準の必要性が強調されます。

オリジナルリンク: https://mp.weixin.qq.com/s/xxaaYQsjuWzMI7PnSmuaWg

<<: オープンソースAIとプロプライエタリAIの戦い

>>: