この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 最近、Arxiv で純粋な視覚的周囲知覚に関する新しい研究を読みました。これは PETR シリーズの手法の続きであり、純粋な視覚的知覚における長距離ターゲット検出の問題を解決し、知覚範囲を 150 メートルまで拡張する方法に焦点を当てています。論文の方法と結果はかなり参考になるので、解釈してみましょう。 Far3D: サラウンドビュー 3D オブジェクト検出の可能性を広げる ミッションの背景3D オブジェクト検出は、車両周囲のオブジェクトを正確に特定して分類することを目的として、自動運転の 3D シーンを理解する上で重要な役割を果たします。純粋な視覚的周囲知覚法は、低コストと幅広い適用性という利点があり、大きな進歩を遂げてきました。しかし、それらのほとんどは短距離の知覚に焦点を当てており(たとえば、nuScenes の知覚距離は約 50 メートル)、長距離検出の分野はあまり研究されていません。遠くの物体を検出することは、特に高速走行時や複雑な道路状況での実際の運転において安全な距離を維持するために重要です。 最近、低コストで実装できるサラウンドビュー画像からの 3D オブジェクト検出において目覚ましい進歩が遂げられています。しかし、ほとんどの研究は短距離の認識範囲に焦点を当てており、長距離の検出についての研究はあまり行われていません。既存の方法を直接拡張して長距離をカバーすると、計算コストが高くなり、収束が不安定になるなどの課題が生じます。これらの制限に対処するために、本論文では Far3D と呼ばれる新しいスパース クエリ ベースのフレームワークを提案します。 論文のアイデア既存のサラウンドビュー知覚方法は、中間表現に応じて、BEV 表現に基づく方法とスパース クエリ表現に基づく方法の 2 つのカテゴリに大まかに分類できます。 BEV 特性ベースのアプローチは、集中的な BEV 特性計算のために計算コストが非常に高く、長距離シナリオに拡張することが困難です。スパースクエリ表現に基づくこの方法では、計算量を大幅に削減し、スケーラビリティを強化しながら、トレーニング データからグローバル 3D クエリを学習できます。しかし、弱点もあります。グローバル固定クエリは、クエリ数の二次増加を回避できますが、動的なシーンに適応するのが難しく、通常、長距離検出ではターゲットを見逃します。 図 1: Argoverse 2 データセットにおける 3D 検出と 2D 検出のパフォーマンス比較。 長距離検出では、スパースクエリ表現に基づく方法には主に 2 つの課題があります。
上記の問題を解決するために、本論文では以下の設計を行います。
主な貢献
モデル設計Far3D パイプラインの概要:
視点を考慮した集約:長距離検出モデルにマルチスケールの特徴を導入するために、本論文では 3D 空間変形可能注意を適用します。まず、クエリに対応する 3D 位置付近でオフセット サンプリングを実行し、次に 3D-2D ビュー変換を通じて画像の特徴を集約します。 PETR シリーズのグローバル アテンションを置き換えるこの方法の利点は、計算量を大幅に削減できることです。具体的には、3D 空間内の各クエリ参照ポイントについて、モデルはその周囲の M 個のサンプル オフセットを学習し、これらのオフセット ポイントをさまざまな 2D ビュー フィーチャに投影します。 その後、3D クエリは投影されたサンプリングされたフィーチャと対話します。このようにして、異なる視点やスケールからのさまざまな特徴が、それらの相対的な重要性を考慮して 3 次元クエリに収束されます。 範囲変調 3D ノイズ除去:異なる距離での 3D クエリには異なる回帰の難しさがあり、これは既存の 2D ノイズ除去方法 (通常は 2D クエリを平等に扱う DN-DETR など) とは異なります。難易度の違いは、クエリの一致密度とエラーの伝播によって生じます。一方、遠くのオブジェクトに対応するクエリの一致度は、近くのオブジェクトに対応するクエリの一致度よりも低くなります。一方、2D 事前確率を 3D 適応クエリに導入すると、2D オブジェクト ボックス内の小さなエラーが増幅され、この効果はオブジェクトの距離とともに増加することは言うまでもありません。したがって、GT ボックスに近い一部のクエリは肯定的なクエリと見なすことができますが、明らかに逸脱しているその他のクエリは否定的なクエリと見なす必要があります。本論文では、これらの正のサンプルを最適化し、負のサンプルを直接破棄することを目的とした 3D ノイズ除去法を提案します。 具体的には、著者らは、正と負の両方のサンプル グループを追加することにより、GT に基づくノイズの多いクエリを構築します。どちらのタイプでも、オブジェクトの位置とサイズに応じてランダムノイズが適用され、長距離知覚におけるノイズ除去学習が容易になります。正式には、正のサンプルは 3D ボックス内のランダムなポイントとして定義され、負のサンプルはグラウンド トゥルースに対してより大きなオフセットを適用し、その範囲はオブジェクトまでの距離に応じて変化します。このアプローチでは、トレーニング プロセス中にノイズの多い候補の陽性サンプルと偽陽性サンプルをシミュレートできます。 実験結果Far3D は、150 メートルの検知範囲で Argoverse 2 で最高のパフォーマンスを実現します。モデルをスケールアップすると、いくつかの LiDAR ベースの方法のパフォーマンスに到達でき、純粋な視覚方法の可能性を実証できます。 一般化パフォーマンスを検証するために、著者らは nuScenes データセットでも実験を行い、検証セットとテストセットの両方で SoTA パフォーマンスが達成されたことを示しました。 アブレーション実験では、3D 適応クエリ、視点を考慮した集約、範囲変調 3D ノイズ除去のそれぞれの利点が実証されています。 紙の思考Q: この記事の目新しい点は何ですか? Q: MV2D と BevFormer v2 の違いは何ですか? Q: クエリ伝播と機能伝播を組み合わせるなど、タイミングを改善することはできますか? Q: 他に改善すべき点はありますか? オリジナルリンク: https://mp.weixin.qq.com/s/xxaaYQsjuWzMI7PnSmuaWg |
[[414852]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
大規模言語モデル (LLM) は、さまざまな自然言語タスクで優れたパフォーマンスを発揮しています。た...
[[253800]] 2017年にジャック・マーがニューリテールの概念を提唱して以来、雨後の筍のよ...
ビジョンは、私たちの世界を大きく変えつつあるモノのインターネットの成長において、急速に主要なセンシン...
AIは2016年以来最もホットなキーワードであり、それについてはさまざまな意見があります。バブルがは...
機械学習、ビッグデータ、自動化は世界の産業システムに革命をもたらしており、エネルギー業界も例外ではあ...
7月4日、世界初のAI開発者カンファレンス「Baidu Create 2018」が2年目を迎えました...
[[338620]]画像はPexelsよりこの記事はWeChatの公開アカウント「Big Data ...
ワイン、酒類、ビール会社を含むあらゆる業界が、モノのインターネット (IoT) と人工知能 (AI)...
最近、NIST は、人工知能システムに対するサイバー攻撃に関する、おそらくこれまでで最も詳細な分類ガ...
2020年5月、GPT-3はGPT-2の1年後に正式にリリースされました。GPT-2も、オリジナル...