この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 原題: 鳥瞰図におけるレーダーとカメラの融合に関するデータセット間実験的研究 論文のアイデア:mmWave レーダーとカメラの融合システムは、補完的なセンサー情報を活用することで、先進運転支援システムや自動運転機能に非常に堅牢で信頼性の高い認識システムを提供できる可能性があります。カメラベースの物体検出における最近の進歩により、ミリ波レーダーカメラと鳥瞰図の特徴マップを融合する新たな可能性が生まれています。本稿では、新しい柔軟な融合ネットワークを提案し、nuScenes と View-of-Delft の 2 つのデータセットでそのパフォーマンスを評価します。私たちの実験では、カメラ部門では大規模で多様なトレーニング データが必要であるのに対し、mmWave レーダー部門では高性能 mmWave レーダーからより多くのメリットが得られることがわかりました。この論文では転移学習を使用して、より小さなデータセットでのカメラのパフォーマンスを向上させます。さらに、私たちの結果は、mmWave レーダーとカメラの融合アプローチが、カメラのみおよび mmWave レーダーのみのベースラインを大幅に上回ることを示しています。 ネットワーク設計:3D オブジェクト検出における最近の傾向は、画像の特徴を共通の鳥瞰図 (BEV) 表現に変換することです。これにより、複数のカメラ間の融合や距離センサーの使用に使用できる柔軟な融合アーキテクチャが提供されます。本研究では、もともとレーザーカメラ融合に使用されていた BEVFusion 法を拡張して、ミリ波レーダーカメラ融合を実行します。提案された融合方法は、選択された mmWave レーダー データセットでトレーニングおよび評価されます。いくつかの実験で、各データセットの長所と短所について説明します。最後に、本論文では移行を適用してさらなる改善を実現します。 図1 BEVFusionに基づくBEVミリ波レーダーカメラ融合フローチャート。生成されたカメラ画像には、投影された mmWave レーダー検出と地上真実境界ボックスが含まれます。 この記事では、 BEVFusionの融合アーキテクチャについて説明します。図 1 は、BEV におけるミリ波レーダーとカメラの融合を提案するネットワークの概要を示しています。融合は、BEV 内でカメラと mmWave レーダー機能が接続されたときに発生することに注意してください。以下、この記事では各ブロックの詳細について説明します。 A. カメラエンコーダーとカメラからBEVへのビュー変換 カメラエンコーダとビュー変換は[15]のアイデアを採用しており、任意のカメラの外部パラメータと内部パラメータの画像BEV特徴を抽出できる柔軟なフレームワークである。まず、tiny-Swin Transformer ネットワークを使用して各画像から特徴を抽出します。次に、[14]のLiftとSplatのステップを使用して、画像の特徴をBEV平面に変換します。このため、高密度深度予測の後にルールベースのブロックが続き、そこで特徴が疑似ポイント クラウドに変換され、ラスタライズされて BEV グリッドに蓄積されます。 B. レーダーピラー特徴エンコーダ このブロックの目的は、mmWave レーダー ポイント クラウドを、画像 BEV 機能と同じグリッド上の BEV 機能にエンコードすることです。この目的のために、本論文ではピラー特徴エンコーディング技術[16]を使用して、点群を無限に高いボクセル、いわゆるピラーにラスタライズします。 C. BEVエンコーダ [5]と同様に、mmWaveレーダーとカメラのBEV機能はカスケード接続で融合されています。融合された特徴は、ジョイント畳み込み BEV エンコーダーによって処理され、ネットワークが空間的なずれを考慮し、異なるモダリティ間の相乗効果を活用できるようになります。 D. 検出ヘッド この論文では、CenterPoint 検出ヘッドを使用して、各クラスのオブジェクト中心のヒートマップを予測します。さらに回帰ヘッドは、オブジェクトのサイズ、回転、高さ、および nuScenes の速度とクラス属性を予測します。ヒートマップはガウス焦点損失を使用してトレーニングされ、残りの検出ヘッドは L1 損失を使用してトレーニングされます。 実験結果:引用:Stäcker, L., Heidenreich, P., Rambach, J., & Stricker, D. (2023). 鳥瞰図におけるレーダーカメラ融合のデータセット間実験研究。ArXiv. /abs/2309.15465 オリジナルリンク: https://mp.weixin.qq.com/s/ayZl9tnm47y9VpfgmIG2qg |
<<: AIGC に向けてビジネスを準備するために CIO が尋ねるべき 8 つの質問
>>: 計算負荷の少ない BEV モデルのパフォーマンスを向上させるにはどうすればよいでしょうか?おそらく DistillBEV が答えでしょう!
2019 年のベスト オープンソース プロジェクトを選択するために、Medium のネットユーザーが...
清華大学とカリフォルニア大学バークレー校の共同研究により、アルゴリズムやネットワークアーキテクチャに...
最近、人工知能技術は大規模モデルにおいて飛躍的な進歩を遂げています。昨日、Google が提案した ...
既存企業は、クラウド コンピューティングの導入を検討する際、ジレンマに直面します。メリットは魅力的か...
空でない整数の配列が与えられた場合、最も頻繁に出現する上位 k 個の要素を返します。例1:入力: n...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
執筆者 | Yan Zheng制作:51CTO テクノロジースタック(WeChat ID:blog)...
Informa傘下の世界的に有名な市場調査会社Tractica/Ovumは、30の分野で約300件の...
エンジニアであれ消費者であれ、AIとIoT技術が私たちの生活にもたらした変化は誰もが感じています。ビ...
自然災害が増加する中、スイス・リーは人工知能を活用して、顧客が保険金請求をより正確に予測し、手続きを...
オクルージョンは、コンピューター ビジョンにおける最も基本的な問題ですが、未だに解決されていない問題...
ジャクソン氏は過去 8 年間にわたり、このプロジェクトを成熟させるために、社内の他の幹部と協力してき...
IoT がどのように発展していくかを予測することは困難ですが、一部の IoT テクノロジーは数年以内...
いつもトラブルを起こしているAI分野の花形研究機関OpenAIが最近また別のことをしました。GPT-...