SupFusion: 香港中文大学の最新の LV 融合による 3D 検出用新 SOTA!

SupFusion: 香港中文大学の最新の LV 融合による 3D 検出用新 SOTA!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

元のタイトル: SupFusion: 3D オブジェクト検出のための教師あり LiDAR カメラ融合

論文リンク: https://arxiv.org/pdf/2309.07084.pdf

著者所属機関: NIO、香港中文大学

コードリンク: https://github.com/IranQin/SupFusion

会議: ICCV 2023

論文のアイデア

LiDARとカメラの融合による3次元検出は、自動運転を実現するための重要な技術の一つです。近年、多くの LiDAR カメラ融合方式が登場し、単一モダリティ検出器と比較して有望なパフォーマンスを実現していますが、融合プロセスの慎重な設計と効果的な監視が常に欠如しています。

本稿では、LiDAR とカメラの融合を効果的に行うための補助的な特徴レベルの監視を提供し、検出性能を大幅に向上させる新しいトレーニング戦略 SupFusion を提案します。私たちの戦略には、Polar Sampling と呼ばれるデータ拡張手法が採用されています。これは、スパース オブジェクトを暗号化し、補助モデルをトレーニングして、監視として高品質の機能を生成するものです。これらの特徴は、LiDAR カメラ融合モデルのトレーニングに使用され、融合された特徴は、生成された高品質の特徴をシミュレートするために最適化されます。さらに、本論文では、SupFusion 戦略に基づく既存の融合方法と比較して一貫して優れたパフォーマンスを発揮する、シンプルでありながら効果的なディープ融合モジュールを提案します。この論文で提案された方法には、次のような利点があると思われます。まず、SupFusion は補助的な特徴レベルの監視を導入し、追加の推論コストを導入することなく LiDAR カメラの検出パフォーマンスを向上させることができます。第二に、提案された深核融合により、検出器の能力を継続的に向上させることができます。本論文で提案されている SupFusion およびディープ フュージョン モジュールはプラグ アンド プレイであり、その有効性を実証するために多数の実験が行われています。具体的には、複数の LiDAR カメラ 3D 検出器に基づいて、この論文では KITTI ベンチマークで約 2% の 3D mAP の改善を実現しています。

主な貢献

本稿では、SupFusion という新しい教師あり融合トレーニング戦略を提案します。これは主に高品質の特徴生成プロセスで構成されており、私たちの知る限り、堅牢な融合特徴抽出と正確な 3D 検出を実現するために補助的な特徴レベルの監督損失を提案した初めての戦略です。

SupFusion で高品質の特徴を得るために、本論文では、極座標サンプリングを使用してスパース オブジェクトを暗号化するデータ拡張方法を提案します。さらに、本論文では、連続検出精度を向上させる効率的なディープフュージョンモジュールを提案しています。

我々は、異なる融合戦略を用いて複数の検出器で広範な実験を実施し、KITTI ベンチマークで約 2% の mAP 改善を達成しました。

ネットワーク設計

本論文では、高品質の特徴を生成し、融合および特徴抽出プロセスに効果的な監督を提供し、LiDAR カメラ融合に基づく 3D 検出のパフォーマンスをさらに向上させる、SupFusion という教師あり LiDAR カメラ融合方法を提案します。具体的には、まず高品質の機能を提供するために補助モデルをトレーニングします。この目標を達成するために、より大きなモデルや追加データを利用する従来の方法とは異なり、本論文では Polar Sampling と呼ばれる新しいデータ拡張方法を提案します。極座標サンプリングは、スパースな LIDAR データからオブジェクトの密度を動的に高め、オブジェクトの検出を容易にし、正確な検出結果につながる特徴などの特徴の品質を向上させることができます。次に、補助的な特徴レベルの監視を導入することで、LiDAR カメラ融合ベースの検出器をトレーニングします。このステップでは、生の LiDAR とカメラの入力を 3D/2D バックボーンと融合モジュールに送り、融合された機能を取得します。一方では、融合された特徴は、最終的な予測、つまり決定レベルの監視のために検出ヘッドに送られます。一方、補助的な監督は、事前にトレーニングされた補助モデルと強化された LiDAR データを通じて取得された、融合された特徴を高品質の特徴としてシミュレートします。このように、提案された特徴レベルの監視により、融合モジュールはより堅牢な特徴を生成し、検出パフォーマンスをさらに向上させることができます。 LiDAR とカメラの機能をより適切に融合するために、この論文では、スタックされた MLP ブロックと動的融合ブロックで構成されるシンプルでありながら効果的なディープ融合モジュールを提案します。 SupFusion は、ディープ フュージョン モジュールの機能を最大限に活用し、検出精度を継続的に向上させることができます。

図 2: 検出器のトレーニング プロセス。この論文では、与えられた LiDAR カメラ サンプルについて、対応する 3D/2D エンコーダーを通じて特徴表現を抽出し、提案されたディープ フュージョン モジュールを使用してマルチモーダル特徴を融合します。損失を検出するだけでなく  さらに、本論文では補助的な特徴レベルの監督を提案している。   、融合された特徴  高品質な機能をシミュレートする 補助モデルと拡張データによって生成されます。

図 3: 高品質な特徴生成プロセス。任意の LiDAR サンプルについて、データベースから照会された密なターゲットの方向と回転を計算し、貼り付けによって疎なターゲットに追加のポイントを追加する極座標貼り付けによって疎なターゲットを暗号化します。この論文では、まず強化されたデータを使用して補助モデルをトレーニングし、強化された LiDAR データを補助モデルに入力して、高品質の特徴を生成します。   収束するまで続けます。

図 1: 上部: 従来の LiDAR カメラ 3D 検出器。検出損失を介して融合モジュールを最適化します。下: この論文で提案された SupFusion。ここでは、補助モデルによって提供される高品質の機能を使用した補助的な監督を提案しています。

図 4: 極座標グループ化は、主に各クラスの方向と回転を含む極座標系で各グループの密なオブジェクトを格納するデータベースを構築することです。

実験結果

参考文献

Qin, Y., Wang, C., Kang, Z., Ma, N., Li, Z., & Zhang, R. (2023). SupFusion: 3D オブジェクト検出のための教師あり LiDAR カメラ融合。ArXiv. /abs/2309.07084

オリジナルリンク: https://mp.weixin.qq.com/s/-pPUtrlfeo_09svMxk2qFA

<<:  ロボットと人間:その組み合わせが産業オートメーションの様相を変える可能性

>>: 

ブログ    
ブログ    

推薦する

マスク氏はAIが人間を超えると述べ、それを信じない人は単に賢いだけだと語る

北京時間7月23日、テスラのCEOイーロン・マスク氏は水曜日、人工知能(AI)の将来についての懸念を...

...

機械学習とビットコインの例

[[201737]]私はかつて、機械学習を使用してピグレットの世界で株価と変動を予測する空想的な例を...

...

エネルギー分野における人工知能の5つの主要な応用

[[435080]]エネルギー分野における AI の革新と進歩により、企業がエネルギーを生産、販売、...

TENSORFLOW を使用してリカレント ニューラル ネットワーク言語モデルをトレーニングする

[[201448]]私は、TensorFlow リカレント ニューラル ネットワークのチュートリアル...

...

2020年中国AI+医療産業調査レポート

コア要約:はじめに: この AI + 医療研究の範囲は、CDSS、スマート医療記録、AI + 検査、...

人工知能はビッグデータ天体物理学の時代へのマスターキーとなるのでしょうか?

[[387017]] 01 まさに必要: ビッグデータ天体物理学の時代が到来観測技術の発展により、...

インテリジェントビル通信ネットワークシステムのセキュリティ管理

セキュリティ管理は常にネットワーク管理の重要な部分であり、最も重要なリンクの 1 つです。また、ユー...

自然言語処理の他に、Word2Vec で何ができるのでしょうか?

機械学習の手法を使用して問題を解決する場合、適切なデータを持つことが重要です。残念ながら、生データは...

...

あなたはまだこれらの仕事をしていますか?マシンビジョンと人工知能により、今後10年間で失業することになるかもしれません

[[216406]]新しい技術の出現は、それに関わる人々の仕事を常に変えていきます。メインフレームコ...

RAGから富へ:人工知能の幻想を払拭する

検索拡張生成は、AI モデルがデータを改善し、幻覚を軽減できるようにする最も有望な技術の 1 つと考...