RangePerception: Range View3D 検出への新しいアプローチ!

RangePerception: Range View3D 検出への新しいアプローチ!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

元のタイトル: RangePerception: LiDAR レンジビューを制御して効率的かつ正確な 3D オブジェクト検出を実現する

論文リンク: https://openreview.net/pdf?id=9kFQEJSyCM

著者所属:上海人工知能研究所、復旦大学

論文のアイデア:

LiDAR ベースの 3D 検出方法では現在、鳥瞰図 (BEV) または距離図 (RV) を主な基準として使用しています。前者はボクセル化と 3D 畳み込みに依存しているため、トレーニングと推論の両方のプロセスで非効率になります。対照的に、RV ベースの方法は、コンパクトさと 2D 畳み込みとの互換性により高い効率を示しますが、そのパフォーマンスは BEV ベースの方法に比べてまだ劣っています。このパフォーマンスギャップを解消しながら、RV ベースの方法の効率性を維持するため、本研究では、RangePerception と呼ばれる効率的で正確な RV ベースの 3D オブジェクト検出フレームワークを提案します。本研究では、慎重な分析を通じて、既存の RV ベースの方法のパフォーマンスを妨げる 2 つの主要な課題を特定しました。1) 出力で使用される 3D ワールド座標と入力で使用される 2D 距離画像座標の間に自然なドメイン ギャップがあるため、距離画像から情報を抽出することが困難です。2) 元の距離画像に視覚破損の問題があり、距離画像の端にあるオブジェクトの検出精度に影響します。上記の主要な課題に対処するために、本論文では、距離画像表現と世界座標 3D 検出結果間の情報フローを容易にする Range Aware Kernel (RAK) と Vision Restoration Module (VRM) という 2 つの新しいアルゴリズムを提案します。 RAK と VRM の助けを借りて、Waymo Open Dataset では、当社の RangePerception は、従来の最先端の RV ベースの方法である RangeDet と比較して、平均 L1/L2 AP を 3.25/4.18 向上させます。 RangePerception は、よく知られている BEV ベースの方法 CenterPoint よりも平均 AP がわずかに高い RV ベースの 3D 検出方法として最初に提示され、RangePerception の推論速度は CenterPoint の 1.3 倍です。

ネットワーク設計:

この論文では、RangePerception と呼ばれる効率的で正確な RV ベースの 3D 検出フレームワークを紹介します。上記の主要な課題を克服するために、Range Aware Kernel (RAK) と Vision Restoration Module (VRM) という 2 つの新しいアルゴリズムが提案され、RangePerception フレームワークに統合されています。これらのアルゴリズムは、どちらも距離画像表現と世界座標 3D 検出結果間の情報フローを促進します。 RAK と VRM の助けを借りて、当社の RangePerception は、WOD 上の車両、歩行者、自転車に対して 73.62、80.24、70.33 L1 3D AP を提供し、レンジビューベースの 3D 検出方法として最先端のパフォーマンスを実現します。この論文の貢献は以下の通りです。

RangePerception フレームワーク。この論文では、RangePerception という新しい高性能 3D 検出フレームワークを紹介します。 RangePerception は、WOD で平均 L1/L2 AP 74.73/69.17 を達成した初の RV ベースの 3D 検出器であり、平均 L1/L2 AP 71.48/64.99 を持つ従来の最先端の RV ベースの検出器 RangeDet を 3.25/4.18 改善して上回っています。 RangePerceptionは、広く使用されているBEVベースの方法であるCenterPoint [6]と比較してもわずかに優れた性能を示しており、CenterPointの平均L1/L2 APは74.25/68.04です。注目すべきは、RangePerception の推論速度が CenterPoint の 1.3 倍であり、自動運転車へのリアルタイム展開により適していることを証明しています。

Range Aware Kernel。RangePerception機能抽出機能の一部である Range Aware Kernel (RAK) は、RV ベースのネットワーク向けにカスタマイズされた画期的なアルゴリズムです。 RAK は距離画像空間を複数のサブスペースに分解し、各サブスペースから個別に特徴を抽出することで空間の不整合の問題を克服します。実験結果によると、RAK は計算コストを無視しながら、平均 L1/L2 AP を 5.75/5.99 向上させます。

視覚修復モジュール。視覚の破損問題を解決するために、本研究では視覚修復モジュール (VRM) を提案しました。 VRM は、以前に損傷した領域を修復することで、バックボーン ネットワークの受容フィールドを拡大します。実験セクションで示されているように、VRM は特に車両検出に役立ちます。

図 2: RangePerception フレームワークは、距離画像 I を入力として受け取り、高密度の予測を生成します。表現学習を改善するために、フレームワークは Range Backbone の前に VRM モジュールと RAK モジュールを順番に統合します。次に、特別に設計された冗長性プルーナーを使用して、深層特徴の冗長性を排除し、後続の領域提案ネットワークと後処理レイヤーでの計算コストを軽減します。

図 1: (ad) それぞれ RV と BEV として表される上部の LiDAR 信号の例のフレーム。 (e)空間不整合現象(f)視覚の破壊現象

図 3: Range Aware Kernel は、距離画像空間を複数のサブスペースに分解し、各サブスペースから独立した特徴を抽出することで空間の不整合の問題を克服します。

図 5: 視力回復モジュール。復元角δを事前に定義することにより、VRMは方位角θ∈[−δ, 2π + δ]の拡張された球面空間を構築します。したがって、距離画像 I の両側の視覚的な破損の問題が解決され、I のエッジから特徴を抽出するプロセスが大幅に簡素化されます。

実験結果:

要約:

この論文では、空間の不整合や視覚の乱れといった課題に効果的に対処する、RV に基づく 3D 検出フレームワークである RangePerception を紹介します。 RangePerception は RAK と VRM を導入することで、WOD で優れた検出性能を実現し、効率的かつ正確な実用展開の可能性を実証します。

引用:

 @inproceedings{ bai2023rangeperception, title={RangePerception: Taming Li{DAR} Range View for Efficient and Accurate 3D Object Detection}, author={Yeqi BAI and Ben Fei and Youquan Liu and Tao MA and Yuenan Hou and Botian Shi and Yikang LI}, booktitle={Thirty-seventh Conference on Neural Information Processing Systems}, year={2023}, url={https://openreview.net/forum?id=9kFQEJSyCM} }

オリジナルリンク: https://mp.weixin.qq.com/s/EJCl5kLxhHaa7lh98g2I6w

<<:  超音波脳読み取りはマスクの脳コンピューターインターフェースよりも正確で侵襲性が低い

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

...

インターフェース開発にアルゴリズムは必要ないなんて誰が言ったのでしょうか?

[[146153]]アルゴリズムとは何ですか?簡単に言えば、問題を解決するための手順がアルゴリズム...

C# 暗号化におけるハッシュ アルゴリズムの適用に関する簡単な分析

ハッシュ アルゴリズムは C# 暗号化でよく使用される方法ですが、ハッシュ アルゴリズムとは何でしょ...

...

人工知能はそんなに怖くない! AIとビッグデータは世界の3つの大きな問題を解決し、人類に利益をもたらすことができる

[[216213]] AIと仕事に関しては、予測は暗い。常識では、AI は近い将来、機械化が過去 2...

2025年までに機械学習市場は967億ドルに達する

4月7日、PR Newswireによると、市場調査会社Grand View Researchが最近発...

AI が電子商取引におけるウェブサイト アクセシビリティ訴訟のリスクを最小限に抑える方法

進化する人工知能により、電子商取引分野におけるウェブサイトのアクセシビリティ訴訟のリスクを最小限に抑...

...

...

[ディープラーニングシリーズ] PaddlePaddleとTensorflowによる画像分類

先月は、ディープラーニングにおける「Hello World」であるMNIST画像認識を中心に、畳み込...

2020年が到来。人工知能について知っておくべきこと

新年を迎え、皆様にお楽しみいただいている「まとめ記事」が今年も登場です! 2020年に人工知能が大き...

人工知能、ブロックチェーン技術などが医療分野を改善している

ヘルスケア業界の成長は驚異的ですが、欠点がないわけではありません。医師や研究者は、一般的な病気や珍し...

5G、自動運転、人工知能はどの段階にあるのでしょうか?一枚の写真でわかる

世界で最も権威のあるIT市場調査・コンサルティング会社であるガートナーは8月29日、新技術の2019...

アリババの音声ロボットが李佳琦の生放送室に登場、その応答速度はSiriの20倍

10月30日、終了したばかりの李佳琦のライブ放送室で、オンラインショッピング客はアリババの音声ロボッ...