RangePerception: Range View3D 検出への新しいアプローチ!

RangePerception: Range View3D 検出への新しいアプローチ!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

元のタイトル: RangePerception: LiDAR レンジビューを制御して効率的かつ正確な 3D オブジェクト検出を実現する

論文リンク: https://openreview.net/pdf?id=9kFQEJSyCM

著者所属:上海人工知能研究所、復旦大学

論文のアイデア:

LiDAR ベースの 3D 検出方法では現在、鳥瞰図 (BEV) または距離図 (RV) を主な基準として使用しています。前者はボクセル化と 3D 畳み込みに依存しているため、トレーニングと推論の両方のプロセスで非効率になります。対照的に、RV ベースの方法は、コンパクトさと 2D 畳み込みとの互換性により高い効率を示しますが、そのパフォーマンスは BEV ベースの方法に比べてまだ劣っています。このパフォーマンスギャップを解消しながら、RV ベースの方法の効率性を維持するため、本研究では、RangePerception と呼ばれる効率的で正確な RV ベースの 3D オブジェクト検出フレームワークを提案します。本研究では、慎重な分析を通じて、既存の RV ベースの方法のパフォーマンスを妨げる 2 つの主要な課題を特定しました。1) 出力で使用される 3D ワールド座標と入力で使用される 2D 距離画像座標の間に自然なドメイン ギャップがあるため、距離画像から情報を抽出することが困難です。2) 元の距離画像に視覚破損の問題があり、距離画像の端にあるオブジェクトの検出精度に影響します。上記の主要な課題に対処するために、本論文では、距離画像表現と世界座標 3D 検出結果間の情報フローを容易にする Range Aware Kernel (RAK) と Vision Restoration Module (VRM) という 2 つの新しいアルゴリズムを提案します。 RAK と VRM の助けを借りて、Waymo Open Dataset では、当社の RangePerception は、従来の最先端の RV ベースの方法である RangeDet と比較して、平均 L1/L2 AP を 3.25/4.18 向上させます。 RangePerception は、よく知られている BEV ベースの方法 CenterPoint よりも平均 AP がわずかに高い RV ベースの 3D 検出方法として最初に提示され、RangePerception の推論速度は CenterPoint の 1.3 倍です。

ネットワーク設計:

この論文では、RangePerception と呼ばれる効率的で正確な RV ベースの 3D 検出フレームワークを紹介します。上記の主要な課題を克服するために、Range Aware Kernel (RAK) と Vision Restoration Module (VRM) という 2 つの新しいアルゴリズムが提案され、RangePerception フレームワークに統合されています。これらのアルゴリズムは、どちらも距離画像表現と世界座標 3D 検出結果間の情報フローを促進します。 RAK と VRM の助けを借りて、当社の RangePerception は、WOD 上の車両、歩行者、自転車に対して 73.62、80.24、70.33 L1 3D AP を提供し、レンジビューベースの 3D 検出方法として最先端のパフォーマンスを実現します。この論文の貢献は以下の通りです。

RangePerception フレームワーク。この論文では、RangePerception という新しい高性能 3D 検出フレームワークを紹介します。 RangePerception は、WOD で平均 L1/L2 AP 74.73/69.17 を達成した初の RV ベースの 3D 検出器であり、平均 L1/L2 AP 71.48/64.99 を持つ従来の最先端の RV ベースの検出器 RangeDet を 3.25/4.18 改善して上回っています。 RangePerceptionは、広く使用されているBEVベースの方法であるCenterPoint [6]と比較してもわずかに優れた性能を示しており、CenterPointの平均L1/L2 APは74.25/68.04です。注目すべきは、RangePerception の推論速度が CenterPoint の 1.3 倍であり、自動運転車へのリアルタイム展開により適していることを証明しています。

Range Aware Kernel。RangePerception機能抽出機能の一部である Range Aware Kernel (RAK) は、RV ベースのネットワーク向けにカスタマイズされた画期的なアルゴリズムです。 RAK は距離画像空間を複数のサブスペースに分解し、各サブスペースから個別に特徴を抽出することで空間の不整合の問題を克服します。実験結果によると、RAK は計算コストを無視しながら、平均 L1/L2 AP を 5.75/5.99 向上させます。

視覚修復モジュール。視覚の破損問題を解決するために、本研究では視覚修復モジュール (VRM) を提案しました。 VRM は、以前に損傷した領域を修復することで、バックボーン ネットワークの受容フィールドを拡大します。実験セクションで示されているように、VRM は特に車両検出に役立ちます。

図 2: RangePerception フレームワークは、距離画像 I を入力として受け取り、高密度の予測を生成します。表現学習を改善するために、フレームワークは Range Backbone の前に VRM モジュールと RAK モジュールを順番に統合します。次に、特別に設計された冗長性プルーナーを使用して、深層特徴の冗長性を排除し、後続の領域提案ネットワークと後処理レイヤーでの計算コストを軽減します。

図 1: (ad) それぞれ RV と BEV として表される上部の LiDAR 信号の例のフレーム。 (e)空間不整合現象(f)視覚の破壊現象

図 3: Range Aware Kernel は、距離画像空間を複数のサブスペースに分解し、各サブスペースから独立した特徴を抽出することで空間の不整合の問題を克服します。

図 5: 視力回復モジュール。復元角δを事前に定義することにより、VRMは方位角θ∈[−δ, 2π + δ]の拡張された球面空間を構築します。したがって、距離画像 I の両側の視覚的な破損の問題が解決され、I のエッジから特徴を抽出するプロセスが大幅に簡素化されます。

実験結果:

要約:

この論文では、空間の不整合や視覚の乱れといった課題に効果的に対処する、RV に基づく 3D 検出フレームワークである RangePerception を紹介します。 RangePerception は RAK と VRM を導入することで、WOD で優れた検出性能を実現し、効率的かつ正確な実用展開の可能性を実証します。

引用:

 @inproceedings{ bai2023rangeperception, title={RangePerception: Taming Li{DAR} Range View for Efficient and Accurate 3D Object Detection}, author={Yeqi BAI and Ben Fei and Youquan Liu and Tao MA and Yuenan Hou and Botian Shi and Yikang LI}, booktitle={Thirty-seventh Conference on Neural Information Processing Systems}, year={2023}, url={https://openreview.net/forum?id=9kFQEJSyCM} }

オリジナルリンク: https://mp.weixin.qq.com/s/EJCl5kLxhHaa7lh98g2I6w

<<:  超音波脳読み取りはマスクの脳コンピューターインターフェースよりも正確で侵襲性が低い

>>: 

ブログ    
ブログ    

推薦する

楽観主義と悲観主義の議論は無意味。AIに必要なのは開発モデルについて考えることだ

最近、烏鎮での夕食会で大物たちが何を食べたかという噂に加え、インターネット会議では人工知能に関する一...

アルゴリズムなしでもTikTokを購入する価値はあるでしょうか?技術専門家:購入者がその魔法を再現するのは難しい

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

金属の巨人からディープラーニングまで、人工知能の(ごく)短い歴史

[[202011]]クレタ島を海賊や侵略者から守るために、人々は巨大な青銅の戦士タロスを創造しました...

データ サイエンティストまたは AI エンジニアになるために独学するにはどうすればよいでしょうか?これらの9つのポイントを克服する必要があります

誰もが教室でデータサイエンス、人工知能、機械学習を学ぶ時間があるわけではありませんし、誰もがこれらの...

RedditユーザーがAppleのCSAMツールをリバースエンジニアリングし、アルゴリズムがすでに存在していることを発見

[[418306]]今月初め、アップルはエコシステム全体に新たな子どもの安全機能を導入すると発表し...

「世界AI人材追跡調査」:米国の上級AI研究者の29%は中国出身。人材を追放することは自らの道を断つことに等しい

中国は世界最大の人工知能研究者の供給国となった。米国の人工知能分野のトップ研究者のほぼ3分の1は中国...

自動車ドメインコントローラの統合アーキテクチャの背景、利点、設計を1つの記事で理解する

車両の電動化が徐々に進むにつれ、電子制御ユニット(ECU)が車全体を制御するようになりました。アンチ...

InnoDB ストレージ エンジンの 3 つの行ロック アルゴリズムの図解と例の分析

[[415025]]この記事はWeChatの公開アカウント「Flying Veal」から転載したもの...

囲碁をプレイするのはとても簡単です。AlphaZero は量子コンピューティングをプレイし始めます!

過去数十年にわたる量子物理学技術の探求において、最も注目を集めているのは量子コンピュータです。 [[...

...

...

...

マッキンゼーのレポート: 2030 年までに 8 億人が機械に置き換えられ、約 1 億人の中国人が転職を余儀なくされる!

マッキンゼー・グローバル・インスティテュートは最近の報告書で、テクノロジーの進歩により、将来世界で約...

Baidu WorldがAI応用レポートカードを発表、国民経済の3大産業に進出

11月1日、2018年百度世界大会が北京で開催されました。「YES AI DO」をテーマにしたこの大...

多くの場所でAI顔認識の使用が制限されており、監視は技術開発のペースに追いついています

最近、南京、江蘇省、天津などではAI顔認識技術の使用を禁止し始めている。 11月末、南京市のある男性...