はるか先へ! BEVHeight++: 道路脇の視覚的な 3D オブジェクト検出のための新しいソリューション!

はるか先へ! BEVHeight++: 道路脇の視覚的な 3D オブジェクト検出のための新しいソリューション!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

地面の高さに回帰することで、距離に依存しない定式化が可能になり、カメラのみを認識する方法の最適化プロセスが簡素化されます。道路脇のカメラの 3D 検出ベンチマークでは、当社の方法はこれまでのすべての視覚中心の方法を大幅に上回ります。これにより、BEVDepth と比較して、NDS が +1.9%、mAP が +1.1% という大幅な改善が実現します。 nuScenes テスト セットでは、当社の方法により大幅な改善が達成され、NDS と mAP はそれぞれ +2.8% と +1.7% 増加しました。

タイトル: BEVHeight++: 堅牢な視覚中心の 3D オブジェクト検出に向けて

論文リンク: https://arxiv.org/pdf/2309.16179.pdf

著者の所属: 清華大学、中山大学、菜鳥ネットワーク、北京大学

中国初の自動運転コミュニティから:ついに20以上の技術方向学習ルートの構築を完了(BEV認識/3D検出/マルチセンサー融合/SLAMおよび計画など)

最近の自動運転システムは、自車両センサーからの認識方法の開発に重点を置いていますが、見落とされがちな代替アプローチは、スマートな路側カメラを使用して視覚範囲を超えて認識機能を拡張することです。著者らは、最先端の視覚中心の BEV 検出方法は、路側カメラではパフォーマンスが低いことを発見しました。これは、これらの方法が主にカメラ中心付近の深度を復元することに焦点を当てているためであり、車と地面の深度差は距離が増すにつれて急速に縮小します。本論文では、この問題に対処するために、BEVHeight++ と呼ばれるシンプルでありながら効果的な方法を提案しています。本質的に、著者らは、距離に依存しない定式化を達成するために地面の高さに回帰し、カメラのみの認識方法の最適化プロセスを簡素化します。高さと深さのエンコード技術を組み合わせることで、2D から BEV 空間へのより正確で堅牢な投影が実現します。道路脇のカメラの一般的な 3D 検出ベンチマークでは、当社の方法はこれまでのすべての視覚中心の方法を大幅に上回ります。自車両シナリオの場合、BEVHeight++ は深度のみの方法よりも優れています。

具体的には、nuScenes 検証セットで評価した場合、BEVDepth と比較して NDS が +1.9%、mAP が +1.1% という大幅な改善が見られます。さらに、nuScenes テスト セットでは、NDS と mAP がそれぞれ +2.8% と +1.7% 増加し、当社の方法により大幅な改善が達成されました。

図 1: (a) 単眼画像から 3D 境界ボックスを生成するために、最先端の方法では、まずピクセル単位の深度を明示的または暗黙的に予測して、前景オブジェクトと背景の 3D 位置を決定します。しかし、画像にピクセル単位の深度をプロットすると、車がカメラから離れるにつれて屋根上の点と周囲の地面の点の差が急速に小さくなり、特に遠くの物体に対しては最適化が最適ではなくなることがわかりました。 (b) 代わりに、地面までのピクセル単位の高さをプロットし、この差は距離に関係なく、ネットワークが検出するのに視覚的に適していることを確認します。ただし、高さを予測するだけでは、3D 位置を直接回帰することはできません。 (c) この目的のために、この問題を解決するための新しいフレームワーク BEVHeight++ を提案します。実験結果によると、私たちの方法は、クリーンな設定では最良の方法より 5.49% 優れており、ノイズの多い設定では 28.2% 優れていることがわかりました。

ネットワーク構造

予測される高さと深さの比較。 (a) これまでの深度ベースの方法と私たちが提案する高さベースのパイプラインの概要。この論文では、2D から 3D への新しい投影モジュールを提案していることに注意してください。 (b) ピクセルごとの深度 (上) と地面の高さ (下) のヒストグラムをプロットすると、深度は 200 メートル以上であるのに対し、高さは 5 メートル以内であることが明確にわかり、高さの把握が容易になります。

画像上のオブジェクトの行座標と、その深さおよび高さとの相関関係。画像内のターゲットの位置は (u, v) として定義できます。ここで、v 座標は画像の行座標を表します。 (a) ロール方向とピッチ方向に沿って回転オフセットを正規分布で追加したノイズ設定の視覚的な例。 (b)は深さ分布の散布図です。 (c)は地面からの高さです。高さのノイズ設定は深さに比べて元の分布との重なりが大きく、高さの推定がより堅牢であることがわかります。

BEVHeight++ の全体的なフレームワークである検出器は、深度ベースのブランチ (シアン)、高さベースのブランチ (緑)、および特徴融合プロセス (灰色) の 3 つのサブネットワークで構成されています。深度ベースのパイプラインは、ピクセルあたりの推定深度を使用して、画像ビュー機能を深度ベースの BEV 機能 (D ベース BEV) にアップグレードします。高さベースのパイプラインは、画像ビュー内のリフト特徴の地上高予測を高さベースの BEV 特徴 (H ベース BEV) に適用します。機能融合には、画像融合と鳥瞰図融合が含まれます。画像ビュー融合は、高さ分布と画像の特徴を連結して融合された特徴を取得し、後続のリフティング操作で使用します。鳥瞰図融合は、変形可能なクロスアテンションを介して高さベースの BEV 特徴と深度ベースの BEV 特徴から融合された BEV 特徴を取得し、それを検出ヘッドの入力として使用します。

実験結果

オリジナルリンク: https://mp.weixin.qq.com/s/AdCXYzHIy2lTfAHk2AZ4_w

<<:  テンセント・ロボティクス・ラボの第一人者が起業、ヒューマノイドロボット業界に新たな重鎮が加わる

>>:  BEV におけるデータセット間レーダーカメラ融合に関する実験的研究

ブログ    
ブログ    

推薦する

ICML 優勝者 Lu Yucheng: 分散型機械学習の理論的な限界は何ですか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

人工知能はクラウド セキュリティ サービスをどのように変えるのでしょうか?

この記事では、AI がクラウド セキュリティ サービスをどのように変えているのか、そしてそれが企業に...

新しい世代の AI 人材はどこから生まれ、どこに向かうべきでしょうか?

[[443279]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...

不妊治療の新たな夜明け:AI

世界初の試験管ベビーは1978年に英国で誕生した。それ以来、人工生殖技術は継続的に改良されてきました...

人工知能とビッグデータがビジネス環境をどう変えるのか

人々がビジネスを行うようになって以来、ビジネスを強化するためにテクノロジーが活用されてきました。 1...

ソラの影に隠れ、不安を抱える中国AI

「ついていけない人は排除されるかもしれない」ソラのデモ動画を見て、10年以上の経験を持つアニメプロ...

質問で機械学習を学ぶ: 機械学習とは何ですか?

機械学習は受け入れるのが難しいものです。事件があったらいいな、じゃあ行こうよ〜 Q: 機械学習とは何...

人工知能開発の現状と将来動向の分析

人工知能、またはよく「AI」(英語の正式名称:Artificial Intelligence)と呼ば...

機械学習が詐欺防止に優れたツールである理由は何ですか?

現代技術の発展と向上により、生活はますます快適になりました。以前は複雑な操作を同時に実行することは不...

MetaMindによるNLP研究の徹底分析:機械学習をスキップさせる方法

自然言語処理は、人工知能研究における中心的な課題の 1 つです。最近、Salesforceによる買収...

20年後にはロボットが手術を行えるようになる

「1か月で10年分の変化を目撃しました。」 COVID-19パンデミック中に遠隔医療の利用が加速した...

陳丹奇と清華大学特別賞受賞学生が新たな成果を発表:Google BERTが提案したトレーニングルールを破る

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

Facebookが開発した高速データ圧縮アルゴリズムZstdの使い方

[51CTO.com クイック翻訳] Zstandard (Zstd とも呼ばれる) は、Faceb...