BEVFusionを超えて! Lift-Attend-Splat: 最新の BEV LV 融合ソリューション

BEVFusionを超えて! Lift-Attend-Splat: 最新の BEV LV 融合ソリューション

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

論文: Lift-Attend-Splat: トランスフォーマーを使用した鳥瞰カメラとライダーの融合

リンク: https://arxiv.org/pdf/2312.14919.pdf

自動運転などの安全性が重要視されるアプリケーションに堅牢な認識機能を提供するには、補完的なセンサー モダリティを組み合わせることが不可欠です。最近の最先端の自動運転用カメラ-LIDAR 融合法は単眼深度推定に依存していますが、これは LIDAR からの深度情報を直接使用するのに比べて難しい作業です。ここでは、このアプローチでは期待どおりに深度を活用していないことがわかり、単純に深度推定を改善しても物体検出のパフォーマンスは向上せず、驚くべきことに深度推定を完全に排除しても物体検出のパフォーマンスは低下しないことがわかります。

これは、単眼深度への依存が、カメラとライダーの融合中に不必要な構造上のボトルネックになる可能性があることを示唆しています。この論文では、単眼深度推定を完全に回避し、代わりに単純な注意メカニズムを使用して BEV グリッド内のカメラと LiDAR の特徴を選択して融合する新しい融合方法を紹介しています。提案モデルは、LIDAR 機能の可用性に応じてカメラ機能の使用を適応させることができ、単眼深度推定に依存するベースラインよりも nuScenes データセットで優れた 3D 検出パフォーマンスを実現できることを示します。

この論文では、単眼深度推定を完全にバイパスし、代わりに単純なトランスフォーマーを使用して BEV 内のカメラとライダーの特徴を選択して融合する、「Lift Attented Splat」と呼ばれる新しいカメラとライダーの融合手法を紹介します。証拠によれば、私たちのアプローチは、単眼深度推定に基づく方法と比較して、カメラの利用率が向上し、物体検出のパフォーマンスが向上することが示されています。貢献内容は次のとおりです。

  1. Lift Splat パラダイムに基づくカメラと LiDAR の融合アプローチでは、期待どおりに深度が活用されません。特に、単眼深度予測を完全に排除した場合、同等かそれ以上のパフォーマンスを発揮することを示します。
  2. この論文では、単純な注意メカニズムを使用して純粋な BEV 内のカメラとライダーの機能を融合する新しいカメラ - ライダー融合方法を紹介します。この論文では、Lift Splat パラダイムに基づくモデルと比較して、カメラをより有効に活用し、3D 検出パフォーマンスを向上できることが実証されています。

メイン構造の紹介

Lift Splat の深度予測は一般に精度が低いため、BEVFusion によって予測された深度品質は、絶対相対誤差 (Abs.Rel.) と二乗平均平方根誤差 (RMSE) を使用して、LIDAR 深度マップと定性的および定量的に比較することによって分析されます。図 1 に示すように、深度予測はシーンの構造を正確に反映しておらず、LiDAR 深度マップとは大きく異なります。これは、単眼深度が期待どおりに活用されていないことを示しています。この論文では、深度予測を改善しても検出性能は向上しないことも判明しました。深度予測を完全に削除しても、オブジェクト検出のパフォーマンスには影響しません。

私たちは、単眼深度推定を完全に回避し、代わりに単純なトランスフォーマーを使用して鳥瞰図でカメラとライダーの特徴を融合するカメラとライダーの融合アプローチを提案します。ただし、カメラとライダーの特徴の数が多く、注意が 2 次関数的であるため、トランスフォーマー アーキテクチャをカメラとライダーの融合問題に単純に適用することは困難です。 BEV でカメラ機能を投影する場合、カメラ機能は対応する光線に沿った位置にのみ寄与する必要があるため、問題のジオメトリを使用して注目範囲を大幅に制限できます。私たちはこの考え方をカメラとライダーの融合のケースに適用し、カメラ平面の柱とライダー BEV グリッドのエピポーラ光線の間のクロスアテンションを使用したシンプルな融合方法を紹介します。単眼の奥行きを予測する代わりに、交差注意は、光線に沿った LiDAR 機能によって提供されるコンテキストを考慮して、どのカメラ機能が最も顕著であるかを学習します。

BEV でカメラの特徴を投影することとは別に、私たちのモデルは、下の図に示すように、Lift Splat パラダイムに基づく方法と全体的なアーキテクチャが似ています。これは、各モダリティの特徴を個別に生成するカメラとライダーのバックボーン、カメラの特徴を BEV に埋め込み、ライダーと融合する投影および融合モジュール、そして最後に検出ヘッドというモジュールで構成されています。オブジェクトの検出を考えると、モデルの最終的な出力は、位置、寸法、方向、速度、分類情報を含む 3D 境界ボックスとして表されるシーン内のオブジェクトの属性です。

Lift Attented Splat カメラ LiDAR 融合アーキテクチャを以下に示します。 (左) 全体的なアーキテクチャ: カメラと LiDAR バックボーンからの特徴は、検出ヘッドに渡される前に融合されます。 (インセット) 3D 投影のジオメトリ: 「リフト」ステップでは、双線形サンプリングを使用して Z 方向に沿って LIDAR フィーチャを持ち上げることで、LIDAR BEV フィーチャを投影された地平線に埋め込みます。 「スプラット」ステップは逆変換に対応しており、双線形サンプリングを使用して、投影された地平線からの特徴を再び Z 方向に沿って BEV グリッドに投影します。右側にはプロジェクト モジュールの詳細が表示されます。

実験結果

オリジナルリンク: https://mp.weixin.qq.com/s/D7xgvrp8633S2SeUfCRFXQ

<<:  マスク氏のAIスタートアップxAIは社会への影響を優先する特別な構造を採用

>>:  何? NeRF は BEV の一般化パフォーマンスも向上させます。最初の BEV クロスドメイン オープンソース コードと Sim2Real の最初の完成!

ブログ    
ブログ    
ブログ    

推薦する

自動運転は本当に実現します!最初の発砲は全国7か所で行われた。

自動車市場の発展に伴い、さまざまないわゆる「ブラックテクノロジー」が自動車所有者の敏感な神経をますま...

声を上げてください! MakeItTalkの魔法でモナリザと会話できる

最近、マサチューセッツ大学アマースト校のヤン・チョウ博士とそのチームは、「MakeItTalk」と呼...

「怠け者」を助ける掃除ロボットの規模は600億台を超える

近年、世界経済の発展に伴い、人間の生活環境は徐々に改善され、人口も増加傾向にありますが、急速な人口増...

ChatGPTの10の実用的なビジネスユースケース

ChatGPT のビジネスユースケースは数多く登場していますが、組織は自社の特定のニーズに最適なシナ...

大規模言語モデル (LLM) の脆弱性トップ 10

人工知能 (AI) の分野では、特に OpenAI が ChatGPT や GPT-4 などの画期的...

正規化を放棄することで、ディープラーニングモデルの精度は前例のないレベルに到達しました

データを機械学習モデルに渡すときには、データを正規化する必要があることはわかっています。データの正規...

2018 Baidu AI 開発者会議: Robin Li が「誰でも AI ができる」を提唱

7月4日、世界初のAI開発者カンファレンス「Baidu Create 2018」が2年目を迎えました...

高度な分析とコンピューティング技術の出現が世界のインテリジェントアプリケーション市場を牽引

世界的なスマート アプリケーション市場の成長は、高度なコンピューティングおよび分析テクノロジによって...

...

包括的なデータサイエンスC/C++機械学習ライブラリコレクション、Baidu検索は不要

はじめにと動機 - なぜ C++ なのか? C++ は、動的負荷分散、適応型キャッシュ、大規模なデー...

グラフやグラフニューラルネットワークについて学びたいですか?論文を読むより良い方法はありません。

グラフ埋め込み、グラフ表現、グラフ分類、グラフニューラルネットワーク、この記事では必要なグラフモデリ...

...

米裁判所、人工知能コンピューターは発明を特許できないと判決

[[421713]]人工知能(AI)がその発明に対して特許を申請できるかどうかに関して、米国連邦政府...