この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 論文: Lift-Attend-Splat: トランスフォーマーを使用した鳥瞰カメラとライダーの融合 リンク: https://arxiv.org/pdf/2312.14919.pdf 自動運転などの安全性が重要視されるアプリケーションに堅牢な認識機能を提供するには、補完的なセンサー モダリティを組み合わせることが不可欠です。最近の最先端の自動運転用カメラ-LIDAR 融合法は単眼深度推定に依存していますが、これは LIDAR からの深度情報を直接使用するのに比べて難しい作業です。ここでは、このアプローチでは期待どおりに深度を活用していないことがわかり、単純に深度推定を改善しても物体検出のパフォーマンスは向上せず、驚くべきことに深度推定を完全に排除しても物体検出のパフォーマンスは低下しないことがわかります。 これは、単眼深度への依存が、カメラとライダーの融合中に不必要な構造上のボトルネックになる可能性があることを示唆しています。この論文では、単眼深度推定を完全に回避し、代わりに単純な注意メカニズムを使用して BEV グリッド内のカメラと LiDAR の特徴を選択して融合する新しい融合方法を紹介しています。提案モデルは、LIDAR 機能の可用性に応じてカメラ機能の使用を適応させることができ、単眼深度推定に依存するベースラインよりも nuScenes データセットで優れた 3D 検出パフォーマンスを実現できることを示します。 この論文では、単眼深度推定を完全にバイパスし、代わりに単純なトランスフォーマーを使用して BEV 内のカメラとライダーの特徴を選択して融合する、「Lift Attented Splat」と呼ばれる新しいカメラとライダーの融合手法を紹介します。証拠によれば、私たちのアプローチは、単眼深度推定に基づく方法と比較して、カメラの利用率が向上し、物体検出のパフォーマンスが向上することが示されています。貢献内容は次のとおりです。
メイン構造の紹介Lift Splat の深度予測は一般に精度が低いため、BEVFusion によって予測された深度品質は、絶対相対誤差 (Abs.Rel.) と二乗平均平方根誤差 (RMSE) を使用して、LIDAR 深度マップと定性的および定量的に比較することによって分析されます。図 1 に示すように、深度予測はシーンの構造を正確に反映しておらず、LiDAR 深度マップとは大きく異なります。これは、単眼深度が期待どおりに活用されていないことを示しています。この論文では、深度予測を改善しても検出性能は向上しないことも判明しました。深度予測を完全に削除しても、オブジェクト検出のパフォーマンスには影響しません。 私たちは、単眼深度推定を完全に回避し、代わりに単純なトランスフォーマーを使用して鳥瞰図でカメラとライダーの特徴を融合するカメラとライダーの融合アプローチを提案します。ただし、カメラとライダーの特徴の数が多く、注意が 2 次関数的であるため、トランスフォーマー アーキテクチャをカメラとライダーの融合問題に単純に適用することは困難です。 BEV でカメラ機能を投影する場合、カメラ機能は対応する光線に沿った位置にのみ寄与する必要があるため、問題のジオメトリを使用して注目範囲を大幅に制限できます。私たちはこの考え方をカメラとライダーの融合のケースに適用し、カメラ平面の柱とライダー BEV グリッドのエピポーラ光線の間のクロスアテンションを使用したシンプルな融合方法を紹介します。単眼の奥行きを予測する代わりに、交差注意は、光線に沿った LiDAR 機能によって提供されるコンテキストを考慮して、どのカメラ機能が最も顕著であるかを学習します。 BEV でカメラの特徴を投影することとは別に、私たちのモデルは、下の図に示すように、Lift Splat パラダイムに基づく方法と全体的なアーキテクチャが似ています。これは、各モダリティの特徴を個別に生成するカメラとライダーのバックボーン、カメラの特徴を BEV に埋め込み、ライダーと融合する投影および融合モジュール、そして最後に検出ヘッドというモジュールで構成されています。オブジェクトの検出を考えると、モデルの最終的な出力は、位置、寸法、方向、速度、分類情報を含む 3D 境界ボックスとして表されるシーン内のオブジェクトの属性です。 Lift Attented Splat カメラ LiDAR 融合アーキテクチャを以下に示します。 (左) 全体的なアーキテクチャ: カメラと LiDAR バックボーンからの特徴は、検出ヘッドに渡される前に融合されます。 (インセット) 3D 投影のジオメトリ: 「リフト」ステップでは、双線形サンプリングを使用して Z 方向に沿って LIDAR フィーチャを持ち上げることで、LIDAR BEV フィーチャを投影された地平線に埋め込みます。 「スプラット」ステップは逆変換に対応しており、双線形サンプリングを使用して、投影された地平線からの特徴を再び Z 方向に沿って BEV グリッドに投影します。右側にはプロジェクト モジュールの詳細が表示されます。 実験結果オリジナルリンク: https://mp.weixin.qq.com/s/D7xgvrp8633S2SeUfCRFXQ |
<<: マスク氏のAIスタートアップxAIは社会への影響を優先する特別な構造を採用
>>: 何? NeRF は BEV の一般化パフォーマンスも向上させます。最初の BEV クロスドメイン オープンソース コードと Sim2Real の最初の完成!
人工知能は大きな進歩を遂げているようだ。自動運転車、自動翻訳システム、音声・テキスト分析、画像処理、...
[[424227]] 1. 何ですかアルゴリズムとは、問題に対する解決策の正確かつ完全な説明を指し...
今日のインターネット アプリケーション開発では、可用性の高い分散システムを構築することが、システムの...
[[416636]] Transformer と CNN はどちらも独自の利点を持ち、視覚表現を処理...
人工知能(AI)の急速な発展を背景に、大規模言語モデル(LLM)は、言語関連のタスクにおける優れたパ...
人工知能技術は、機械学習、計算統計、さまざまなディープラーニングモデルの使用を通じて主流になりました...
顔認識からチェックイン、さまざまなアプリケーションの「あなたの好きなものを推測」まで、現在の機械学習...
音声制御システムから今日のいくつかの無人技術まで、人工知能は徐々に成熟しています。ビッグデータセンタ...
C言語を学んだ友人やIT関係の人ならアルゴリズムには詳しいと思います。したがって、分野が異なれば、ア...
過去数年間、研究者たちは人工知能システムの安全性にますます関心を寄せてきました。 AI 機能のサブセ...
通常、人間が機械を作るのは、達成するのが難しいタスクを人間が完了するのを助けるためだけです。自然災害...