BEVFusionを超えて! Lift-Attend-Splat: 最新の BEV LV 融合ソリューション

BEVFusionを超えて! Lift-Attend-Splat: 最新の BEV LV 融合ソリューション

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

論文: Lift-Attend-Splat: トランスフォーマーを使用した鳥瞰カメラとライダーの融合

リンク: https://arxiv.org/pdf/2312.14919.pdf

自動運転などの安全性が重要視されるアプリケーションに堅牢な認識機能を提供するには、補完的なセンサー モダリティを組み合わせることが不可欠です。最近の最先端の自動運転用カメラ-LIDAR 融合法は単眼深度推定に依存していますが、これは LIDAR からの深度情報を直接使用するのに比べて難しい作業です。ここでは、このアプローチでは期待どおりに深度を活用していないことがわかり、単純に深度推定を改善しても物体検出のパフォーマンスは向上せず、驚くべきことに深度推定を完全に排除しても物体検出のパフォーマンスは低下しないことがわかります。

これは、単眼深度への依存が、カメラとライダーの融合中に不必要な構造上のボトルネックになる可能性があることを示唆しています。この論文では、単眼深度推定を完全に回避し、代わりに単純な注意メカニズムを使用して BEV グリッド内のカメラと LiDAR の特徴を選択して融合する新しい融合方法を紹介しています。提案モデルは、LIDAR 機能の可用性に応じてカメラ機能の使用を適応させることができ、単眼深度推定に依存するベースラインよりも nuScenes データセットで優れた 3D 検出パフォーマンスを実現できることを示します。

この論文では、単眼深度推定を完全にバイパスし、代わりに単純なトランスフォーマーを使用して BEV 内のカメラとライダーの特徴を選択して融合する、「Lift Attented Splat」と呼ばれる新しいカメラとライダーの融合手法を紹介します。証拠によれば、私たちのアプローチは、単眼深度推定に基づく方法と比較して、カメラの利用率が向上し、物体検出のパフォーマンスが向上することが示されています。貢献内容は次のとおりです。

  1. Lift Splat パラダイムに基づくカメラと LiDAR の融合アプローチでは、期待どおりに深度が活用されません。特に、単眼深度予測を完全に排除した場合、同等かそれ以上のパフォーマンスを発揮することを示します。
  2. この論文では、単純な注意メカニズムを使用して純粋な BEV 内のカメラとライダーの機能を融合する新しいカメラ - ライダー融合方法を紹介します。この論文では、Lift Splat パラダイムに基づくモデルと比較して、カメラをより有効に活用し、3D 検出パフォーマンスを向上できることが実証されています。

メイン構造の紹介

Lift Splat の深度予測は一般に精度が低いため、BEVFusion によって予測された深度品質は、絶対相対誤差 (Abs.Rel.) と二乗平均平方根誤差 (RMSE) を使用して、LIDAR 深度マップと定性的および定量的に比較することによって分析されます。図 1 に示すように、深度予測はシーンの構造を正確に反映しておらず、LiDAR 深度マップとは大きく異なります。これは、単眼深度が期待どおりに活用されていないことを示しています。この論文では、深度予測を改善しても検出性能は向上しないことも判明しました。深度予測を完全に削除しても、オブジェクト検出のパフォーマンスには影響しません。

私たちは、単眼深度推定を完全に回避し、代わりに単純なトランスフォーマーを使用して鳥瞰図でカメラとライダーの特徴を融合するカメラとライダーの融合アプローチを提案します。ただし、カメラとライダーの特徴の数が多く、注意が 2 次関数的であるため、トランスフォーマー アーキテクチャをカメラとライダーの融合問題に単純に適用することは困難です。 BEV でカメラ機能を投影する場合、カメラ機能は対応する光線に沿った位置にのみ寄与する必要があるため、問題のジオメトリを使用して注目範囲を大幅に制限できます。私たちはこの考え方をカメラとライダーの融合のケースに適用し、カメラ平面の柱とライダー BEV グリッドのエピポーラ光線の間のクロスアテンションを使用したシンプルな融合方法を紹介します。単眼の奥行きを予測する代わりに、交差注意は、光線に沿った LiDAR 機能によって提供されるコンテキストを考慮して、どのカメラ機能が最も顕著であるかを学習します。

BEV でカメラの特徴を投影することとは別に、私たちのモデルは、下の図に示すように、Lift Splat パラダイムに基づく方法と全体的なアーキテクチャが似ています。これは、各モダリティの特徴を個別に生成するカメラとライダーのバックボーン、カメラの特徴を BEV に埋め込み、ライダーと融合する投影および融合モジュール、そして最後に検出ヘッドというモジュールで構成されています。オブジェクトの検出を考えると、モデルの最終的な出力は、位置、寸法、方向、速度、分類情報を含む 3D 境界ボックスとして表されるシーン内のオブジェクトの属性です。

Lift Attented Splat カメラ LiDAR 融合アーキテクチャを以下に示します。 (左) 全体的なアーキテクチャ: カメラと LiDAR バックボーンからの特徴は、検出ヘッドに渡される前に融合されます。 (インセット) 3D 投影のジオメトリ: 「リフト」ステップでは、双線形サンプリングを使用して Z 方向に沿って LIDAR フィーチャを持ち上げることで、LIDAR BEV フィーチャを投影された地平線に埋め込みます。 「スプラット」ステップは逆変換に対応しており、双線形サンプリングを使用して、投影された地平線からの特徴を再び Z 方向に沿って BEV グリッドに投影します。右側にはプロジェクト モジュールの詳細が表示されます。

実験結果

オリジナルリンク: https://mp.weixin.qq.com/s/D7xgvrp8633S2SeUfCRFXQ

<<:  マスク氏のAIスタートアップxAIは社会への影響を優先する特別な構造を採用

>>:  何? NeRF は BEV の一般化パフォーマンスも向上させます。最初の BEV クロスドメイン オープンソース コードと Sim2Real の最初の完成!

ブログ    
ブログ    
ブログ    

推薦する

IoTが発展するために機械学習が必要な理由

ビッグデータや人工知能などのテクノロジーがもたらす機会と脅威、そしてその将来に対する懸念については、...

この記事では人工知能とは何かを徹底的に解説します!

人工知能 (AI) は、自然科学のさまざまな分野を網羅しており、主に特定の種類の知的な人間の活動をモ...

...

今検討する価値のある 21 のロボティック プロセス オートメーション (RPA) ツール

[[422760]] [51CTO.com クイック翻訳]事実によれば、ロボティック プロセス オー...

専門家の洞察: AI を活用して配送をスピードアップする方法

毎分250人の赤ちゃんが生まれ、世界では4回の地震が発生し、シンガポール港では1,000トンを超える...

報告書:人工知能は5年以内に人間の雇用を著しく脅かすだろう

ある報告書によると、自動化と人工知能は最大5年以内に人間の雇用を脅かすことになるという。このような状...

オンラインショッピングデータに基づくスマートドアロック「ショッピングガイド」

ビル・ゲイツは1995年に「The Road Ahead」の中でこう述べています。「将来、スマート家...

IDC: 2024年までにIoTシステムの約20%が人工知能をサポートすると予想

1月20日、IDCが最近発表した「IDC FutureScape:世界の人工知能(AI)と自動化市場...

データ分析技術:エッジ人工知能の応用

私たちが SF の世界に引き込まれると、人工知能と機械学習 (AI/ML) の概念は、映画「マトリッ...

機械学習エンジニアが知っておくべきアルゴリズムトップ10

機械学習/人工知能のサブフィールドがここ数年で人気が高まってきたことは間違いありません。ビッグデータ...

なぜ AIoT が将来の主流となるのでしょうか?

エンジニアであれ消費者であれ、AIとIoT技術が私たちの生活にもたらした変化は誰もが感じています。ビ...

Amazon Pollyについて

Amazon Polly は、テキストをリアルな音声に変換するサービスです。これにより、音声を発する...

AIはインダストリー4.0の最適化段階の鍵となる

[[282511]]製造業の新たな課題製造業はインテリジェント製造に向けてアップグレードし、変革する...

iOS の位置決めと座標系アルゴリズム

この話題を始める前に、もう一度皆さんの無知を解明させてください。私が解明したいのは、座標系についての...

大型模型シリーズ - RAGの解釈

RAG は、2023 年に最も人気のある LLM ベースのアプリケーション システム アーキテクチャ...