RoboFusion: SAM による堅牢なマルチモーダル 3D 検査

RoboFusion: SAM による堅牢なマルチモーダル 3D 検査

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

論文リンク: https://arxiv.org/pdf/2401.03907.pdf

マルチモーダル 3D 検出器は、安全で信頼性の高い自動運転認識システムの研究に特化しています。しかし、クリーンなベンチマーク データセットで最先端 (SOTA) のパフォーマンスを達成しているにもかかわらず、現実世界の環境の複雑さと厳しい条件が無視されることがよくあります。同時に、視覚基本モデル (VFM) の出現により、自動運転におけるマルチモーダル 3D 検出の堅牢性と一般化能力の向上にも機会と課題が伴います。そのため、著者らは、SAM などの VFM を活用して分布外 (OOD) ノイズ シナリオに対処する強力なフレームワークである RoboFusion を提案しています。

まず、オリジナルの SAM を SAM-AD という自動運転シナリオに適用します。SAM または SAMAD をマルチモーダル手法と整合させるために、SAM によって抽出された画像特徴をアップサンプリングする AD-FPN が導入されます。ウェーブレット分解は、深度ガイド画像のノイズを除去して、ノイズと天候による干渉をさらに低減するために使用されます。最後に、自己注意メカニズムを使用して、融合された特徴を適応的に再重み付けし、余分なノイズを抑制しながら有益な特徴を強化します。 RoboFusion は、VFM の一般化と堅牢性を活用してノイズを徐々に削減し、マルチモーダル 3D オブジェクト検出の回復力を強化します。その結果、RoboFusion は、KITTIC および nuScenes-C ベンチマークで実証されているように、ノイズの多いシーンでも最先端のパフォーマンスを実現します。

この論文では、SAM などの VFM を活用して、3D マルチモーダル オブジェクト検出器をクリーンなシーンから OOD ノイズの多いシーンに適応させる堅牢なフレームワーク RoboFusion を提案しています。特にSAMの適応戦略は以下のとおりです。

1) 推論セグメンテーション結果の代わりに SAM から抽出された特徴を使用します。

2) ADシナリオ向けに事前トレーニングされたSAMであるSAM-ADが提案されています。

3) VFM をマルチモーダル 3D 検出器と調整するための特徴アップサンプリング問題を解決するために、新しい AD-FPN が導入されました。

4) ノイズ干渉をさらに低減し、重要な信号特性を維持するために、高周波ノイズと低周波ノイズの両方を効果的に減衰できるディープガイドウェーブレットアテンション (DGWA) モジュールが設計されています。

5) ポイントクラウドの特徴と画像の特徴を融合した後、適応融合を提案し、自己注意を通じて融合された特徴を適応的に再重み付けして、特徴の堅牢性とノイズ耐性をさらに強化します。

RoboFusion ネットワーク構造

RoboFusion フレームワークを以下に示します。LIDAR ブランチはベースライン [Chen et al., 2022; Bai et al., 2022] に従って LIDAR フィーチャを生成します。カメラ部門では、まず高度に最適化された SAM-AD を使用して堅牢な画像特徴を抽出し、次に AD-FPN を使用してマルチスケール特徴を取得します。次に、元の点からスパース深度マップ S が生成され、ディープ エンコーダーに入力されて深層特徴が取得され、その後、マルチスケール画像特徴と融合されて深度誘導画像特徴が取得されます。次に、変動アテンションを使用して突然変異ノイズを除去します。最後に、適応型融合は、自己注意メカニズムを介して、ポイント クラウド機能と深度情報を備えた堅牢な画像機能を組み合わせます。

SAM-AD: SAM を AD (自動運転) シナリオにさらに適応させるために、SAM は SAM-AD を取得するように事前トレーニングされます。具体的には、成熟したデータセット(KITTI や nuScenes など)から多数の画像サンプルを収集し、基本的な AD データセットを形成しました。 DMAE の後、SAM は、図 3 に示すように、AD シナリオで SAM-AD を取得するように事前トレーニングされます。 x を AD データセット (KITTI および nuScenes) からのクリーンな画像として表し、η を x に基づいて生成されたノイズの多い画像として表します。騒音の種類と深刻度は、それぞれ 4 つの天候タイプ (雨、雪、霧、晴れ) と 1 から 5 までの 5 つの深刻度レベルからランダムに選択されました。エンコーダーとして SAM と MobileSAM の画像エンコーダーを使用しますが、デコーダーと再構成損失は DMAE と同じです。

AD-FPN。ヒント可能なセグメンテーション モデルとして、SAM は、画像エンコーダー、ヒント エンコーダー、マスク デコーダーの 3 つの部分で構成されます。一般的に、画像エンコーダを一般化して VFM をトレーニングし、次にデコーダをトレーニングする必要があります。言い換えれば、画像エンコーダーは下流モデルに高品質で非常に堅牢な画像埋め込みを提供できますが、マスクデコーダーはセマンティックセグメンテーションのデコードサービスのみを提供するように設計されています。さらに、必要なのは、キュー エンコーダによるキュー情報の処理ではなく、堅牢な画像機能です。そのため、堅牢な画像特徴を抽出には SAM の画像エンコーダを使用します。ただし、SAM は画像エンコーダーとして ViT シリーズを利用しており、マルチスケール機能は除外され、高次元の低解像度機能のみが提供されます。物体検出に必要なマルチスケール特徴を生成するために、[Li et al., 2022a]に触発されて、ViTに基づくマルチスケール特徴を提供するAD-FPNが設計されました。

SAM-AD または SAM は堅牢な画像特徴を抽出できますが、2D ドメインと 3D ドメインの間には依然としてギャップが存在し、破損した環境では幾何学的情報が不足しているカメラによってノイズが増幅され、負の転送問題が発生することがよくあります。この問題を緩和するために、次の 2 つのステップに分けられる Deep Guided Wavelet Attention (DGWA) モジュールを提案します。 1) ディープ ガイド ネットワークは、画像の特徴とポイント クラウドの深度の特徴を組み合わせて、画像の特徴の前にジオメトリを追加するように設計されています。 2) Haar ウェーブレット変換を使用して画像の特徴を 4 つのサブバンドに分解し、アテンション メカニズムによってサブバンド内の有益な特徴のノイズを除去します。

実験比較

オリジナルリンク: https://mp.weixin.qq.com/s/78y1KyipHeUSh5sLQZy-ng

<<: 

>>:  TimePillars: 200メートルを超える小さなターゲットの検出能力の向上

ブログ    
ブログ    

推薦する

清華大学の崔鵬氏:因果推論技術の最新開発動向

著者 | 真実を追求する実践主義者人工知能が発展し続けるにつれて、セキュリティとコンプライアンスの問...

清華大学:過去10年間の人工知能の発展の概要:中国は急速な進歩を遂げ、その特許は世界の70%を占める

1. 急速な発展の10年1. 論文の発表状況<br /> 人工知能は過去10年間で急速に...

中国移動研究所のチャン・ヤオビン氏:主流の人工知能技術スタックの詳細な議論と実践的な概要

はじめに:近年の人工知能技術の急速な発展は、主にニューラルネットワーク、チップ、ビッグデータという ...

...

2021年10月のドローン業界の最新動向を3分で振り返る

現在、人工知能や5Gなどの技術の助けを借りて、我が国のドローン開発は急速な成長の軌道に乗っています。...

大規模モデルを路上に展開するための重要なステップ: 世界初の言語 + 自動運転オープンソースデータセットが登場

DriveLM は、データセットとモデルで構成される言語ベースのドライブ プロジェクトです。 Dri...

...

...

テキストの説明に基づいてビデオから画像を切り取る、Transformer:このクロスモーダルタスクは私が最も得意とすることです

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

烏鎮サミットから10年:呉永明が初めてアリババの新たな変化について言及

ノア著制作:51CTO テクノロジースタック(WeChat ID:blog) 「夜、烏鎮の橋のそばの...

世界を席巻しているトップ10のプログラミングアルゴリズムを鑑賞しましょう

[[121078]]アルゴリズムは今日の私たちの生活にとって非常に重要なので、いくら強調してもし過ぎ...

大手企業が人工知能への投資を増やす一方で、フェイスブックはトレンドに逆らって減速している

現在、GoogleやAmazonなどの大手テクノロジー企業は人工知能技術に多額の投資を行っており、人...

Giskard: AI モデル向けのオープンソース品質管理

翻訳者 |ブガッティレビュー | Chonglou実稼働環境で AI モデルの品質を確保することは複...