RoboFusion: SAM による堅牢なマルチモーダル 3D 検査

RoboFusion: SAM による堅牢なマルチモーダル 3D 検査

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

論文リンク: https://arxiv.org/pdf/2401.03907.pdf

マルチモーダル 3D 検出器は、安全で信頼性の高い自動運転認識システムの研究に特化しています。しかし、クリーンなベンチマーク データセットで最先端 (SOTA) のパフォーマンスを達成しているにもかかわらず、現実世界の環境の複雑さと厳しい条件が無視されることがよくあります。同時に、視覚基本モデル (VFM) の出現により、自動運転におけるマルチモーダル 3D 検出の堅牢性と一般化能力の向上にも機会と課題が伴います。そのため、著者らは、SAM などの VFM を活用して分布外 (OOD) ノイズ シナリオに対処する強力なフレームワークである RoboFusion を提案しています。

まず、オリジナルの SAM を SAM-AD という自動運転シナリオに適用します。SAM または SAMAD をマルチモーダル手法と整合させるために、SAM によって抽出された画像特徴をアップサンプリングする AD-FPN が導入されます。ウェーブレット分解は、深度ガイド画像のノイズを除去して、ノイズと天候による干渉をさらに低減するために使用されます。最後に、自己注意メカニズムを使用して、融合された特徴を適応的に再重み付けし、余分なノイズを抑制しながら有益な特徴を強化します。 RoboFusion は、VFM の一般化と堅牢性を活用してノイズを徐々に削減し、マルチモーダル 3D オブジェクト検出の回復力を強化します。その結果、RoboFusion は、KITTIC および nuScenes-C ベンチマークで実証されているように、ノイズの多いシーンでも最先端のパフォーマンスを実現します。

この論文では、SAM などの VFM を活用して、3D マルチモーダル オブジェクト検出器をクリーンなシーンから OOD ノイズの多いシーンに適応させる堅牢なフレームワーク RoboFusion を提案しています。特にSAMの適応戦略は以下のとおりです。

1) 推論セグメンテーション結果の代わりに SAM から抽出された特徴を使用します。

2) ADシナリオ向けに事前トレーニングされたSAMであるSAM-ADが提案されています。

3) VFM をマルチモーダル 3D 検出器と調整するための特徴アップサンプリング問題を解決するために、新しい AD-FPN が導入されました。

4) ノイズ干渉をさらに低減し、重要な信号特性を維持するために、高周波ノイズと低周波ノイズの両方を効果的に減衰できるディープガイドウェーブレットアテンション (DGWA) モジュールが設計されています。

5) ポイントクラウドの特徴と画像の特徴を融合した後、適応融合を提案し、自己注意を通じて融合された特徴を適応的に再重み付けして、特徴の堅牢性とノイズ耐性をさらに強化します。

RoboFusion ネットワーク構造

RoboFusion フレームワークを以下に示します。LIDAR ブランチはベースライン [Chen et al., 2022; Bai et al., 2022] に従って LIDAR フィーチャを生成します。カメラ部門では、まず高度に最適化された SAM-AD を使用して堅牢な画像特徴を抽出し、次に AD-FPN を使用してマルチスケール特徴を取得します。次に、元の点からスパース深度マップ S が生成され、ディープ エンコーダーに入力されて深層特徴が取得され、その後、マルチスケール画像特徴と融合されて深度誘導画像特徴が取得されます。次に、変動アテンションを使用して突然変異ノイズを除去します。最後に、適応型融合は、自己注意メカニズムを介して、ポイント クラウド機能と深度情報を備えた堅牢な画像機能を組み合わせます。

SAM-AD: SAM を AD (自動運転) シナリオにさらに適応させるために、SAM は SAM-AD を取得するように事前トレーニングされます。具体的には、成熟したデータセット(KITTI や nuScenes など)から多数の画像サンプルを収集し、基本的な AD データセットを形成しました。 DMAE の後、SAM は、図 3 に示すように、AD シナリオで SAM-AD を取得するように事前トレーニングされます。 x を AD データセット (KITTI および nuScenes) からのクリーンな画像として表し、η を x に基づいて生成されたノイズの多い画像として表します。騒音の種類と深刻度は、それぞれ 4 つの天候タイプ (雨、雪、霧、晴れ) と 1 から 5 までの 5 つの深刻度レベルからランダムに選択されました。エンコーダーとして SAM と MobileSAM の画像エンコーダーを使用しますが、デコーダーと再構成損失は DMAE と同じです。

AD-FPN。ヒント可能なセグメンテーション モデルとして、SAM は、画像エンコーダー、ヒント エンコーダー、マスク デコーダーの 3 つの部分で構成されます。一般的に、画像エンコーダを一般化して VFM をトレーニングし、次にデコーダをトレーニングする必要があります。言い換えれば、画像エンコーダーは下流モデルに高品質で非常に堅牢な画像埋め込みを提供できますが、マスクデコーダーはセマンティックセグメンテーションのデコードサービスのみを提供するように設計されています。さらに、必要なのは、キュー エンコーダによるキュー情報の処理ではなく、堅牢な画像機能です。そのため、堅牢な画像特徴を抽出には SAM の画像エンコーダを使用します。ただし、SAM は画像エンコーダーとして ViT シリーズを利用しており、マルチスケール機能は除外され、高次元の低解像度機能のみが提供されます。物体検出に必要なマルチスケール特徴を生成するために、[Li et al., 2022a]に触発されて、ViTに基づくマルチスケール特徴を提供するAD-FPNが設計されました。

SAM-AD または SAM は堅牢な画像特徴を抽出できますが、2D ドメインと 3D ドメインの間には依然としてギャップが存在し、破損した環境では幾何学的情報が不足しているカメラによってノイズが増幅され、負の転送問題が発生することがよくあります。この問題を緩和するために、次の 2 つのステップに分けられる Deep Guided Wavelet Attention (DGWA) モジュールを提案します。 1) ディープ ガイド ネットワークは、画像の特徴とポイント クラウドの深度の特徴を組み合わせて、画像の特徴の前にジオメトリを追加するように設計されています。 2) Haar ウェーブレット変換を使用して画像の特徴を 4 つのサブバンドに分解し、アテンション メカニズムによってサブバンド内の有益な特徴のノイズを除去します。

実験比較

オリジナルリンク: https://mp.weixin.qq.com/s/78y1KyipHeUSh5sLQZy-ng

<<: 

>>:  TimePillars: 200メートルを超える小さなターゲットの検出能力の向上

推薦する

ドジャースが勝利! AIが野球ワールドシリーズの意思決定プロセスを支配

ドジャースのファンは、チームが再びワールドシリーズで優勝するのを見るために32年間待ち続けた。野球は...

...

アリババ・ダモ・アカデミーがAI防疫技術を再現:CT画像を20秒で解釈、認識精度は96%

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

「顔スキャン」はもはやジョークではなく、マスクを着用していても機能します

[51CTO.comからのオリジナル記事] 近年、人工知能、ビッグデータ、クラウドコンピューティング...

...

従来のグラフエンジンから GNN へ: 計算グラフと機械学習の進化

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

ビッグデータの時代に、「アルゴリズム崇拝」に陥らないためにはどうすればいいのでしょうか?

「データ」は今日、これほど広く注目されたことはありません。以前は、携帯電話番号などの情報を何気なく...

2024年のAIソフトウェアテストの主なトレンド

AI ソフトウェア テストの分野では、将来的に複数の開発トレンドに直面する可能性があり、そのいくつか...

Google: パフォーマンスの低い微調整モデルを捨てず、平均重量を計算してパフォーマンスを向上させる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

機械学習機能を簡単に拡張: Rancher に Kubeflow をインストールする方法

機械学習の分野が発展し続けるにつれて、機械学習を扱うチームが単一のマシンでモデルをトレーニングするこ...

仕事に同行することから出勤やフィットネスの管理まで、AI はますます多くのことを処理します。

過去2年間、人工知能によって人事部門が消滅するという議論をよく耳にしてきました。しかし、実際には誰も...

メモリ帯域幅とコンピューティング能力、どちらがディープラーニング実行パフォーマンスの鍵となるのでしょうか?

モデルのハードウェア要件に関して、まず頭に浮かぶのは計算量、つまりディープラーニング モデルがフィー...

...

避けられないアルゴリズムを完全に理解するにはどうすればよいでしょうか?

検索エンジン(Google Chrome、Mozilla Firefox など)を使用するとき、バッ...