SparseOcc: 完全にスパースな 3D パノラマ占有予測 (セマンティック + インスタンス デュアル タスク)

SparseOcc: 完全にスパースな 3D パノラマ占有予測 (セマンティック + インスタンス デュアル タスク)

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

論文: 完全スパース 3D パノプティック占有率予測

リンク: https://arxiv.org/pdf/2312.17118.pdf

この論文の出発点は何ですか?

占有率予測は自動運転の分野で重要な役割を果たします。従来の方法では通常、シーンの固有のスパース性を無視して高密度の 3D ボリュームを構築するため、計算コストが高くなります。さらに、これらの方法は意味的な占有に限定されており、異なるインスタンスを区別することはできません。スパース性を活用し、インスタンス認識を保証するために、著者らは SparseOcc と呼ばれる新しい完全にスパースなパノプティック占有ネットワークを導入しています。 SparseOcc は最初に視覚入力からスパース 3D 表現を再構築します。次に、スパース インスタンス クエリを使用して、スパース 3D 表現から各オブジェクト インスタンスを予測します。

さらに、著者らは視覚中心のパノラマ占有ベンチマークを初めて確立しました。 SparseOcc は、リアルタイム推論速度 25.4 FPS を維持しながら、Occ3D nus データセットで 26.0 の mIoU を達成します。最初の 8 フレームの時間的モデリングを組み合わせることで、SparseOcc はパフォーマンスをさらに向上させ、mIoU 30.9 を達成します。コードは後でオープンソース化される予定です。

SparseOcc の構造とプロセス

SparseOcc は 2 つのステップで構成されます。まず、著者らは、シーンのスパースな幾何学的構造を再構築するためのスパースボクセルデコーダーを提案します。このデコーダーは、シーンの非フリー領域のみをモデル化するため、計算リソースを大幅に節約できます。次に、スパースインスタンスクエリを使用してスパース空間内の各オブジェクトのマスクとラベルを予測するマスクトランスフォーマーを設計します。

さらに、著者らは、マスク変換における密なクロスアテンションを回避するために、マスク誘導スパースサンプリングを提案しています。したがって、SparseOcc は、密な 3D 機能に依存せず、スパースから密へのグローバル アテンション操作も実行しないため、上記の 2 つのスパース プロパティを同時に活用して、完全にスパースなアーキテクチャを形成できます。同時に、SparseOcc はシーン内のさまざまなインスタンスを区別し、セマンティック占有とインスタンス占有をパノラマ占有に統合できます。

設計されたスパースボクセルデコーダーを図 4 に示します。一般的に、これは粗から細への構造に従いますが、入力としてボクセル ラベルのスパース セットを受け取ります。各レイヤーの最後に、各ボクセルの占有スコアを推定し、予測スコアに基づいてスパース化を実行します。ここでは、2 つのスパース化方法があります。1 つはしきい値に基づくもの (たとえば、スコア > 0.5 のみを保持する) であり、もう 1 つは top-k に基づくものです。この研究では、閾値処理によってサンプルの長さが不均等になり、トレーニング効率に影響するため、著者らは top-k を選択しました。 k はデータセットに依存するパラメータで、異なる解像度で各サンプル内の非フリー ボクセルの最大数をカウントすることによって取得されます。まばらにラベル付けされたボクセルは、次のレイヤーへの入力として使用されます。

タイミングモデリング。これまでの高密度占有法では、通常、過去の BEV/3D 特徴を現在のタイムスタンプにワープし、変形可能な注意または 3D 畳み込みを使用して時間情報を融合していました。ただし、3D フィーチャがまばらであるため、このアプローチは今回のケースには適用できません。この問題に対処するために、著者らはサンプリング ポイントの柔軟性を活用し、それらを以前のタイムスタンプにラップして画像の特徴をサンプリングします。複数のタイムスタンプからサンプリングされた特徴は、適応ブレンディングによって重ね合わされ、集約されます。

損失設計: 各レイヤーは監視されます。このステップではクラスに依存しない占有率が再構築されるため、バイナリ クロス エントロピー (BCE) 損失を使用して占有率ヘッドを監視します。予測される占有率の観点から、場所のまばらなセットのみが監視されます。つまり、初期段階で破棄された領域は監視されません。

さらに、クラスの不均衡がひどいため、モデルは地面などの割合が大きいクラスによって簡単に支配され、車や人など、シーン内の他の重要な要素が無視されてしまいます。したがって、異なるクラスに属するボクセルには、異なる損失重みが割り当てられます。たとえば、クラス c に属するボクセルには次の損失重みが割り当てられます。

ここで、Mi は GT 内の i 番目のクラスに属するボクセルの数です。

マスクガイドによるスパースサンプリング。マスク トランスフォーマーの簡単なベースラインは、Mask2Former のマスク クロス アテンション モジュールを使用することです。ただし、キーポイントのすべての位置が関係するため、計算負荷が非常に高くなる可能性があります。ここで、著者らは簡単な代替案を考案しています。前の(l−1)Transformerデコーダーレイヤーのマスク予測が与えられた場合、マスク内のボクセルをランダムに選択することによって3Dサンプルポイントのセットが生成されます。これらのサンプリング ポイントは画像上に投影され、画像の特徴をサンプリングします。さらに、当社のスパース サンプリング メカニズムにより、サンプル ポイントを単純にワープするだけで時間モデリングが容易になります (スパース ボクセル デコーダーで実行されるように)。

実験結果

Occ3D nuScenes データセットでの 3D 占有率予測パフォーマンス。 「8f」はフレーム7+1からの時間情報を融合することを意味します。私たちの方法は、より弱い設定でも以前の方法と同等かそれ以上のパフォーマンスを実現します。

オリジナルリンク: https://mp.weixin.qq.com/s/CX18meq6DZcIhi0_DElfMw

<<:  2024年のビッグデータ産業予測(I)

>>:  インタラクティブ知覚とは何ですか?自動運転における社会的相互作用の動的モデルと意思決定の最前線に関する包括的なレビュー。

ブログ    
ブログ    
ブログ    

推薦する

...

Google CEO ピチャイが、Google 史上最強のモデル「ジェミニ」と人工知能の時代を深く分析

12月7日水曜日、米国現地時間、Googleは新世代の人工知能モデル「Gemini」をリリースした。...

コンテンツ マーケティングにおいて自然言語処理はどのように機能しますか?

[[417909]] [51CTO.com クイック翻訳]自然言語処理 (NLP) はコンテンツ ...

AI列車に乗ってみよう!マーケティングに人工知能を活用する3つの方法

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

人工知能が中国の医療サービスに力を与える

「医者にかかりにくい」「入院しにくい」など、人々の生活における医療上の困難な問題が相次ぐ中、「インタ...

...

...

...

...

図: ページ置換アルゴリズム

[[398509]]この記事はWeChatの公開アカウント「Jingyu」から転載したもので、著者は...

AIGC教育産業パノラマレポート:AIティーチングアシスタントと家庭教師が現実のものとなり、学習マシンが新たな機会をもたらす

1 年間の急速な反復を経て、業界ではすでに、生成 AI が最初にどの業界に実装されるかについての答え...

LRU (Least Recently Used) キャッシュアルゴリズムの実装

[[349478]] LRU は Least Recently Used の略で、よく使われるページ...

AIは昨日のことを思い出せるが、過去を思い出すのはまだ少し難しい

[[285973]]人工知能が長期記憶を形成するには、脳科学、神経科学、心理学、行動経済学の分野にお...

MSRAがACM TOMM 2017最優秀論文賞を受賞: 複雑でプロフェッショナルなグラフィックデザイン作業をAIに任せよう

豊富な写真と美しいレイアウトで記事を作成、編集する方法に悩んだことはありませんか?あるいは、芸術的な...

AIの未来はブロックチェーンの未来とつながっているのでしょうか?

近代以降、ほぼすべての産業革命はさまざまな程度の自動化によって推進されてきました。これまでの産業革命...