この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 論文: 完全スパース 3D パノプティック占有率予測 リンク: https://arxiv.org/pdf/2312.17118.pdf この論文の出発点は何ですか?占有率予測は自動運転の分野で重要な役割を果たします。従来の方法では通常、シーンの固有のスパース性を無視して高密度の 3D ボリュームを構築するため、計算コストが高くなります。さらに、これらの方法は意味的な占有に限定されており、異なるインスタンスを区別することはできません。スパース性を活用し、インスタンス認識を保証するために、著者らは SparseOcc と呼ばれる新しい完全にスパースなパノプティック占有ネットワークを導入しています。 SparseOcc は最初に視覚入力からスパース 3D 表現を再構築します。次に、スパース インスタンス クエリを使用して、スパース 3D 表現から各オブジェクト インスタンスを予測します。 さらに、著者らは視覚中心のパノラマ占有ベンチマークを初めて確立しました。 SparseOcc は、リアルタイム推論速度 25.4 FPS を維持しながら、Occ3D nus データセットで 26.0 の mIoU を達成します。最初の 8 フレームの時間的モデリングを組み合わせることで、SparseOcc はパフォーマンスをさらに向上させ、mIoU 30.9 を達成します。コードは後でオープンソース化される予定です。 SparseOcc の構造とプロセスSparseOcc は 2 つのステップで構成されます。まず、著者らは、シーンのスパースな幾何学的構造を再構築するためのスパースボクセルデコーダーを提案します。このデコーダーは、シーンの非フリー領域のみをモデル化するため、計算リソースを大幅に節約できます。次に、スパースインスタンスクエリを使用してスパース空間内の各オブジェクトのマスクとラベルを予測するマスクトランスフォーマーを設計します。 さらに、著者らは、マスク変換における密なクロスアテンションを回避するために、マスク誘導スパースサンプリングを提案しています。したがって、SparseOcc は、密な 3D 機能に依存せず、スパースから密へのグローバル アテンション操作も実行しないため、上記の 2 つのスパース プロパティを同時に活用して、完全にスパースなアーキテクチャを形成できます。同時に、SparseOcc はシーン内のさまざまなインスタンスを区別し、セマンティック占有とインスタンス占有をパノラマ占有に統合できます。 設計されたスパースボクセルデコーダーを図 4 に示します。一般的に、これは粗から細への構造に従いますが、入力としてボクセル ラベルのスパース セットを受け取ります。各レイヤーの最後に、各ボクセルの占有スコアを推定し、予測スコアに基づいてスパース化を実行します。ここでは、2 つのスパース化方法があります。1 つはしきい値に基づくもの (たとえば、スコア > 0.5 のみを保持する) であり、もう 1 つは top-k に基づくものです。この研究では、閾値処理によってサンプルの長さが不均等になり、トレーニング効率に影響するため、著者らは top-k を選択しました。 k はデータセットに依存するパラメータで、異なる解像度で各サンプル内の非フリー ボクセルの最大数をカウントすることによって取得されます。まばらにラベル付けされたボクセルは、次のレイヤーへの入力として使用されます。 タイミングモデリング。これまでの高密度占有法では、通常、過去の BEV/3D 特徴を現在のタイムスタンプにワープし、変形可能な注意または 3D 畳み込みを使用して時間情報を融合していました。ただし、3D フィーチャがまばらであるため、このアプローチは今回のケースには適用できません。この問題に対処するために、著者らはサンプリング ポイントの柔軟性を活用し、それらを以前のタイムスタンプにラップして画像の特徴をサンプリングします。複数のタイムスタンプからサンプリングされた特徴は、適応ブレンディングによって重ね合わされ、集約されます。 損失設計: 各レイヤーは監視されます。このステップではクラスに依存しない占有率が再構築されるため、バイナリ クロス エントロピー (BCE) 損失を使用して占有率ヘッドを監視します。予測される占有率の観点から、場所のまばらなセットのみが監視されます。つまり、初期段階で破棄された領域は監視されません。 さらに、クラスの不均衡がひどいため、モデルは地面などの割合が大きいクラスによって簡単に支配され、車や人など、シーン内の他の重要な要素が無視されてしまいます。したがって、異なるクラスに属するボクセルには、異なる損失重みが割り当てられます。たとえば、クラス c に属するボクセルには次の損失重みが割り当てられます。 ここで、Mi は GT 内の i 番目のクラスに属するボクセルの数です。 マスクガイドによるスパースサンプリング。マスク トランスフォーマーの簡単なベースラインは、Mask2Former のマスク クロス アテンション モジュールを使用することです。ただし、キーポイントのすべての位置が関係するため、計算負荷が非常に高くなる可能性があります。ここで、著者らは簡単な代替案を考案しています。前の(l−1)Transformerデコーダーレイヤーのマスク予測が与えられた場合、マスク内のボクセルをランダムに選択することによって3Dサンプルポイントのセットが生成されます。これらのサンプリング ポイントは画像上に投影され、画像の特徴をサンプリングします。さらに、当社のスパース サンプリング メカニズムにより、サンプル ポイントを単純にワープするだけで時間モデリングが容易になります (スパース ボクセル デコーダーで実行されるように)。 実験結果Occ3D nuScenes データセットでの 3D 占有率予測パフォーマンス。 「8f」はフレーム7+1からの時間情報を融合することを意味します。私たちの方法は、より弱い設定でも以前の方法と同等かそれ以上のパフォーマンスを実現します。 オリジナルリンク: https://mp.weixin.qq.com/s/CX18meq6DZcIhi0_DElfMw |
>>: インタラクティブ知覚とは何ですか?自動運転における社会的相互作用の動的モデルと意思決定の最前線に関する包括的なレビュー。
ワインとチーズの組み合わせを識別するのに役立つアプリケーションを構築したいとします。最も優れたパフォ...
[51CTO.comより引用] 遅かれ早かれ、この日はやって来る。イ・セドルがアルファ碁に1対4で負...
私の誠意を示すために、この短くて鋭い真実をここに述べます。ニューラル ネットワークは、 相互接続され...
[[417111]] AI と IoT ほどエキサイティングで重要なテクノロジーの組み合わせはほと...
ますます激化する競争の中で、どのように効率的に生産するかと問われれば、答えは自動化の助けを借りること...
[[388699]]モデルの複雑さは、機械学習、データマイニング、ディープラーニングにおいて常に重要...
近年、3D コンピューター ビジョンと人工知能はともに急速に進歩していますが、両者の効果的な組み合わ...
工学部の学生として、私たちは行列や行列式などの線形代数の知識を長い間使用してきました。この記事では、...
ビッグデータダイジェスト制作著者: カレブボストン・ダイナミクスを例に挙げると、ロボットはますます多...
昨日、李栄浩は目が小さいことで再び注目を集めた。 「特殊効果では李容浩の目は大きくできない」というト...
IDC は最近、世界中の企業による生成 AI サービス、ソフトウェア、インフラストラクチャへの支出が...