SurroundOcc: サラウンド 3D 占有グリッドの最新技術!

SurroundOcc: サラウンド 3D 占有グリッドの最新技術!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

本研究では、マルチフレームのポイントクラウドから高密度の占有グリッドデータセットを構築し、トランスフォーマーベースの 2D-3D Unet 構造に基づいて 3 次元の占有グリッドネットワークを設計しました。私たちの論文が ICCV 2023 に掲載されたことを光栄に思います。プロジェクト コードはオープンソース化されており、誰でも試すことができます。

arXiv: https://arxiv.org/pdf/2303.09551.pdf

コード: https://github.com/weiyithu/SurroundOcc

ホームページ: https://weiyithu.github.io/SurroundOcc/

最近は必死に仕事を探していて、書く時間がありませんでした。つい最近、カメラレディ作品を提出したので、作品の仕上げとして、知乎に要約を書こうと思いました。実際、記事の紹介部分は様々な公開アカウントによって非常によく書かれており、私たちも彼らの宣伝に感謝します。Heart of Autonomous Driving: nuScenes SOTAを直接参照できます。 SurroundOcc: 自動運転のための純粋な視覚による 3D 占有予測ネットワーク (清華大学 & 天津大学)。一般的に、貢献は 2 つの部分に分かれています。1 つは、マルチフレーム LIDAR ポイント クラウドを使用して高密度の占有データセットを構築する方法であり、もう 1 つは占有予測ネットワークを設計する方法です。実際、どちらの部分も内容は比較的わかりやすく、理解しやすいです。ご質問があれば、いつでもご質問ください。そこでこの記事では、論文以外のことについてお話ししたいと思います。1つは、現在のソリューションをどのように改善して導入しやすくするか、そしてもう1つは将来の開発の方向性についてです。

展開する

ネットワークの展開が容易かどうかは、主にボード上で実装するのが難しい演算子があるかどうかによって決まります。SurroundOcc メソッドでより難しい 2 つの演算子は、トランスフォーマー レイヤーと 3D 畳み込みです。

トランスフォーマーの主な機能は、2D の特徴を 3D 空間に変換することです。実際、この部分は LSS、ホモグラフィー、さらには MLP でも実装できるため、ネットワークのこの部分は実装されたソリューションに応じて変更できます。しかし、私の知る限り、トランスフォーマーソリューションはキャリブレーションに敏感ではなく、いくつかのソリューションの中でパフォーマンスが優れています。トランスフォーマーの導入を実装できる人は、オリジナルのソリューションを使用することをお勧めします。

3D 畳み込みの場合は、2D 畳み込みに置き換えることができます。ここでは、元の (C、H、W、Z) 3D 特徴を (C* Z、H、W) 2D 特徴に再形成する必要があります。その後、2D 畳み込みを使用して特徴を抽出できます。最終的な占有予測ステップでは、(C、H、W、Z) に戻して再形成し、監視します。一方、スキップ接続は解像度が大きいため、より多くのビデオメモリを消費します。デプロイ時にこれを削除し、最小解像度のレイヤーのみを保持することができます。私たちの実験では、3D 畳み込みにおけるこれら 2 つの操作により、ニューシーンでいくつかのポイント ドロップアウトが発生することがわかりましたが、業界のデータセットの規模はニューシーンよりもはるかに大きく、場合によっては結論が変わるため、ポイント ドロップアウトは少なくなるか、ゼロになるはずです。

データセットの構築に関して、最も時間のかかるステップはポアソン再構成ステップです。 32 ライン LIDAR を使用して収集された nuscenes データセットを使用しているため、マルチフレーム スティッチング テクノロジを使用しても、スティッチされたポイント クラウドにはまだ多くの穴があることがわかったので、ポアソン再構成を使用して穴を埋めました。しかし実際には、業界で使用されている多くの LiDAR ポイント クラウドは、M1、RS128 など比較的密度が高いため、ポアソン再構成ステップを省略でき、データセットの構築ステップが高速化されます。

一方、SurroundOcc は、nuscenes 内の注釈付き 3D オブジェクト検出ボックスを使用して、静的シーンと動的オブジェクトを分離します。ただし、実際のアプリケーションでは、自動ラベル、つまり大規模な 3D オブジェクト検出および追跡モデルを使用して、シーケンス全体の各オブジェクトの検出ボックスを取得できます。手動で注釈を付けたラベルと比較すると、大規模なモデルを使用して生成された結果には、間違いなく何らかのエラーが含まれます。最も直接的な兆候は、複数のフレーム内のオブジェクトをつなぎ合わせた後にゴーストが発生することです。しかし実際には、占有は物体の形状に対してそれほど高い要件を持たず、検出ボックスの位置が比較的正確であれば、要件を満たすことができます。

今後の方向性

現在の方法では、占有監視信号を提供するために依然として LiDAR に大きく依存していますが、多くの車、特に低レベルの運転支援車には LiDAR が搭載されていません。これらの車は、シャドウ モードを通じて大量の RGB データを送信できます。したがって、将来の方向性としては、自己教師学習に RGB のみを使用できるかどうかが挙げられます。自然な解決策は、NeRF を監督に使用することです。具体的には、バックボーン部分は変更せずに占有率予測を取得し、次にボクセル レンダリングを使用して各カメラ視点での RGB を取得し、トレーニング セット内の真の値 RGB を損失として使用して監督信号を形成します。残念ながら、この単純なアプローチは、試してみたところうまくいきませんでした。考えられる理由は、屋外シーンの範囲が広すぎて、弱体化が持続できない可能性があります。ただし、適切に調整しなかった可能性もあります。もう一度お試しください。

もう一つの方向はタイミングと占有フローです。実際、占有フローは、単一フレームの占有よりも下流のタスクに非常に役立ちます。 ICCV 期間中は占有フローデータセットを準備する時間がなかったし、論文を発表するなら多くのフローベースラインと比較する必要があったので、その時点では作業しませんでした。タイミング ネットワークは、比較的シンプルで効果的な BEVFormer および BEVDet4D のソリューションを参照できます。難しいのはフロー データセットです。一般的なオブジェクトは、シーケンスの 3 次元ターゲット検出ボックスを使用して計算できますが、小動物のビニール袋などの特殊な形状のオブジェクトは、シーン フロー メソッドを使用してラベル付けする必要がある場合があります。

オリジナルリンク: https://mp.weixin.qq.com/s/_crun60B_lOz6_maR0Wyug

<<:  完全なマーケティング効果評価におけるベイズ構造モデルの応用

>>:  ホスピタリティ業界における職場の変革 - 人間と機械の関係

ブログ    
ブログ    

推薦する

28 歳の中国人 Meta ソフトウェア エンジニアが、次のような理由で年収 37 万ドルの仕事を辞めました...

物語の主人公は中国人のソフトウェアエンジニア、エリック・ユーです。 2016年、Google、Met...

2021 年の AI サイバーセキュリティ開発の動向

AI の安全性は、サイバーセキュリティの脅威やデータ侵害を阻止する上でさらに重要であることが証明され...

...

...

ホーキング博士が亡くなりました。彼が残した5つの予言をぜひ読んでみてください

ガーディアン紙、BBC、スカイニュースチャンネルなど複数の外部情報源によると、英国の物理学者スティー...

2Dラベルのみを使用してマルチビュー3D占有モデルをトレーニングするための新しいパラダイム

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

「クローズドループ」に向けての運転 | LMDrive: LLM に基づく初のクローズドループ エンドツーエンド自動運転

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

人工知能はデータ活用効率を向上させ、他産業とのAI統合を加速させる

コンピューティング能力は、デジタル技術の継続的な発展とデジタル経済時代の中核的な生産性にとって重要な...

中国のAIハイテクが2018CESを制覇、Zhuner翻訳機が世界の家電「オスカー」を驚かせる

2018 CES(国際コンシューマー・エレクトロニクス・ショー)が1月9日から12日まで米国ラスベガ...

エッジコンピューティングにおける AI の利点

エッジと極端エッジの間でこれがどのように展開するか、また無線アクセス ネットワークにどのような階層が...

2019 年の ML と NLP におけるトップ 10 の研究ホットスポット

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

...

プログラマーはアルゴリズム思考をどのように向上させることができるでしょうか?

[[255991]]継続的な学習と継続的な開発は、主流の IT 業界のプログラマーにとって日常的な...