SurroundOcc: サラウンド 3D 占有グリッドの最新技術!

SurroundOcc: サラウンド 3D 占有グリッドの最新技術!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

本研究では、マルチフレームのポイントクラウドから高密度の占有グリッドデータセットを構築し、トランスフォーマーベースの 2D-3D Unet 構造に基づいて 3 次元の占有グリッドネットワークを設計しました。私たちの論文が ICCV 2023 に掲載されたことを光栄に思います。プロジェクト コードはオープンソース化されており、誰でも試すことができます。

arXiv: https://arxiv.org/pdf/2303.09551.pdf

コード: https://github.com/weiyithu/SurroundOcc

ホームページ: https://weiyithu.github.io/SurroundOcc/

最近は必死に仕事を探していて、書く時間がありませんでした。つい最近、カメラレディ作品を提出したので、作品の仕上げとして、知乎に要約を書こうと思いました。実際、記事の紹介部分は様々な公開アカウントによって非常によく書かれており、私たちも彼らの宣伝に感謝します。Heart of Autonomous Driving: nuScenes SOTAを直接参照できます。 SurroundOcc: 自動運転のための純粋な視覚による 3D 占有予測ネットワーク (清華大学 & 天津大学)。一般的に、貢献は 2 つの部分に分かれています。1 つは、マルチフレーム LIDAR ポイント クラウドを使用して高密度の占有データセットを構築する方法であり、もう 1 つは占有予測ネットワークを設計する方法です。実際、どちらの部分も内容は比較的わかりやすく、理解しやすいです。ご質問があれば、いつでもご質問ください。そこでこの記事では、論文以外のことについてお話ししたいと思います。1つは、現在のソリューションをどのように改善して導入しやすくするか、そしてもう1つは将来の開発の方向性についてです。

展開する

ネットワークの展開が容易かどうかは、主にボード上で実装するのが難しい演算子があるかどうかによって決まります。SurroundOcc メソッドでより難しい 2 つの演算子は、トランスフォーマー レイヤーと 3D 畳み込みです。

トランスフォーマーの主な機能は、2D の特徴を 3D 空間に変換することです。実際、この部分は LSS、ホモグラフィー、さらには MLP でも実装できるため、ネットワークのこの部分は実装されたソリューションに応じて変更できます。しかし、私の知る限り、トランスフォーマーソリューションはキャリブレーションに敏感ではなく、いくつかのソリューションの中でパフォーマンスが優れています。トランスフォーマーの導入を実装できる人は、オリジナルのソリューションを使用することをお勧めします。

3D 畳み込みの場合は、2D 畳み込みに置き換えることができます。ここでは、元の (C、H、W、Z) 3D 特徴を (C* Z、H、W) 2D 特徴に再形成する必要があります。その後、2D 畳み込みを使用して特徴を抽出できます。最終的な占有予測ステップでは、(C、H、W、Z) に戻して再形成し、監視します。一方、スキップ接続は解像度が大きいため、より多くのビデオメモリを消費します。デプロイ時にこれを削除し、最小解像度のレイヤーのみを保持することができます。私たちの実験では、3D 畳み込みにおけるこれら 2 つの操作により、ニューシーンでいくつかのポイント ドロップアウトが発生することがわかりましたが、業界のデータセットの規模はニューシーンよりもはるかに大きく、場合によっては結論が変わるため、ポイント ドロップアウトは少なくなるか、ゼロになるはずです。

データセットの構築に関して、最も時間のかかるステップはポアソン再構成ステップです。 32 ライン LIDAR を使用して収集された nuscenes データセットを使用しているため、マルチフレーム スティッチング テクノロジを使用しても、スティッチされたポイント クラウドにはまだ多くの穴があることがわかったので、ポアソン再構成を使用して穴を埋めました。しかし実際には、業界で使用されている多くの LiDAR ポイント クラウドは、M1、RS128 など比較的密度が高いため、ポアソン再構成ステップを省略でき、データセットの構築ステップが高速化されます。

一方、SurroundOcc は、nuscenes 内の注釈付き 3D オブジェクト検出ボックスを使用して、静的シーンと動的オブジェクトを分離します。ただし、実際のアプリケーションでは、自動ラベル、つまり大規模な 3D オブジェクト検出および追跡モデルを使用して、シーケンス全体の各オブジェクトの検出ボックスを取得できます。手動で注釈を付けたラベルと比較すると、大規模なモデルを使用して生成された結果には、間違いなく何らかのエラーが含まれます。最も直接的な兆候は、複数のフレーム内のオブジェクトをつなぎ合わせた後にゴーストが発生することです。しかし実際には、占有は物体の形状に対してそれほど高い要件を持たず、検出ボックスの位置が比較的正確であれば、要件を満たすことができます。

今後の方向性

現在の方法では、占有監視信号を提供するために依然として LiDAR に大きく依存していますが、多くの車、特に低レベルの運転支援車には LiDAR が搭載されていません。これらの車は、シャドウ モードを通じて大量の RGB データを送信できます。したがって、将来の方向性としては、自己教師学習に RGB のみを使用できるかどうかが挙げられます。自然な解決策は、NeRF を監督に使用することです。具体的には、バックボーン部分は変更せずに占有率予測を取得し、次にボクセル レンダリングを使用して各カメラ視点での RGB を取得し、トレーニング セット内の真の値 RGB を損失として使用して監督信号を形成します。残念ながら、この単純なアプローチは、試してみたところうまくいきませんでした。考えられる理由は、屋外シーンの範囲が広すぎて、弱体化が持続できない可能性があります。ただし、適切に調整しなかった可能性もあります。もう一度お試しください。

もう一つの方向はタイミングと占有フローです。実際、占有フローは、単一フレームの占有よりも下流のタスクに非常に役立ちます。 ICCV 期間中は占有フローデータセットを準備する時間がなかったし、論文を発表するなら多くのフローベースラインと比較する必要があったので、その時点では作業しませんでした。タイミング ネットワークは、比較的シンプルで効果的な BEVFormer および BEVDet4D のソリューションを参照できます。難しいのはフロー データセットです。一般的なオブジェクトは、シーケンスの 3 次元ターゲット検出ボックスを使用して計算できますが、小動物のビニール袋などの特殊な形状のオブジェクトは、シーン フロー メソッドを使用してラベル付けする必要がある場合があります。

オリジナルリンク: https://mp.weixin.qq.com/s/_crun60B_lOz6_maR0Wyug

<<:  完全なマーケティング効果評価におけるベイズ構造モデルの応用

>>:  ホスピタリティ業界における職場の変革 - 人間と機械の関係

ブログ    

推薦する

「ロボット革命」は人類社会の発展にどのような影響を与えるのでしょうか?

世界経済フォーラムが最近発表した報告書によると、2025年までに世界の仕事の半分はロボットによって行...

OpenAIの創設者サム・アルトマンが解雇されてから24時間後

ChatGPTを開発するOpenAIは金曜日、CEO兼創設者のサム・アルトマン氏を解雇したが、彼の突...

生徒のエッセイ採点における新たな傾向: 教師と AI の共同モデル

テクノロジーが進歩するにつれ、それが従来の人間の仕事をどのように変えたり、置き換えたりするのかという...

機械学習の公平性研究は正しい方向に進んでいるのでしょうか?

機械学習における公平性に関する研究は本当に正しい方向に進んでいるのでしょうか?人工知能の発展に伴い、...

弱電産業におけるAIの応用動向

近年、セキュリティ業界では、デジタル化された人工知能の学習および認識技術の概念がかなり普及しています...

彼女はマスクとビットコインへの多額の投資により伝説となった! 2021年のトップ10テクノロジートレンドを発表

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

人工知能はデジタルマーケティング革命において否定できないトレンドとなっている

人工知能 (AI) は、現在、デジタル マーケティング革命における否定できないトレンドとなっています...

...

人工知能

[[200702]] 250年以上にわたり、技術革新は経済発展の根本的な原動力となってきました。これ...

2023 年の IT ネットワーク トレンド トップ 10

2023 年には、IT ネットワーキング分野でいくつかの重要なトレンドが流行するでしょう。大まかに...

公共の安全を守るために都市に AI を導入するにはどうすればよいでしょうか?

[[347520]]今日私たちが直面している脅威の状況は絶えず変化しています。世界的に、法執行機関...

ソートアルゴリズムを簡単に学ぶ: よく使われるソートアルゴリズムを視覚的に体験

1. クイックソート導入:クイックソートは、Tony Hall によって開発されたソートアルゴリズム...

調査によると、経営幹部はAIが職務記述書を時代遅れにしていると考えている

最近の調査によると、機械が仕事を奪っていくのを見ると、人間の従業員の士気が低下する可能性があることが...