OccNeRF: LIDARデータの監視は不要

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

序文と著者の個人的な要約

近年、3D 占有率予測タスクは、その独自の利点により、学界や産業界から幅広い注目を集めています。 3D 占有予測は、周囲の環境の 3D 構造を再構築することで、自動運転の計画とナビゲーションに詳細な情報を提供します。ただし、既存の方法のほとんどは、ネットワークのトレーニングを監視するために LiDAR ポイントクラウドから生成されたラベルに依存しています。 OccNeRF の研究では、著者らは自己教師型マルチカメラ占有予測法を提案しました。この方法のパラメータ化された占有フィールドは、境界のない屋外シーンの問題を解決し、サンプリング戦略を再編成します。占有フィールドは、ボリュームレンダリングを通じてマルチカメラ深度マップに変換され、最後にマルチフレームの測光一貫性によって監視されます。さらに、この方法では、事前にトレーニングされたオープン語彙セマンティックセグメンテーションモデルを使用して 2D セマンティックラベルを生成し、モデルを監視して占有フィールドのセマンティック情報を割り当てます。

論文リンク: https://arxiv.org/pdf/2312.09243.pdf
コードリンク: https://github.com/LinShan-Bin/OccNeRF

OccNeRF 問題の背景

近年、人工知能技術の急速な発展に伴い、自動運転の分野も大きな進歩を遂げています。 3D 認識は自動運転を実現するための基礎であり、その後の計画決定に必要な情報を提供します。従来の方法では、LIDAR は正確な 3D データを直接キャプチャできますが、センサーのコストが高く、スキャンポイントがまばらであるため、実際の適用が制限されます。対照的に、画像ベースの 3D 認識方法は低コストで効果的であり、ますます注目を集めています。マルチカメラ 3D オブジェクトの検出は、これまで 3D シーン理解タスクの主流となってきましたが、現実世界の無限のカテゴリに対応できず、データのロングテール分布の影響を受けます。

3D 占有予測は、マルチビュー入力から周囲のシーンの幾何学的構造を直接再構築することで、これらの欠点を補うことができます。既存の方法のほとんどは、モデル設計とパフォーマンスの最適化に重点を置いており、ネットワークトレーニングを監督するためにLiDAR ポイントクラウドから生成されたラベルに依存していますが、これは画像ベースのシステムでは利用できません。つまり、トレーニングデータを収集するためには依然として高価なデータ収集車両を使用する必要があり、LiDAR ポイントクラウドの補助注釈がなければ大量の実データが無駄になるため、3D 占有率予測の開発はある程度制限されます。したがって、自己教師ありの 3D 占有予測を探求することは非常に価値のある方向性です。

OccNeRFアルゴリズムの詳細な説明

下の図は、OccNeRF 方式の基本的なプロセスを示しています。複数のカメラ画像を使用したモデル入力として、まず 2D バックボーンを使用して N 枚の画像の特徴を抽出します。次に、単純な投影と双線形補間を通じて 3D 特徴 (パラメーター化された空間内) を直接取得し、最後に 3D CNN ネットワークを通じて 3D 特徴を最適化し、予測結果を出力します。モデルをトレーニングするために、OccNeRF メソッドはボリュームレンダリングを通じて現在のフレームの深度マップを生成し、前のフレームと次のフレームを導入して測光損失を計算します。より多くの時間情報を導入するために、OccNeRF は占有フィールドを使用してマルチフレーム深度マップをレンダリングし、損失関数を計算します。同時に、OccNeRF は 2D セマンティックマップもレンダリングし、オープンボキャブラリセマンティックセグメンテーションモデルによって監視されます。

パラメータ化された占有フィールド

パラメータ化された占有フィールドは、カメラと占有グリッド間の認識範囲のギャップの問題に対処するために提案されました。理論的には、カメラは無限遠にある物体を撮影できますが、これまでの占有予測モデルでは比較的近い空間（たとえば、40 メートル以内）のみを考慮していました。教師あり方式では、モデルは教師信号に基づいて遠くのオブジェクトを無視することを学習できます。一方、教師なし方式では、近くの空間のみが考慮される場合、画像内の範囲外のオブジェクトの数が多すぎると、最適化プロセスに悪影響が及ぶことになります。これに基づいて、OccNeRF はパラメーター化された占有フィールドを使用して、無制限の範囲の屋外シーンをモデル化します。

OccNeRF のパラメータ化空間は、内部と外部に分かれています。内部空間は元の座標の線形マッピングであり、高解像度を維持しますが、外部空間は無限の範囲を表します。具体的には、OccNeRFは座標は次のように変化します。

でのために座標、、内部空間に対応する境界値を示す調整可能なパラメータです。これは、占有される内部空間の割合を示す調整可能なパラメータでもあります。パラメータ化された占有フィールドを生成する場合、OccNeRF は最初にパラメータ化された空間でサンプリングし、逆変換によって元の座標を取得し、次に元の座標を画像平面に投影し、最後にサンプリングと 3 次元畳み込みによって占有フィールドを取得します。

マルチフレーム深度推定

占有ネットワークをトレーニングするために、OccNeRF はボリュームレンダリングを使用して占有を深度マップに変換し、測光損失関数を通じて監視することを選択します。深度マップをレンダリングするときは、サンプリング戦略が重要です。パラメータ化された空間では、深度または視差に基づいて直接均一にサンプリングを実行すると、サンプリングポイントが内部空間または外部空間に不均一に分散され、最適化プロセスに影響を及ぼします。したがって、OccNeRF は、カメラの中心が原点に近いという前提の下で、パラメータ化された空間内で均一なサンプリングを直接実行できることを提案しています。さらに、OccNeRF はトレーニング中にマルチフレームの深度マップをレンダリングして監視します。

下の図は、パラメータ化された空間表現を使用する利点を直感的に示しています。 (3 行目ではパラメータ化されたスペースが使用されていますが、2 行目では使用されていません。)

セマンティックラベル生成

OccNeRF は、事前トレーニング済みの GroundedSAM (Grounding DINO + SAM) を使用して 2D セマンティックラベルを生成します。高品質のラベルを生成するために、OccNeRF は 2 つの戦略を採用しています。1 つ目はプロンプトワード最適化で、nuScenes のあいまいなカテゴリを正確な説明に置き換えます。 OccNeRF では、プロンプト語を最適化するために、あいまいな単語を置き換える (car を sedan に置き換える)、単一の単語を複数の単語に変更する (manmade を building、billboard、bridge に置き換える)、および追加情報を導入する (bicycle を bicycle、bicyclist に置き換える) という 3 つの戦略が使用されています。 2 つ目は、SAM によって与えられたピクセルごとの信頼度ではなく、Grounding DINO の検出ボックスの信頼度に基づいてカテゴリを決定することです。 OccNeRF によって生成されるセマンティックラベルは次のとおりです。

OccNeRF実験結果

OccNeRF は nuScenes で実験され、主にマルチビュー自己教師深度推定と 3D 占有予測タスクを完了しました。

マルチビュー自己教師深度推定

OccNeRF の nuScenes におけるマルチビュー自己教師深度推定のパフォーマンスを次の表に示します。 3D モデリングに基づく OccNeRF は、主に OccNeRF が屋外シーンの無限の空間範囲をモデル化するため、2D 方式や SimpleOcc よりも大幅に優れていることがわかります。

論文中の視覚化の一部は次のとおりです。

3D占有率予測

nuScenes での 3D 占有予測における OccNeRF のパフォーマンスを次の表に示します。 OccNeRF はラベル付きデータをまったく使用しないため、そのパフォーマンスは依然として教師あり学習法に遅れをとっています。ただし、一部のカテゴリ (走行可能な表面や人工物など) では、監督された方法に匹敵するパフォーマンスが達成されています。

この記事の視覚化の一部は次のとおりです。