OccNeRF: LIDARデータの監視は不要

OccNeRF: LIDARデータの監視は不要

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

序文と著者の個人的な要約

近年、3D 占有率予測タスクは、その独自の利点により、学界や産業界から幅広い注目を集めています。 3D 占有予測は、周囲の環境の 3D 構造を再構築することで、自動運転の計画とナビゲーションに詳細な情報を提供します。ただし、既存の方法のほとんどは、ネットワークのトレーニングを監視するために LiDAR ポイント クラウドから生成されたラベルに依存しています。 OccNeRF の研究では、著者らは自己教師型マルチカメラ占有予測法を提案しました。この方法のパラメータ化された占有フィールドは、境界のない屋外シーンの問題を解決し、サンプリング戦略を再編成します。占有フィールドは、ボリュームレンダリングを通じてマルチカメラ深度マップに変換され、最後にマルチフレームの測光一貫性によって監視されます。さらに、この方法では、事前にトレーニングされたオープン語彙セマンティックセグメンテーションモデルを使用して 2D セマンティックラベルを生成し、モデルを監視して占有フィールドのセマンティック情報を割り当てます。

  • 論文リンク: https://arxiv.org/pdf/2312.09243.pdf
  • コードリンク: https://github.com/LinShan-Bin/OccNeRF

OccNeRF 問題の背景

近年、人工知能技術の急速な発展に伴い、自動運転の分野も大きな進歩を遂げています。 3D 認識は自動運転を実現するための基礎であり、その後の計画決定に必要な情報を提供します。従来の方法では、LIDAR は正確な 3D データを直接キャプチャできますが、センサーのコストが高く、スキャン ポイントがまばらであるため、実際の適用が制限されます。対照的に、画像ベースの 3D 認識方法は低コストで効果的であり、ますます注目を集めています。マルチカメラ  3D オブジェクトの検出は、これまで 3D シーン理解タスクの主流となってきましたが、現実世界の無限のカテゴリに対応できず、データのロングテール分布の影響を受けます。

3D 占有予測は、マルチビュー入力から周囲のシーンの幾何学的構造を直接再構築することで、これらの欠点を補うことができます。既存の方法のほとんどは、モデル設計とパフォーマンスの最適化に重点を置いており、ネットワーク トレーニングを監督するためにLiDAR ポイント クラウドから生成されたラベルに依存していますが、これは画像ベースのシステムでは利用できません。つまり、トレーニング データを収集するためには依然として高価なデータ収集車両を使用する必要があり、LiDAR ポイント クラウドの補助注釈がなければ大量の実データが無駄になるため、3D 占有率予測の開発はある程度制限されます。したがって、自己教師ありの 3D 占有予測を探求することは非常に価値のある方向性です。

OccNeRFアルゴリズムの詳細な説明

下の図は、OccNeRF 方式の基本的なプロセスを示しています。複数のカメラ画像を使用したモデル  入力として、まず 2D バックボーンを使用して N 枚の画像の特徴を抽出します。  次に、単純な投影と双線形補間を通じて 3D 特徴 (パラメーター化された空間内) を直接取得し、最後に 3D CNN ネットワークを通じて 3D 特徴を最適化し、予測結果を出力します。モデルをトレーニングするために、OccNeRF メソッドはボリューム レンダリングを通じて現在のフレームの深度マップを生成し、前のフレームと次のフレームを導入して測光損失を計算します。より多くの時間情報を導入するために、OccNeRF は占有フィールドを使用してマルチフレーム深度マップをレンダリングし、損失関数を計算します。同時に、OccNeRF は 2D セマンティック マップもレンダリングし、オープン ボキャブラリ セマンティック セグメンテーション モデルによって監視されます。

パラメータ化された占有フィールド

パラメータ化された占有フィールドは、カメラと占有グリッド間の認識範囲のギャップの問題に対処するために提案されました。理論的には、カメラは無限遠にある物体を撮影できますが、これまでの占有予測モデルでは比較的近い空間(たとえば、40 メートル以内)のみを考慮していました。教師あり方式では、モデルは教師信号に基づいて遠くのオブジェクトを無視することを学習できます。一方、教師なし方式では、近くの空間のみが考慮される場合、画像内の範囲外のオブジェクトの数が多すぎると、最適化プロセスに悪影響が及ぶことになります。これに基づいて、OccNeRF はパラメーター化された占有フィールドを使用して、無制限の範囲の屋外シーンをモデル化します。

OccNeRF のパラメータ化空間は、内部と外部に分かれています。内部空間は元の座標の線形マッピングであり、高解像度を維持しますが、外部空間は無限の範囲を表します。具体的には、OccNeRFは  座標は次のように変化します。

  のために  座標、、  内部空間に対応する境界値を示す調整可能なパラメータです。  これは、占有される内部空間の割合を示す調整可能なパラメータでもあります。パラメータ化された占有フィールドを生成する場合、OccNeRF は最初にパラメータ化された空間でサンプリングし、逆変換によって元の座標を取得し、次に元の座標を画像平面に投影し、最後にサンプリングと 3 次元畳み込みによって占有フィールドを取得します。

マルチフレーム深度推定

占有ネットワークをトレーニングするために、OccNeRF はボリューム レンダリングを使用して占有を深度マップに変換し、測光損失関数を通じて監視することを選択します。深度マップをレンダリングするときは、サンプリング戦略が重要です。パラメータ化された空間では、深度または視差に基づいて直接均一にサンプリングを実行すると、サンプリング ポイントが内部空間または外部空間に不均一に分散され、最適化プロセスに影響を及ぼします。したがって、OccNeRF は、カメラの中心が原点に近いという前提の下で、パラメータ化された空間内で均一なサンプリングを直接実行できることを提案しています。さらに、OccNeRF はトレーニング中にマルチフレームの深度マップをレンダリングして監視します。

下の図は、パラメータ化された空間表現を使用する利点を直感的に示しています。 (3 行目ではパラメータ化されたスペースが使用されていますが、2 行目では使用されていません。)

セマンティックラベル生成

OccNeRF は、事前トレーニング済みの GroundedSAM (Grounding DINO + SAM) を使用して 2D セマンティック ラベルを生成します。高品質のラベルを生成するために、OccNeRF は 2 つの戦略を採用しています。1 つ目はプロンプト ワード最適化で、nuScenes のあいまいなカテゴリを正確な説明に置き換えます。 OccNeRF では、プロンプト語を最適化するために、あいまいな単語を置き換える (car を sedan に置き換える)、単一の単語を複数の単語に変更する (manmade を building、billboard、bridge に置き換える)、および追加情報を導入する (bicycle を bicycle、bicyclist に置き換える) という 3 つの戦略が使用されています。 2 つ目は、SAM によって与えられたピクセルごとの信頼度ではなく、Grounding DINO の検出ボックスの信頼度に基づいてカテゴリを決定することです。 OccNeRF によって生成されるセマンティック ラベルは次のとおりです。

OccNeRF実験結果

OccNeRF は nuScenes で実験され、主にマルチビュー自己教師深度推定と 3D 占有予測タスクを完了しました。

マルチビュー自己教師深度推定

OccNeRF の nuScenes におけるマルチビュー自己教師深度推定のパフォーマンスを次の表に示します。 3D モデリングに基づく OccNeRF は、主に OccNeRF が屋外シーンの無限の空間範囲をモデル化するため、2D 方式や SimpleOcc よりも大幅に優れていることがわかります。

論文中の視覚化の一部は次のとおりです。

3D占有率予測

nuScenes での 3D 占有予測における OccNeRF のパフォーマンスを次の表に示します。 OccNeRF はラベル付きデータをまったく使用しないため、そのパフォーマンスは依然として教師あり学習法に遅れをとっています。ただし、一部のカテゴリ (走行可能な表面や人工物など) では、監督された方法に匹敵するパフォーマンスが達成されています。

この記事の視覚化の一部は次のとおりです。

要約する

多くの自動車メーカーがLiDARセンサーの廃止を試みている現在、何千ものラベルのない画像データをいかに有効活用するかが重要な課題となっている。 OccNeRF は非常に価値のある試みをもたらします。

オリジナルリンク: https://mp.weixin.qq.com/s/UiYEeauAGVtT0c5SB2tHEA

<<:  2GBのDAYU200に大規模な言語モデルをローカルにデプロイする

>>:  旅の途中のハードウェア プロジェクトが公開されました。 Apple Vision Proのエンジニアがスーパーバイザーを務め、かつてはマスクの脳コンピューターインターフェース企業で働いていた

ブログ    
ブログ    
ブログ    

推薦する

大学入試特集:AI出願ガイド

大学入試はすでに始まっています。分厚いノートを開いて専攻を選ぶ日はまだまだ遠いのでしょうか。この季節...

...

顔認識は簡単に破られるのでしょうか?虐待と闘う方法

未来産業研究所は、顔認識市場規模は今後5年間で平均23%の複合成長率を維持し、2024年までに市場規...

北京大学の新しい研究では、数学モデルを使用して、インターネット有名人の台頭の秘密を明らかにしています。ネイチャー誌に掲載

ソーシャル ネットワークは私たちの生活にますます大きな影響を与えており、情報の普及、新しいテクノロジ...

Google の Bard チャットボットがアップデートされ、リアルタイムで応答を生成できるようになりました

10 月 29 日現在、大規模言語モデル (LLM) では即座に回答を出すことができないため、質問を...

AIは数学データベースの問題の82%を証明でき、Transformerをベースにした新しいSOTAが達成されました。

科学者たちは最近、AI に数学の授業をさせることに夢中になっていると言わざるを得ません。現在、Fac...

ChatGPT と ReactJS を統合してよりスマートな会話型インターフェースを実現

翻訳者 |李睿レビュー | Chonglouテクノロジーの世界が進化し続けるにつれて、チャットボット...

AIが初めて新型コロナウイルスの警告を発するのか?人工知能はあなたが思っている以上に信頼できるものです!

2019年12月30日に武漢で新型肺炎が発生してから1か月以上が経ちました。マスクの値上げや品切れ...

人工知能のこれら 5 つのトレンドは世界にどのような影響を与えるでしょうか?

人工知能はもはや未来の技術ではありません。私たちの日常の作業を自動化する機械はますます賢くなり、人工...

【他者から学ぶ】360 多面的関心の想起マインド実践的最適化

1. 事業背景ショートビデオや情報ストリームなどのシナリオの増加に伴い、ユーザーはこれらのシナリオで...

私の国は、5G、人工知能、自動運転で目覚ましい成果を上げ、革新的な国の仲間入りを果たしました。

世界の潮流は力強く前進しています。科学研究​​と探究のペースを止めれば、井戸の中で空を眺め、満足して...

自動車技術が新たな時代を切り開きます!メルセデス・ベンツ、BMW、Google、Amazon、Qualcommの次世代レイアウト!

編纂者:ヤン・ジェン制作:51CTO テクノロジースタック(WeChat ID:blog)次世代のス...

より良い生活を実現するために、Hongheの2019年の新製品が発売されました

最近、「Honhe AI、生活をより良くする--Honheグループ2019年新製品発表会」が成都で開...

人工知能は人間の臨床試験に取って代わることができるでしょうか?

2013年のノーベル化学賞受賞者であるアリエ・ワーシェル氏は、COVID-19パンデミックと製薬業...