OccNeRF: LIDARデータの監視は不要

OccNeRF: LIDARデータの監視は不要

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

序文と著者の個人的な要約

近年、3D 占有率予測タスクは、その独自の利点により、学界や産業界から幅広い注目を集めています。 3D 占有予測は、周囲の環境の 3D 構造を再構築することで、自動運転の計画とナビゲーションに詳細な情報を提供します。ただし、既存の方法のほとんどは、ネットワークのトレーニングを監視するために LiDAR ポイント クラウドから生成されたラベルに依存しています。 OccNeRF の研究では、著者らは自己教師型マルチカメラ占有予測法を提案しました。この方法のパラメータ化された占有フィールドは、境界のない屋外シーンの問題を解決し、サンプリング戦略を再編成します。占有フィールドは、ボリュームレンダリングを通じてマルチカメラ深度マップに変換され、最後にマルチフレームの測光一貫性によって監視されます。さらに、この方法では、事前にトレーニングされたオープン語彙セマンティックセグメンテーションモデルを使用して 2D セマンティックラベルを生成し、モデルを監視して占有フィールドのセマンティック情報を割り当てます。

  • 論文リンク: https://arxiv.org/pdf/2312.09243.pdf
  • コードリンク: https://github.com/LinShan-Bin/OccNeRF

OccNeRF 問題の背景

近年、人工知能技術の急速な発展に伴い、自動運転の分野も大きな進歩を遂げています。 3D 認識は自動運転を実現するための基礎であり、その後の計画決定に必要な情報を提供します。従来の方法では、LIDAR は正確な 3D データを直接キャプチャできますが、センサーのコストが高く、スキャン ポイントがまばらであるため、実際の適用が制限されます。対照的に、画像ベースの 3D 認識方法は低コストで効果的であり、ますます注目を集めています。マルチカメラ  3D オブジェクトの検出は、これまで 3D シーン理解タスクの主流となってきましたが、現実世界の無限のカテゴリに対応できず、データのロングテール分布の影響を受けます。

3D 占有予測は、マルチビュー入力から周囲のシーンの幾何学的構造を直接再構築することで、これらの欠点を補うことができます。既存の方法のほとんどは、モデル設計とパフォーマンスの最適化に重点を置いており、ネットワーク トレーニングを監督するためにLiDAR ポイント クラウドから生成されたラベルに依存していますが、これは画像ベースのシステムでは利用できません。つまり、トレーニング データを収集するためには依然として高価なデータ収集車両を使用する必要があり、LiDAR ポイント クラウドの補助注釈がなければ大量の実データが無駄になるため、3D 占有率予測の開発はある程度制限されます。したがって、自己教師ありの 3D 占有予測を探求することは非常に価値のある方向性です。

OccNeRFアルゴリズムの詳細な説明

下の図は、OccNeRF 方式の基本的なプロセスを示しています。複数のカメラ画像を使用したモデル  入力として、まず 2D バックボーンを使用して N 枚の画像の特徴を抽出します。  次に、単純な投影と双線形補間を通じて 3D 特徴 (パラメーター化された空間内) を直接取得し、最後に 3D CNN ネットワークを通じて 3D 特徴を最適化し、予測結果を出力します。モデルをトレーニングするために、OccNeRF メソッドはボリューム レンダリングを通じて現在のフレームの深度マップを生成し、前のフレームと次のフレームを導入して測光損失を計算します。より多くの時間情報を導入するために、OccNeRF は占有フィールドを使用してマルチフレーム深度マップをレンダリングし、損失関数を計算します。同時に、OccNeRF は 2D セマンティック マップもレンダリングし、オープン ボキャブラリ セマンティック セグメンテーション モデルによって監視されます。

パラメータ化された占有フィールド

パラメータ化された占有フィールドは、カメラと占有グリッド間の認識範囲のギャップの問題に対処するために提案されました。理論的には、カメラは無限遠にある物体を撮影できますが、これまでの占有予測モデルでは比較的近い空間(たとえば、40 メートル以内)のみを考慮していました。教師あり方式では、モデルは教師信号に基づいて遠くのオブジェクトを無視することを学習できます。一方、教師なし方式では、近くの空間のみが考慮される場合、画像内の範囲外のオブジェクトの数が多すぎると、最適化プロセスに悪影響が及ぶことになります。これに基づいて、OccNeRF はパラメーター化された占有フィールドを使用して、無制限の範囲の屋外シーンをモデル化します。

OccNeRF のパラメータ化空間は、内部と外部に分かれています。内部空間は元の座標の線形マッピングであり、高解像度を維持しますが、外部空間は無限の範囲を表します。具体的には、OccNeRFは  座標は次のように変化します。

  のために  座標、、  内部空間に対応する境界値を示す調整可能なパラメータです。  これは、占有される内部空間の割合を示す調整可能なパラメータでもあります。パラメータ化された占有フィールドを生成する場合、OccNeRF は最初にパラメータ化された空間でサンプリングし、逆変換によって元の座標を取得し、次に元の座標を画像平面に投影し、最後にサンプリングと 3 次元畳み込みによって占有フィールドを取得します。

マルチフレーム深度推定

占有ネットワークをトレーニングするために、OccNeRF はボリューム レンダリングを使用して占有を深度マップに変換し、測光損失関数を通じて監視することを選択します。深度マップをレンダリングするときは、サンプリング戦略が重要です。パラメータ化された空間では、深度または視差に基づいて直接均一にサンプリングを実行すると、サンプリング ポイントが内部空間または外部空間に不均一に分散され、最適化プロセスに影響を及ぼします。したがって、OccNeRF は、カメラの中心が原点に近いという前提の下で、パラメータ化された空間内で均一なサンプリングを直接実行できることを提案しています。さらに、OccNeRF はトレーニング中にマルチフレームの深度マップをレンダリングして監視します。

下の図は、パラメータ化された空間表現を使用する利点を直感的に示しています。 (3 行目ではパラメータ化されたスペースが使用されていますが、2 行目では使用されていません。)

セマンティックラベル生成

OccNeRF は、事前トレーニング済みの GroundedSAM (Grounding DINO + SAM) を使用して 2D セマンティック ラベルを生成します。高品質のラベルを生成するために、OccNeRF は 2 つの戦略を採用しています。1 つ目はプロンプト ワード最適化で、nuScenes のあいまいなカテゴリを正確な説明に置き換えます。 OccNeRF では、プロンプト語を最適化するために、あいまいな単語を置き換える (car を sedan に置き換える)、単一の単語を複数の単語に変更する (manmade を building、billboard、bridge に置き換える)、および追加情報を導入する (bicycle を bicycle、bicyclist に置き換える) という 3 つの戦略が使用されています。 2 つ目は、SAM によって与えられたピクセルごとの信頼度ではなく、Grounding DINO の検出ボックスの信頼度に基づいてカテゴリを決定することです。 OccNeRF によって生成されるセマンティック ラベルは次のとおりです。

OccNeRF実験結果

OccNeRF は nuScenes で実験され、主にマルチビュー自己教師深度推定と 3D 占有予測タスクを完了しました。

マルチビュー自己教師深度推定

OccNeRF の nuScenes におけるマルチビュー自己教師深度推定のパフォーマンスを次の表に示します。 3D モデリングに基づく OccNeRF は、主に OccNeRF が屋外シーンの無限の空間範囲をモデル化するため、2D 方式や SimpleOcc よりも大幅に優れていることがわかります。

論文中の視覚化の一部は次のとおりです。

3D占有率予測

nuScenes での 3D 占有予測における OccNeRF のパフォーマンスを次の表に示します。 OccNeRF はラベル付きデータをまったく使用しないため、そのパフォーマンスは依然として教師あり学習法に遅れをとっています。ただし、一部のカテゴリ (走行可能な表面や人工物など) では、監督された方法に匹敵するパフォーマンスが達成されています。

この記事の視覚化の一部は次のとおりです。

要約する

多くの自動車メーカーがLiDARセンサーの廃止を試みている現在、何千ものラベルのない画像データをいかに有効活用するかが重要な課題となっている。 OccNeRF は非常に価値のある試みをもたらします。

オリジナルリンク: https://mp.weixin.qq.com/s/UiYEeauAGVtT0c5SB2tHEA

<<:  2GBのDAYU200に大規模な言語モデルをローカルにデプロイする

>>:  旅の途中のハードウェア プロジェクトが公開されました。 Apple Vision Proのエンジニアがスーパーバイザーを務め、かつてはマスクの脳コンピューターインターフェース企業で働いていた

ブログ    
ブログ    

推薦する

...

研究者:大規模な言語モデルを微調整すると「セキュリティ」が弱まり、ハッカーによるバックドア攻撃に対して脆弱になる

10月16日、既存の大規模言語モデルをさまざまなユーザーニーズに合わせて修正することで、関連モデルの...

メディア分野における人工知能の革新は期待に値する

過去 30 年間にわたり、この種のイノベーションの歴史に残る例は数多くありました。ウェブサイト上のメ...

スマートなモノのインターネットを導入する時が来た

[[427797]]画像ソース: https://pixabay.com/images/id-567...

...

世界最大の公開顔データセット | 清華大学と信義科技が共同リリース

[[387945]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

AI テクノロジーはヘルスケアの変革にどのように役立つのでしょうか?

【51CTO.comオリジナル記事】近年、「人工知能」(AI)という言葉が頻繁に登場し、今日ではこ...

ロボットが宇宙飛行士に取って代わるでしょうか?この会社は『アバター』を宇宙に送りたい

地球上の仕事でロボットが人間に取って代わり、今ではロボットが宇宙に行って仕事をこなすようになっている...

...

Golang と OpenCV ライブラリ: 顔認識を実装するには?

Go 言語で顔認識を実装するには、通常、OpenCV ライブラリを使用する必要があります。 Go ...

...

サイバーセキュリティを変える、最もホットなハッカーツール:武器化された人工知能FraudGPT

FraudGPT の「成功」は、生成 AI の武器化とハッキング技術の民主化という危険な時代の到来...

AIを使って死後の意識を蘇らせることは信頼できるのか?デジタル不滅には経済計算が必要

十分なデータがあれば、愛する人が亡くなった後でも、その人の意識を生かし続けることができます。それは何...

機械学習アルゴリズムにおける分類知識の要約

この記事では、機械学習アルゴリズムにおける非常に重要な知識である分類、つまり入力データが属するカテゴ...