超リアル!リアルタイムの高品質レンダリング、ダイナミックな都市シーンモデリングのためのストリートガウス分布

超リアル!リアルタイムの高品質レンダリング、ダイナミックな都市シーンモデリングのためのストリートガウス分布

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

テクノロジーは急速に進化しており、学術界ではナーフが徐々に置き換えられつつあると言わざるを得ません。ガウス派はここにいる、浙江大学で働いている

論文: 動的な都市シーンをモデル化するためのストリートガウス分布

リンク: https://arxiv.org/pdf/2401.01339.pdf

この論文は、単眼ビデオから動的な都市の街路シーンをモデル化する問題に対処することを目的としています。最近の手法では、NeRF を拡張して、追跡車両ポーズをアニメーション車両に組み込み、動的な都市の街路シーンのフォトリアリスティックなビュー合成を可能にしています。しかし、トレーニングとレンダリングの速度が遅いことと、車両の姿勢を追跡する際に高い精度が求められることが大きな制限となっています。この論文では、これらすべての制限に対処する新しい明示的なシーン表現である Street Gaussians を紹介します。具体的には、動的な都市の道路は、それぞれが前景の車両または背景に関連付けられたセマンティック ロジットと 3D ガウス分布を備えたポイント クラウドのセットとして表現されます。

前景のオブジェクト車両のダイナミクスをモデル化するために、最適化可能な追跡ポーズと動的外観の動的球面調和モデルを使用して、各オブジェクト ポイント クラウドが最適化されます。明示的な表現により、対象の車両と背景を簡単に合成できるため、30 分のトレーニングでシーン編集操作と 133 FPS (1066×1600 解像度) でのレンダリングが可能になります。提案された方法は、KITTI や Waymo Open データセットを含む複数の厳しいベンチマークで評価されます。

実験では、提案された方法がすべてのデータセットにおいて最先端の方法よりも一貫して優れていることが示されています。さらに、市販のトラッカーからのポーズのみに依存しているにもかかわらず、提案された表現は GT ポーズを使用して達成されるものと同等のパフォーマンスを提供します。

コード: https://zju3dv.github.io/streetgaussians/

ストリートガウス分布入門

私たちの目標は、都市の街路シーンで移動する車両から撮影された一連の画像に基づいて、任意の入力時間ステップと任意の視点でフォトリアリスティックな画像を生成できるモデルを開発することです。この目標を達成するために、動的なストリートシーンを表現するために特別に設計された、ストリートガウスと呼ばれる新しいシーン表現が提案されています。図 2 に示すように、動的な都市の街路シーンは、それぞれが静的な背景または移動する車両に対応する点群のセットとして表現されます。明示的なポイントベースの表現により、個別のモデルを簡単に合成でき、リアルタイム レンダリングや編集アプリケーションでの前景オブジェクトの分解が可能になります。提案されたシーン表現は、RGB 画像と市販のトラッカーからの追跡された車両ポーズのみを使用して効果的にトレーニングすることができ、追跡された車両ポーズの最適化戦略によって強化されます。

ストリート ガウスの概要を以下に示します。動的な都市のストリート シーンは、最適に追跡された車両のポーズを持つポイント ベースの背景と前景のオブジェクトのセットとして表現されます。各ポイントには、ジオメトリを表すために、位置、不透明度、回転とスケールで構成される共分散を持つ 3D ガウスが割り当てられます。外観を表現するために、各背景ポイントには球面調和関数モデルが割り当てられ、前景ポイントは動的球面調和関数モデルに関連付けられます。明示的なポイントベースの表現により、個別のモデルを簡単に組み合わせることができ、高品質の画像とセマンティックマップ(トレーニング中に2Dセマンティック情報が提供される場合はオプション)のリアルタイムレンダリングや、編集アプリケーション用の前景オブジェクトの分解が可能になります。

実験結果の比較

Waymo Open Dataset と KITTI ベンチマークで実験を実施しました。 Waymo オープン データセットでは、多数の移動物体、大きな自己運動、複雑な照明条件を含む 6 つの録画シーケンスが選択されました。すべてのシーケンスの長さは約 100 フレームで、シーケンス内の 10 枚の画像ごとにテスト フレームとして選択され、残りの画像はトレーニングに使用されます。ベースライン手法では高解像度画像でトレーニングする際にメモリコストが高くなることが判明したため、入力画像は 1066×1600 に縮小されました。 MARS の設定に従い、異なるトレーニング/テスト分割設定を使用して、KITTI と Vitural KITTI 2 で評価します。 Waymo データセット上の検出器とトラッカーによって生成された境界ボックスを使用し、KITTI によって提供される公式オブジェクト トラックを使用します。

私たちのアプローチは最近の 3 つの方法と比較されます。

(1)NSGは背景を多平面画像として表現し、物体ごとに学習した潜在コードと共有デコーダーを使用して動く物体をモデル化する。

(2)MARSはNerfstudioをベースにシーングラフを構築します。

(3)3Dガウス分布は異方性ガウス分布のセットを使用してシーンをモデル化します。

NSG と MARS は両方とも GT ボックスを使用してトレーニングおよび評価され、ここでは実装のさまざまなバージョンが試され、各シーケンスの最良の結果が報告されます。公平な比較を行うために、3D ガウス マップ内の SfM ポイント クラウドを当社の方法と同じ入力に置き換えます。詳細については補足情報をご覧ください。

オリジナルリンク: https://mp.weixin.qq.com/s/oikZWcR47otm7xfU90JH4g

<<:  ChatGPTを使用して小児疾患を診断しますか?新たな研究がこれに冷水を浴びせる:正解率はわずか17%

>>: 

推薦する

AIが建物の運営に及ぼす影響

昨年、ChatGPT とその他の AI 搭載サービス エンジンがリリースされて以来、このテクノロジー...

リチウム電池の防爆結果がネイチャー誌の表紙に登場、UCLAの中国チームが制作

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

人工知能技術はスマートビルの未来をどのように変えるのでしょうか?

賢明なビル管理者は、AI がビルの自動化だけでなく、より適応性の高いものにするのにも役立つことを知っ...

将来、人工知能は冷酷な大量虐殺者になるのでしょうか?

人類の将来に対する最も永続的な恐怖の一つは、人工知能が人間の制御を逃れ、人類を絶滅させる可能性がある...

Ant Financialが機械学習ツールSQLFlowをオープンソース化、機械学習はSQLよりも簡単

5月6日、アント・ファイナンシャルの副CTOである胡曦氏はオープンソースの機械学習ツールSQLFlo...

人工知能は工場のメンテナンスに大きな役割を果たすだろう

検出が難しい機械の故障は最もコストがかかるため、経験豊富な修理技術者の需要が高まっています。今日、多...

機械学習、データサイエンス、人工知能、ディープラーニング、統計などの違い。

データ サイエンスは幅広い分野であるため、まずはあらゆるビジネスで遭遇する可能性のあるデータ サイエ...

...

...

テキストマイニング前処理におけるベクトル化とハッシュトリック

[[201071]]序文「テキスト マイニングにおける単語分割の原理」では、テキスト マイニングの前...

2050年の世界はどのようになっているでしょうか?新たなエネルギー源が出現し、人工知能が社会に浸透

次に、さらに詳しく見て、2025年という神秘的な年に足を踏み入れ、この壮大なベールを解き明かしてみま...

コード不要で再利用可能な AI が AI の溝を埋める方法

著者: ミシェル・ゾウ翻訳:李睿企画丨孫淑娊[51CTO.com クイック翻訳]事前に構築された A...

労働者は大きなモデルに遭遇します。外の世界はすでにこのように機能しているのでしょうか?

オフィスのシナリオでは、PPT の作成は最も一般的なタスクの 1 つです。業務報告、製品発表、イベン...

Pythonを全く知らなかった私がAIエンジニアになるまでに2年かかりました

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...