超リアル!リアルタイムの高品質レンダリング、ダイナミックな都市シーンモデリングのためのストリートガウス分布

超リアル!リアルタイムの高品質レンダリング、ダイナミックな都市シーンモデリングのためのストリートガウス分布

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

テクノロジーは急速に進化しており、学術界ではナーフが徐々に置き換えられつつあると言わざるを得ません。ガウス派はここにいる、浙江大学で働いている

論文: 動的な都市シーンをモデル化するためのストリートガウス分布

リンク: https://arxiv.org/pdf/2401.01339.pdf

この論文は、単眼ビデオから動的な都市の街路シーンをモデル化する問題に対処することを目的としています。最近の手法では、NeRF を拡張して、追跡車両ポーズをアニメーション車両に組み込み、動的な都市の街路シーンのフォトリアリスティックなビュー合成を可能にしています。しかし、トレーニングとレンダリングの速度が遅いことと、車両の姿勢を追跡する際に高い精度が求められることが大きな制限となっています。この論文では、これらすべての制限に対処する新しい明示的なシーン表現である Street Gaussians を紹介します。具体的には、動的な都市の道路は、それぞれが前景の車両または背景に関連付けられたセマンティック ロジットと 3D ガウス分布を備えたポイント クラウドのセットとして表現されます。

前景のオブジェクト車両のダイナミクスをモデル化するために、最適化可能な追跡ポーズと動的外観の動的球面調和モデルを使用して、各オブジェクト ポイント クラウドが最適化されます。明示的な表現により、対象の車両と背景を簡単に合成できるため、30 分のトレーニングでシーン編集操作と 133 FPS (1066×1600 解像度) でのレンダリングが可能になります。提案された方法は、KITTI や Waymo Open データセットを含む複数の厳しいベンチマークで評価されます。

実験では、提案された方法がすべてのデータセットにおいて最先端の方法よりも一貫して優れていることが示されています。さらに、市販のトラッカーからのポーズのみに依存しているにもかかわらず、提案された表現は GT ポーズを使用して達成されるものと同等のパフォーマンスを提供します。

コード: https://zju3dv.github.io/streetgaussians/

ストリートガウス分布入門

私たちの目標は、都市の街路シーンで移動する車両から撮影された一連の画像に基づいて、任意の入力時間ステップと任意の視点でフォトリアリスティックな画像を生成できるモデルを開発することです。この目標を達成するために、動的なストリートシーンを表現するために特別に設計された、ストリートガウスと呼ばれる新しいシーン表現が提案されています。図 2 に示すように、動的な都市の街路シーンは、それぞれが静的な背景または移動する車両に対応する点群のセットとして表現されます。明示的なポイントベースの表現により、個別のモデルを簡単に合成でき、リアルタイム レンダリングや編集アプリケーションでの前景オブジェクトの分解が可能になります。提案されたシーン表現は、RGB 画像と市販のトラッカーからの追跡された車両ポーズのみを使用して効果的にトレーニングすることができ、追跡された車両ポーズの最適化戦略によって強化されます。

ストリート ガウスの概要を以下に示します。動的な都市のストリート シーンは、最適に追跡された車両のポーズを持つポイント ベースの背景と前景のオブジェクトのセットとして表現されます。各ポイントには、ジオメトリを表すために、位置、不透明度、回転とスケールで構成される共分散を持つ 3D ガウスが割り当てられます。外観を表現するために、各背景ポイントには球面調和関数モデルが割り当てられ、前景ポイントは動的球面調和関数モデルに関連付けられます。明示的なポイントベースの表現により、個別のモデルを簡単に組み合わせることができ、高品質の画像とセマンティックマップ(トレーニング中に2Dセマンティック情報が提供される場合はオプション)のリアルタイムレンダリングや、編集アプリケーション用の前景オブジェクトの分解が可能になります。

実験結果の比較

Waymo Open Dataset と KITTI ベンチマークで実験を実施しました。 Waymo オープン データセットでは、多数の移動物体、大きな自己運動、複雑な照明条件を含む 6 つの録画シーケンスが選択されました。すべてのシーケンスの長さは約 100 フレームで、シーケンス内の 10 枚の画像ごとにテスト フレームとして選択され、残りの画像はトレーニングに使用されます。ベースライン手法では高解像度画像でトレーニングする際にメモリコストが高くなることが判明したため、入力画像は 1066×1600 に縮小されました。 MARS の設定に従い、異なるトレーニング/テスト分割設定を使用して、KITTI と Vitural KITTI 2 で評価します。 Waymo データセット上の検出器とトラッカーによって生成された境界ボックスを使用し、KITTI によって提供される公式オブジェクト トラックを使用します。

私たちのアプローチは最近の 3 つの方法と比較されます。

(1)NSGは背景を多平面画像として表現し、物体ごとに学習した潜在コードと共有デコーダーを使用して動く物体をモデル化する。

(2)MARSはNerfstudioをベースにシーングラフを構築します。

(3)3Dガウス分布は異方性ガウス分布のセットを使用してシーンをモデル化します。

NSG と MARS は両方とも GT ボックスを使用してトレーニングおよび評価され、ここでは実装のさまざまなバージョンが試され、各シーケンスの最良の結果が報告されます。公平な比較を行うために、3D ガウス マップ内の SfM ポイント クラウドを当社の方法と同じ入力に置き換えます。詳細については補足情報をご覧ください。

オリジナルリンク: https://mp.weixin.qq.com/s/oikZWcR47otm7xfU90JH4g

<<:  ChatGPTを使用して小児疾患を診断しますか?新たな研究がこれに冷水を浴びせる:正解率はわずか17%

>>: 

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

7つの便利なプロンプトパラメータ

ChatGPT と Midjournal により、生成 AI のアプリケーションが急増しました。生成...

行列分解はディープラーニングに勝る! MIT が時系列データベース tspDB をリリース: 機械学習に SQL を使用

人類が歴史から学んだ唯一の教訓は、人類は歴史から何も学べないということだ。 「しかし、機械は学習でき...

2023年の5つの主要なテクノロジートレンド

技術の進歩は、驚くべき速さでビジネスモデルを破壊する可能性があります。したがって、ビジネスリーダーに...

人工知能がビデオ業界に力を与え、新しいエンターテインメント時代の変化が訪れる

[[264843]]人工知能の基本的な技術アプリケーションとして、コンピューター ビジョンは、その幅...

これからオープンする無人コンビニや無人スーパーにはこんな7つのブラックテクノロジーが隠されている

もうすぐダブルイレブンがやってきます。さまざまな商店が準備を進めています。JDの無人コンビニや無人ス...

快手は520で「ボーイフレンド」を送信。GANは敵対的ネットワークを生成し、独身者が「独身から抜け出す」のを助ける

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

マイクロソフトが人工知能の小規模スタートアップBonsaiを買収

海外メディアの報道によると、マイクロソフトは水曜日、小規模な人工知能スタートアップ企業であるボンサイ...

...

...

...

BEV におけるレーダー・カメラ間データセット融合に関する実験的研究

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

eBayは機械学習を利用してプロモーションリストを改善

​翻訳者 | ブガッティ校正:孫淑娟オンラインマーケットプレイスの eBay では、「ウォッチリスト...

2020年はAI関連ビジネスの発展にとって重要な年となる

今日、人々は仮想世界で触れることができるほぼすべてのものを作成し、さらに構築してきました。人工知能は...