ニューラル放射フィールドはポイントベースで、NeRFよりも30倍高速なトレーニング速度と優れたレンダリング品質を備えています。

ニューラル放射フィールドはポイントベースで、NeRFよりも30倍高速なトレーニング速度と優れたレンダリング品質を備えています。

2020 年はボリューメトリック ニューラル レンダリングが爆発的に普及する年です。たとえば、NeRF は高品質のビュー合成結果を生成できますが、この方法ではシーンごとに最適化する必要があり、再構築に長い時間がかかります。一方、ディープマルチビューステレオ方式では、ネットワーク推論を通じてシーンのジオメトリを迅速に再構築できます。

南カリフォルニア大学と Adob​​e Research の研究者は、ニューラル 3D ポイント クラウドとそれに関連するニューラル機能を使用して、ステレオ ニューラル レンダリングとディープ マルチビュー ステレオ法の利点を組み合わせて放射場をモデル化する Point-NeRF を提案しました。

この論文では、1000 個のポイントから完全なポイント クラウドが作成されます。

初期のCOLMAPポイントを徐々に改良して結果をレンダリングします。

レイマーチングベースのレンダリングパイプラインでは、シーン表面近くのニューラルポイント機能を集約することで、Point-NeRF を効率的にレンダリングできます。さらに、Point-NeRF は、事前トレーニング済みのディープ ネットワークを直接推論して初期化し、ニューラル ポイント クラウドを生成することができます。この点群は微調整が可能で、NeRF のトレーニング時間よりも 30 倍高速であり、NeRF を超える視覚品質を再構築します。 Point-NeRF は他の 3D 再構築方法と組み合わせることができ、新しい剪定および成長メカニズムを通じてこれらの方法のエラーと外れ値を処理します。 DTU、NeRF Synthetics、ScanNet、Tanks and Temples データセットでの実験では、Point-NeRF が既存の方法を上回り、SOTA 結果を達成できることが示されています。

  • 論文アドレス: https://arxiv.org/pdf/2201.08845.pdf
  • 論文ホームページ: https://xharlie.github.io/projects/project_sites/pointnerf/

ポイントNeRF

Point-NeRF は、ポイントベースのニューラル放射フィールドであり、高品質のニューラルシーンの再構築とレンダリングのための新しい方法です。図 2 (b) にアーキテクチャ図を示します。

ボリューム レンダリングと放射場: 物理ベースのボリューム レンダリングは、微分可能なレイ マーチングを介して数値的に計算できます。具体的には、ピクセルの放射輝度は、光線をピクセルに通し、光線に沿って {x_j | j = 1, ..., M} 内の M 個のシェーディング ポイントをサンプリングし、ボリューム密度を使用して放射輝度を累積することによって計算できます。

ここで、τは体積透過率、σ_jとr_jはx_jにおける各シェーディングポイントjの体積密度と放射輝度、Δ_tは隣接するシェーディングサンプル間の距離です。 NeRF は、このような放射場を回帰するために多層パーセプトロン (MLP) を使用することを提案しています。この研究で提案された Point-NeRF は、ニューラル ポイント クラウドを利用して体積特性を計算し、より高速で高品質なレンダリングを実現します。

ポイントベースの放射場: この研究では、P = {(p_i, fi_i, γ_i)|i = 1, …N} を使用してニューラル ポイント クラウドを表します。ここで、P_I の各ポイントは i であり、ローカル シーン コンテンツをエンコードするニューラル フィーチャ ベクトル fi に関連付けられています。この研究では、各ポイントに信頼値γ_i∈[0,1]も割り当てられ、そのポイントが実際のシーンの表面の近くにある可能性を示しています。この研究では、この点群からの放射場を反転します。

任意の 3D 位置 x が与えられた場合、半径 R 内の K 個の隣接するニューラル ポイントを照会します。ポイントベースの放射輝度フィールドは、視覚に依存する明るさ r (任意の視覚方向 d に沿って) と任意の影の位置 x での体積密度 σ を隣接するニューラル ポイントから次のように回帰するニューラル モジュールとして抽象化できます。

この研究では、回帰のために複数のサブ MLP を備えた PointNet のようなニューラル ネットワークを使用しました。全体として、この研究ではまず各神経ポイントに対して神経処理を実行し、次に複数ポイントの情報を集約して最終的な推定値を取得しました。

ポイントNeRF再構成

Point-NeRF 再構成パイプラインを使用すると、ポイントベースの放射線場を効率的に再構成できます。まず、シナリオ全体でトレーニングされたディープ ニューラル ネットワークを使用して、直接ネットワーク推論を通じてポイントベースの初期フィールドを生成します。この初期フィールドは、ポイント成長およびプルーニング技術を通じて各シーンに対してさらに最適化され、最終的に高品質の放射フィールド再構築が実現します。図 3 は、初期予測とシーン最適化に対応する勾配更新を含むこのワークフローを示しています。

既知の画像 I_1、...、I_Q のセットとポイント クラウドが与えられた場合、各ポイントに対してランダムに初期化されたニューラル機能とレンダリング損失のある MLP (NeRF と同様) を最適化することで、Point-NeRF 表現を再構築できます。ただし、この純粋なシーンごとの最適化は既存のポイント クラウドに依存するため、非常に遅くなる可能性があります。

そこで本研究では、フィードフォワードニューラルネットワークを通じて、点の位置p_i、ニューラル特徴f_i、点の信頼度γ_iなど、すべてのニューラル点属性を予測し、効率的な再構築を実現するニューラル生成モジュールを提案する。短時間でレンダリング品質は NeRF よりも優れているか同等ですが、後者は最適化に時間がかかります (表 1 および 2 を参照)。

エンドツーエンドの再構築: この研究では、マルチビューのポイントクラウドを組み合わせて、最終的なニューラルポイントクラウドを取得します。レンダリング損失を使用して、ポイント生成ネットワークと表現ネットワークを最初から最後までトレーニングします (図 3 を参照)。これにより、生成モジュールは適切な初期放射場を生成できます。この研究では、適切な重みを使用して Point-NeRF 表現で MLP を初期化し、各シーンのフィッティング時間を大幅に節約します。

さらに、完全な生成モジュールの使用に加えて、私たちのパイプラインはCOLMAP [44]などの他の方法からのポイントクラウド再構築の使用もサポートしており、その場合でもモデル(MVSネットワークを除く)は各ポイントに対して意味のある初期の神経特徴を提供することができます。

実験

この研究では、まず DTU テスト セットでモデルを評価し、PixelNeRF、IBRNet、MVSNeRF、NeRF を比較し、比較のために 10,000 回の反復ですべての方法を微調整しました。さらに、この研究では、Point-NeRF の最適化効率を実証するために 1k 回の反復のみを使用しました。具体的な結果は次のとおりです。

表 1 は、PSNR、SSIM、LPIPS などのさまざまな方法の定量的な比較です。図 6 はレンダリング結果を示しています。結果から、10,000 回の反復後、SSIM と LPIPS がそれぞれ 0.957 と 0.117 で最高値に達し、MVSNeRF と NeRF の結果よりも優れていることがわかります。 IBRNet は 31.35 とわずかに優れた PSNR 結果を生成しますが、図 6 に示すように、Point-NeRF はより正確なテクスチャの詳細とハイライトを復元できます。

一方、IBRNet の微調整コストも高く、同じ反復回数の場合、Point-NeRF の微調整よりも 1 時間長くかかり、5 倍の時間がかかります。これは、IBRNet が大規模なグローバル CNN に依存しているのに対し、Point-NeRF は最適化が容易なローカル ポイント機能と MLP を利用しているからです。さらに重要なのは、ポイントベースの表現が実際のシーンの表面の近くに配置されているため、空のシーンでレイポイントをサンプリングする必要がなくなり、シーンごとに効率的な最適化が実現されることです。

IBRNet のより複雑な特徴抽出器は品質を向上させることができますが、メモリ使用量が増加し、トレーニング効率に影響します。さらに重要なことは、Point-NeRF 生成ネットワークがすでに、効率的な最適化をサポートする高品質の初期放射場を提供していることです。研究では、2 分/1K の微調整反復の後でも、Point-NeRF は MVSNeRF の最終的な 10k 反復結果に匹敵する非常に高い視覚品質を達成できることがわかりました。これは、Point-NeRF 法の高い再構築効率も証明しています。

Point-NeRF は DTU データセットでトレーニングされていますが、新しいデータセットにも適切に一般化できます。この研究では、NeRF合成データセットにおけるPoint-NeRFと他のSOTA手法との比較結果を示しています。定性的な結果は図7に、定量的な結果は表2に示されています。

実験結果によると、Point-NeRF_20K は PSNR、SSIM、LIPIPS が優れており、IBRNet の結果を大幅に上回っています。また、図 7 に示すように、この研究では、ジオメトリとテクスチャの詳細が向上した高品質のレンダリングも実現されています。

さまざまなシナリオとの比較: 20K 回の反復後の Point-NeRF は、200K 回のトレーニング反復後の NeRF の結果に非常に近いです。視覚的に言えば、Point-NeRF は、図 7 のイチジクのシーン (4 行目) のように、20K 回の反復処理を行った後で、すでにいくつかのケースでレンダリング結果が向上しています。 Point-NeRF_20K の最適化には 40 分しかかかりませんでしたが、NeRF では 20 時間以上かかりました。この 2 つを比較すると、Point-NeRF は 30 倍近く高速ですが、NSVF の最適化効果は Point-NeRF の 40 分よりわずかに優れているだけです。図 7 に示すように、Point-NeRF 200K の結果には最も多くの幾何学的およびテクスチャの詳細が含まれており、この方法だけがそれらを完全に復元できる方法です。

<<:  研究者は人工知能を使って、膨大なデータに隠された異常をリアルタイムで発見する

>>:  GoogleとWaymoが提案する4D-Netは、RGB画像と点群を組み合わせて遠くのターゲットを検出します

ブログ    
ブログ    
ブログ    

推薦する

...

人工知能は祝福か、それとも呪いなのか?事故は急増しており、アップルとグーグルも例外ではない

人工知能は現代の大きな発展のトレンドであり、世界中のほぼすべてのハイテク企業が AI 分野の技術を研...

GPU 価格の急激な下落はチップ不足が終わった兆候でしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

「ブラックボックス」アルゴリズムの下ではAIへの信頼は疑わしいが、説明可能なAIは開発の「最初の年」を迎える

天才は左にいて、狂人は右にいます。天才と狂気の間にはわずかな境界線しかありません。 AIに関しては、...

時空間アルゴリズム研究に基づくビジネス意思決定分析

[[191733]]諺にもあるように、「時間と空間は予測不可能である」。自然界では、時間と空間が急速...

あなたの声は私のパスです

最近私の声が盗まれたことで、AI がすでに社会に混乱を引き起こす能力を持っていることが私には明らかに...

ニューラルネットワークのトレーニングでは、エポック、バッチサイズ、反復の違いがわかりません

[[204925]]きっと、コンピューターの画面を見て頭を悩ませ、「なぜコードでこの 3 つの用語を...

梅雨から台風シーズンまで、ドローンが再び活躍

最近、静かに梅雨の季節が去り、猛烈な台風の季節が勢いよくやって来ています。 [[336317]] 8...

スタートアップが大手企業から学び機械学習を開発する際に考慮すべき5つの変数

[[186364]]人工知能 (AI) と機械学習 (ML) をめぐる誇大宣伝は信じられないほどのレ...

AIツールはリモートワーク中のチームの生産性向上に役立ちます

[[385429]]人工知能は、自宅からリモートで仕事をしながら生産性を維持したい労働者にとって重要...

...

...

古典的なJavaアルゴリズムの筆記試験問題を分析する

Java アルゴリズム プログラムに関する質問:同社には筆記試験問題が 1 つだけあり、10 分以内...

政府データ保護におけるAIの役割

1. 背景米国政府機関は機密データを保護し、潜在的な脅威に対応する任務を負っています。現在、リモート...