まばらな静止画像から任意の 3D オブジェクトとシーンの新しいビューを合成することは、多くの VR および AR アプリケーションの基本です。近年、Neural Radiance Fields (NeRF) のニューラル ネットワーク レンダリングの研究では、ニューラル ネットワーク エンコーディングによるリアルな 3D 遠近法シーンのレンダリングが実現されています。しかし、NeRF では極端なサンプリング要件と多数のニューラル ネットワーク操作が必要になるため、レンダリング速度が非常に遅くなり、実際のシナリオ、特にリアルタイムのインタラクティブ シナリオでの適用が著しく制限されます。たとえば、NeRF を使用して 800 x 800 ピクセルの画像をレンダリングすると、ハイエンド GPU で約 30 秒かかります。最近、カリフォルニア大学バークレー校などの研究者らは、PlenOctrees と呼ばれるデータ構造を使用して NeRF の新しいデータ表現を導入し、リアルタイムの NeRF レンダリングを可能にしました。レンダリング速度はオリジナルの NeRF より 3000 倍以上高速で、画質も NeRF に匹敵します。さらに、PlenOctrees 構造を使用すると、NeRF のトレーニング時間を効果的に短縮できます。 論文の宛先: プロジェクトアドレス: 方法NeRF 方式では、カメラの光が特定の角度からシーンを通過して、サンプリングされた 3 次元ポイントのセットを生成し、これらのポイントの空間位置と視点がニューラル ネットワークを通じて対応する密度と色にマッピングされます。これらの色と密度は、従来のボリューム レンダリング技術を使用して 2 次元画像に蓄積されます。これには、光線方向に沿った各サンプルをニューラル ネットワークに入力して、密度と色を取得する必要があります。このアプローチは、サンプルのほとんどが自由空間で取得され、全体の色に寄与しないため、非常に非効率的です。したがって、この論文では、オーバーサンプリングを回避するためにスパース オクツリー構造を使用することを提案します。さらに、この方法では、ネットワークへの繰り返し入力を避けるために、各ボクセルの値を事前に計算します。 図1 アルゴリズムフレームワーク図 アルゴリズムのフレームワークを図 1 に示します。この研究では、トレーニング済みのNeRF事前サンプリングをPlenOctreeデータ構造に変換するPlenOctreeというデータ構造を提案しました。具体的には、この手法ではOctree構造を使用して、モデリングに必要な密度値と球面調和関数(SH)をツリーのリーフノードに格納します。球面調和関数は、特定の角度で RGB 値を置き換え、任意の角度から独立した色情報を復元できます。さらに、PlenOctree変換をより直接的に実装するために、本研究では、異なる視点のデータをネットワークに入力することを避けるために球面調和関数表現を生成する改良されたNeRFモデル(NeRF-SH)を提案した。この情報は、PlenOctree のリーフ ノードに直接保存できます。同時に、Octree構造を微調整することで、画質をさらに向上させることができます。 NeRF-SHモデルNeRF-SHモデルを図1(a)に示します。基本的な最適化プロセスとレンダリングプロセスはNeRFと同じですが、NeRF-SHモデルはRGBカラーを直接出力するのではなく、球面調和関数kを出力します。色 c は、対応する光線方向 (θ、φ) における球面調和関数 k 基底の加重和によって計算されます。変換式は次のとおりです。 ここで、d は視野角、k はネットワークによって出力される球面調和関数 SH です。 SH 基底を使用すると、ビュー方向をサンプリングする必要がなくなり、トレーニング時間が短縮されます。この研究では、NeRF-SH のトレーニング プロセス中に、Octree 構造のストレージ効率を向上させるためにスパース事前制約も導入しました。抽出プロセス全体には約 15 分かかります。 PlenOctree構造PlenOctree構造を図1(b)に示します。NeRF-SHモデルをトレーニングした後、スパースOctree構造に変換してリアルタイムレンダリングを実現します。変換プロセスは 3 つのステップに分かれています。1) 高レベルでは、ネットワークがグリッド上で評価され、密度値のみが保持されます。2) ボクセルはしきい値によってフィルタリングされます。 3) 残りの各ボクセル内のランダムなポイントをサンプリングし、平均して SH 関数を取得します。この関数は Octree リーフに格納されます。レンダリングプロセス中、ツリー値は完全に微分可能であり、元のトレーニング画像を直接微調整することで、画像の品質をさらに向上させることができます。 PlenOctree 構造は、NeRF の 1 秒あたり約 9,000 本の光線と比較して、1 秒あたり約 300 万本の光線で最適化されています。この方法の最適化速度は NeRF に比べて大幅に向上しているため、NeRF-SH のトレーニングを早期に終了して、モデルのパフォーマンスをほとんど低下させることなく PlenOctree 構造を構築できます。 実験結果レンダリング効果を図 2 に示します。NeRF と比較すると、この方法でレンダリングされた画像は詳細度が向上し、実際の画像に近くなり、レンダリング速度は 3000 倍以上高速になります。 図2 レンダリング効果 図3は、いくつかの方法のトレーニング時間の比較です。NeRFモデルとNeRF-SHモデルに必要なトレーニング時間はほぼ同じであることがわかります。 PlenOctree 構造の変換と微調整には約 1 時間のトレーニング時間が必要です。しかし、NeRF-SH と PlenOctree を組み合わせると、モデルはわずか 4.5 時間で約 16 時間の NeRF のトレーニング品質に到達できるようになります。 図3 アルゴリズムの収束時間 レンダリング速度とパフォーマンスは向上しますが、Octree 構造を使用するとメモリ リソースもより多く消費されます。 |
<<: 「機械による人代替」が雇用問題を引き起こす。第一線で働く人々の未来はどうなるのか?
>>: AIロボットの出現により、運転訓練業界における知能の新たな章が開かれた。
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
新型コロナウイルスの世界的な感染拡大は187の国と地域に広がり、417万人が感染している。ほとんどの...
著者 | 魏耀成魏ナレッジ グラフの視覚化により、ナレッジ グラフ データをより直感的に表示および分...
3月23日(北京特派員 柯李)冬季オリンピックの水中聖火リレーを完走するロボットから、冬季パラリンピ...
股関節置換手術にはどれくらいの時間がかかりますか?これは病院にとって学術的な問題ではありません。 2...
この記事の著者である Sebastian Ruder は、自然言語処理にディープラーニングを使用する...
AIの拡大する影響私たちの日常生活における AI の影響はますます明らかになってきています。 AI ...
現在、人工知能の応用範囲と深さは絶えず拡大しており、情報インフラの重要な部分になりつつあります。しか...
21 世紀が近づくにつれ、各国の成功または失敗はもはや国民と政府指導者だけに依存するものではなくなり...
[[373785]]この記事はWeChatの公開アカウント「Programming New Vis...
国内の大型モデルに新たなプレーヤーが登場しました。 670億のパラメータを持つDeepSeek。中国...
モデル| https://huggingface.co/ByteDance/SDXL-Lightni...
少し前、ロシアのプーチン大統領は「人工知能 - 21世紀の主要技術」イベントに出席した際、人工知能ロ...