まばらな静止画像から任意の 3D オブジェクトとシーンの新しいビューを合成することは、多くの VR および AR アプリケーションの基本です。近年、Neural Radiance Fields (NeRF) のニューラル ネットワーク レンダリングの研究では、ニューラル ネットワーク エンコーディングによるリアルな 3D 遠近法シーンのレンダリングが実現されています。しかし、NeRF では極端なサンプリング要件と多数のニューラル ネットワーク操作が必要になるため、レンダリング速度が非常に遅くなり、実際のシナリオ、特にリアルタイムのインタラクティブ シナリオでの適用が著しく制限されます。たとえば、NeRF を使用して 800 x 800 ピクセルの画像をレンダリングすると、ハイエンド GPU で約 30 秒かかります。最近、カリフォルニア大学バークレー校などの研究者らは、PlenOctrees と呼ばれるデータ構造を使用して NeRF の新しいデータ表現を導入し、リアルタイムの NeRF レンダリングを可能にしました。レンダリング速度はオリジナルの NeRF より 3000 倍以上高速で、画質も NeRF に匹敵します。さらに、PlenOctrees 構造を使用すると、NeRF のトレーニング時間を効果的に短縮できます。 論文の宛先: プロジェクトアドレス: 方法NeRF 方式では、カメラの光が特定の角度からシーンを通過して、サンプリングされた 3 次元ポイントのセットを生成し、これらのポイントの空間位置と視点がニューラル ネットワークを通じて対応する密度と色にマッピングされます。これらの色と密度は、従来のボリューム レンダリング技術を使用して 2 次元画像に蓄積されます。これには、光線方向に沿った各サンプルをニューラル ネットワークに入力して、密度と色を取得する必要があります。このアプローチは、サンプルのほとんどが自由空間で取得され、全体の色に寄与しないため、非常に非効率的です。したがって、この論文では、オーバーサンプリングを回避するためにスパース オクツリー構造を使用することを提案します。さらに、この方法では、ネットワークへの繰り返し入力を避けるために、各ボクセルの値を事前に計算します。 図1 アルゴリズムフレームワーク図 アルゴリズムのフレームワークを図 1 に示します。この研究では、トレーニング済みのNeRF事前サンプリングをPlenOctreeデータ構造に変換するPlenOctreeというデータ構造を提案しました。具体的には、この手法ではOctree構造を使用して、モデリングに必要な密度値と球面調和関数(SH)をツリーのリーフノードに格納します。球面調和関数は、特定の角度で RGB 値を置き換え、任意の角度から独立した色情報を復元できます。さらに、PlenOctree変換をより直接的に実装するために、本研究では、異なる視点のデータをネットワークに入力することを避けるために球面調和関数表現を生成する改良されたNeRFモデル(NeRF-SH)を提案した。この情報は、PlenOctree のリーフ ノードに直接保存できます。同時に、Octree構造を微調整することで、画質をさらに向上させることができます。 NeRF-SHモデルNeRF-SHモデルを図1(a)に示します。基本的な最適化プロセスとレンダリングプロセスはNeRFと同じですが、NeRF-SHモデルはRGBカラーを直接出力するのではなく、球面調和関数kを出力します。色 c は、対応する光線方向 (θ、φ) における球面調和関数 k 基底の加重和によって計算されます。変換式は次のとおりです。 ここで、d は視野角、k はネットワークによって出力される球面調和関数 SH です。 SH 基底を使用すると、ビュー方向をサンプリングする必要がなくなり、トレーニング時間が短縮されます。この研究では、NeRF-SH のトレーニング プロセス中に、Octree 構造のストレージ効率を向上させるためにスパース事前制約も導入しました。抽出プロセス全体には約 15 分かかります。 PlenOctree構造PlenOctree構造を図1(b)に示します。NeRF-SHモデルをトレーニングした後、スパースOctree構造に変換してリアルタイムレンダリングを実現します。変換プロセスは 3 つのステップに分かれています。1) 高レベルでは、ネットワークがグリッド上で評価され、密度値のみが保持されます。2) ボクセルはしきい値によってフィルタリングされます。 3) 残りの各ボクセル内のランダムなポイントをサンプリングし、平均して SH 関数を取得します。この関数は Octree リーフに格納されます。レンダリングプロセス中、ツリー値は完全に微分可能であり、元のトレーニング画像を直接微調整することで、画像の品質をさらに向上させることができます。 PlenOctree 構造は、NeRF の 1 秒あたり約 9,000 本の光線と比較して、1 秒あたり約 300 万本の光線で最適化されています。この方法の最適化速度は NeRF に比べて大幅に向上しているため、NeRF-SH のトレーニングを早期に終了して、モデルのパフォーマンスをほとんど低下させることなく PlenOctree 構造を構築できます。 実験結果レンダリング効果を図 2 に示します。NeRF と比較すると、この方法でレンダリングされた画像は詳細度が向上し、実際の画像に近くなり、レンダリング速度は 3000 倍以上高速になります。 図2 レンダリング効果 図3は、いくつかの方法のトレーニング時間の比較です。NeRFモデルとNeRF-SHモデルに必要なトレーニング時間はほぼ同じであることがわかります。 PlenOctree 構造の変換と微調整には約 1 時間のトレーニング時間が必要です。しかし、NeRF-SH と PlenOctree を組み合わせると、モデルはわずか 4.5 時間で約 16 時間の NeRF のトレーニング品質に到達できるようになります。 図3 アルゴリズムの収束時間 レンダリング速度とパフォーマンスは向上しますが、Octree 構造を使用するとメモリ リソースもより多く消費されます。 |
<<: 「機械による人代替」が雇用問題を引き起こす。第一線で働く人々の未来はどうなるのか?
>>: AIロボットの出現により、運転訓練業界における知能の新たな章が開かれた。
[[315277]]校門に設置されたカメラの前に立つと、システムは顔認識技術と現場での体温検知を組み...
少し前、ニューヨーク・タイムズ紙は、OpenAI が自社のコンテンツを人工知能開発のために違法に使用...
分析会社シミラーウェブが9月8日に発表した最新データによると、人工知能チャットロボット「ChatGP...
IoT 分野の拡大と発展により、多くの変革的テクノロジーがもたらされるでしょう。家庭から自動車、ウ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
1. ハドゥープシンプルなプログラミング モデルを備えた Hadoop は、マシンのクラスター間で多...
アレックス・オメイヤー翻訳者 | 陳俊レビュー | Chonglou人工知能(AI)の急速な進化と発...
諺にもあるように、良い質問は良い答えにつながります。特に GPT を使用するユーザーにとって、質問の...
ChatGPTはリリースされてから9か月が経ちました。この 9 か月間、この驚異的なアプリケーショ...
[[240281]]人工知能が将来の技術の方向性であることは誰もが知っていますが、AIの学習に対す...
[[381380]]人工知能 (AI) はスマートビル管理の究極の未来と考えられていますが、それが定...
2019年、自動運転分野は谷間に向かうかに見えましたが、わずか数か月で業界は徐々に再び熱を帯び始め、...