リアルタイムの高忠実度レンダリング、PlenOctrees に基づく NeRF レンダリング速度が 3000 倍に向上

リアルタイムの高忠実度レンダリング、PlenOctrees に基づく NeRF レンダリング速度が 3000 倍に向上

[[393143]]

まばらな静止画像から任意の 3D オブジェクトとシーンの新しいビューを合成することは、多くの VR および AR アプリケーションの基本です。近年、Neural Radiance Fields (NeRF) のニューラル ネットワーク レンダリングの研究では、ニューラル ネットワーク エンコーディングによるリアルな 3D 遠近法シーンのレンダリングが実現されています。しかし、NeRF では極端なサンプリング要件と多数のニューラル ネットワーク操作が必要になるため、レンダリング速度が非常に遅くなり、実際のシナリオ、特にリアルタイムのインタラクティブ シナリオでの適用が著しく制限されます。たとえば、NeRF を使用して 800 x 800 ピクセルの画像をレンダリングすると、ハイエンド GPU で約 30 秒かかります。最近、カリフォルニア大学バークレー校などの研究者らは、PlenOctrees と呼ばれるデータ構造を使用して NeRF の新しいデータ表現を導入し、リアルタイムの NeRF レンダリングを可能にしました。レンダリング速度はオリジナルの NeRF より 3000 倍以上高速で、画質も NeRF に匹敵します。さらに、PlenOctrees 構造を使用すると、NeRF のトレーニング時間を効果的に短縮できます。

論文の宛先:
出典: http://arxiv.org/pdf/2103.14024.pdf

プロジェクトアドレス:
https://alexyu.net/plenoctrees/

方法

NeRF 方式では、カメラの光が特定の角度からシーンを通過して、サンプリングされた 3 次元ポイントのセットを生成し、これらのポイントの空間位置と視点がニューラル ネットワークを通じて対応する密度と色にマッピングされます。これらの色と密度は、従来のボリューム レンダリング技術を使用して 2 次元画像に蓄積されます。これには、光線方向に沿った各サンプルをニューラル ネットワークに入力して、密度と色を取得する必要があります。このアプローチは、サンプルのほとんどが自由空間で取得され、全体の色に寄与しないため、非常に非効率的です。したがって、この論文では、オーバーサンプリングを回避するためにスパース オクツリー構造を使用することを提案します。さらに、この方法では、ネットワークへの繰り返し入力を避けるために、各ボクセルの値を事前に計算します。

図1 アルゴリズムフレームワーク図

アルゴリズムのフレームワークを図 1 に示します。この研究では、トレーニング済みのNeRF事前サンプリングをPlenOctreeデータ構造に変換するPlenOctreeというデータ構造を提案しました。具体的には、この手法ではOctree構造を使用して、モデリングに必要な密度値と球面調和関数(SH)をツリーのリーフノードに格納します。球面調和関数は、特定の角度で RGB 値を置き換え、任意の角度から独立した色情報を復元できます。さらに、PlenOctree変換をより直接的に実装するために、本研究では、異なる視点のデータをネットワークに入力することを避けるために球面調和関数表現を生成する改良されたNeRFモデル(NeRF-SH)を提案した。この情報は、PlenOctree のリーフ ノードに直接保存できます。同時に、Octree構造を微調整することで、画質をさらに向上させることができます。

NeRF-SHモデル

NeRF-SHモデルを図1(a)に示します。基本的な最適化プロセスとレンダリングプロセスはNeRFと同じですが、NeRF-SHモデルはRGBカラーを直接出力するのではなく、球面調和関数kを出力します。色 c は、対応する光線方向 (θ、φ) における球面調和関数 k 基底の加重和によって計算されます。変換式は次のとおりです。

ここで、d は視野角、k はネットワークによって出力される球面調和関数 SH です。 SH 基底を使用すると、ビュー方向をサンプリングする必要がなくなり、トレーニング時間が短縮されます。この研究では、NeRF-SH のトレーニング プロセス中に、Octree 構造のストレージ効率を向上させるためにスパース事前制約も導入しました。抽出プロセス全体には約 15 分かかります。

PlenOctree構造

PlenOctree構造を図1(b)に示します。NeRF-SHモデルをトレーニングした後、スパースOctree構造に変換してリアルタイムレンダリングを実現します。変換プロセスは 3 つのステップに分かれています。1) 高レベルでは、ネットワークがグリッド上で評価され、密度値のみが保持されます。2) ボクセルはしきい値によってフィルタリングされます。 3) 残りの各ボクセル内のランダムなポイントをサンプリングし、平均して SH 関数を取得します。この関数は Octree リーフに格納されます。レンダリングプロセス中、ツリー値は完全に微分可能であり、元のトレーニング画像を直接微調整することで、画像の品質をさらに向上させることができます。 PlenOctree 構造は、NeRF の 1 秒あたり約 9,000 本の光線と比較して、1 秒あたり約 300 万本の光線で最適化されています。この方法の最適化速度は NeRF に比べて大幅に向上しているため、NeRF-SH のトレーニングを早期に終了して、モデルのパフォーマンスをほとんど低下させることなく PlenOctree 構造を構築できます。

実験結果

レンダリング効果を図 2 に示します。NeRF と比較すると、この方法でレンダリングされた画像は詳細度が向上し、実際の画像に近くなり、レンダリング速度は 3000 倍以上高速になります。

図2 レンダリング効果

図3は、いくつかの方法のトレーニング時間の比較です。NeRFモデルとNeRF-SHモデルに必要なトレーニング時間はほぼ同じであることがわかります。 PlenOctree 構造の変換と微調整には約 1 時間のトレーニング時間が必要です。しかし、NeRF-SH と PlenOctree を組み合わせると、モデルはわずか 4.5 時間で約 16 時間の NeRF のトレーニング品質に到達できるようになります。

図3 アルゴリズムの収束時間

レンダリング速度とパフォーマンスは向上しますが、Octree 構造を使用するとメモリ リソースもより多く消費されます。

<<:  「機械による人代替」が雇用問題を引き起こす。第一線で働く人々の未来はどうなるのか?

>>:  AIロボットの出現により、運転訓練業界における知能の新たな章が開かれた。

ブログ    
ブログ    

推薦する

人工知能の今後の発展における3つの大きなトレンド、それぞれが驚きである

人工知能は、知能機械や機械知能とも呼ばれ、人間が作った機械が示す知能を指します。人工知能は、医療、テ...

2018 年のネットワーク イノベーションを推進する 5 つのエンジン

IT 分野は革新を止めたことがなく、ネットワーク分野も例外ではありません。今日は、ネットワーク革新を...

人工知能の安全で制御可能な開発について議論するために、AIセキュリティと産業ガバナンスフォーラムが正式に開催されました。

第四次科学技術革命をリードする戦略的技術として、人工知能は社会構築と経済発展に重大かつ広範囲な影響を...

なぜ人間はヒューマノイドロボットを恐れるのでしょうか?心の奥底から湧き上がる恐怖

科学者たちは、人間が常に人型ロボットに対して不可解な恐怖を抱いているという不可解な現象を発見した。 ...

MATRIX: 社会シミュレーションは、GPT4よりも配慮した大規模なモデル値の自己整合を促進します

ChatGPT などのモデルは、人間のフィードバックからの強化学習 (RLHF) に依存しており、注...

建設業界はAIとIoTの次の大きなターゲット

建設業界は、革新、破壊、あるいは何と呼ぼうと、何らかの変化が起こりやすい時期にあります。以前にも書い...

サイバーセキュリティにおける人工知能:現在の課題と将来の方向性

人工知能 (AI) はあらゆる分野に革命をもたらしましたが、サイバーセキュリティも例外ではありません...

...

静的な知識を動的にする: ナレッジグラフからファクトグラフへ

[[392524]]ソーシャル ネットワークには、有名な「6 次の隔たり理論」があります。 「世界中...

顔認識が再び物議を醸す

人工知能の中で最も議論の多い技術分野といえば、顔認識技術でしょう。 1 つ目は、顔認識の収集方法であ...

...

マッキンゼーのパートナー、カレル・エルート氏:「3×Simpler」は産業用ロボットのユーザーエクスペリエンスを向上させます

2年前、イタリアのテノール歌手アンドレア・ボチェッリがイタリアのピサにあるヴェルディ劇場でルッカ・フ...

大規模モデルによって NLP エンジニアは時代遅れになったのでしょうか?

1. 新しく職場に入る1. 職場に入るときに直面する問題初めて職場に入るとき、新卒から社会人へと移...

Weibo ディープラーニング プラットフォームのアーキテクチャと実践

人工ニューラル ネットワーク アルゴリズムの成熟と GPU コンピューティング能力の向上により、ディ...