ニューラル放射線フィールドは「神経」を取り除き、3D効果の品質を低下させることなくトレーニング速度を100倍以上向上させます。

ニューラル放射線フィールドは「神経」を取り除き、3D効果の品質を低下させることなくトレーニング速度を100倍以上向上させます。

2020年、カリフォルニア大学バークレー校、Google、カリフォルニア大学サンディエゴ校の研究者らは、数枚の静止画像を使用して複数の視点からリアルな3D画像を生成できる「NeRF」と呼ばれる2D画像から3Dへのモデルを提案した。改良モデル NeRF-W (NeRF in the Wild) は、光の変化や障害物の多い屋外環境にも適応し、わずか数分で 3D の観光名所を生成できます。

NeRF モデルのデモ。

NeRF-Wモデルのデモ。

ただし、これらの素晴らしい効果は非常に計算集約的です。各フレームのレンダリングには 30 秒かかり、単一の GPU でモデルをトレーニングするには 1 日かかります。そのため、その後の多くの論文では、特にレンダリングにおける計算コストの改善が図られました。しかし、モデルのトレーニングコストは大幅に削減されておらず、単一の GPU を使用したトレーニングには依然として数時間かかり、これが実装を制限する大きなボトルネックとなっています。

カリフォルニア大学バークレー校の研究者らは新しい論文でこの問題に取り組み、「プレノクセル」と呼ばれる新しい方法を提案した。新しい研究では、ニューラル ネットワークがなくても、放射フィールドを最初からトレーニングすることで NeRF と同じ生成品質を達成でき、最適化が 2 桁高速化されることが示されています。

  • 論文リンク: https://arxiv.org/pdf/2112.05131.pdf
  • プロジェクトホームページ: https://alexyu.net/plenoxels/
  • コードリンク: https://github.com/sxyu/svox2

モデルのシンプルさを活用して大幅な高速化を実現するカスタム CUDA 実装を提供します。制限付きシナリオでは、単一の Titan RTX GPU での Plenoxels の典型的な最適化時間は 11 分ですが、NeRF の場合は約 1 日です。前者は 100 倍以上の高速化を実現します。制限なしシナリオでは、Plenoxels の最適化時間は約 27 分ですが、NeRF++ の場合は約 4 日です。前者は 200 倍以上の高速化を実現します。 Plenoxels の実装は高速レンダリング用に最適化されていませんが、1 秒あたり 15 フレームのインタラクティブな速度で新しい視点をレンダリングできます。レンダリング速度を高速化したい場合は、最適化された Plenoxel モデルを PlenOctree (著者 Alex Yu らが ICCV 2021 論文で提案した新しい方法: https://alexyu.net/plenoctrees/) に変換できます。

具体的には、研究者らは、ニューラル ネットワークを使用せずに、ビューに依存するスパース ボクセル グリッドに基づく明示的なボクセル表現方法を提案しました。新しいモデルは、リアルな新しい視点をレンダリングでき、微分可能なレンダリング損失とトレーニング ビューのバリエーション正規化を使用して、調整された 2D 写真に対してエンドツーエンドの最適化を実行します。

このモデルはボクセルのスパース グリッドで構成されており、各ボクセルには不透明度と球面調和関数の係数情報が格納されているため、Plenoxel (プレノクティック ボリューム要素) と呼ばれています。これらの係数は補間され、完全なプレノプティック関数を空間内で連続的にモデル化します。単一の GPU で高解像度を実現するために、研究者は空のボクセルを削除し、粗から細への最適化戦略を採用しました。コア モデルは境界のあるボクセル グリッドですが、境界のないシーンを次の 2 つの方法でモデル化できます。1) 正規化されたデバイス座標を使用する (前向きのシーンの場合)。2) グリッドの周囲の背景を多球イメージでエンコードする (360° シーンの場合)。

前向きのシーンにおけるプレノクセルの効果。

360° シーンにおける Plenoxel の効果。

このアプローチは、データ表現、順方向モデル、正規化子、最適化子など、逆問題からの現実的なボクセル単位の再構築に標準ツールを使用できることを示しています。これらの各コンポーネントは非常にシンプルでありながら、SOTA 結果を達成できます。実験結果から、Neural Radiance Fields の重要な要素はニューラル ネットワークではなく、微分可能なボクセル レンダラーであることが示されました。

フレームワークの概要

プレノクセルは、各占有ボクセルコーナーにスカラー不透明度 σ と各カラーチャネルの球面調和関数係数のベクトルが格納されるスパースボクセルグリッドです。著者らはこの表現をプレノクセルと呼んでいます。任意の場所と視線方向における不透明度と色は、隣接するボクセルに格納された値の三線補間と、適切な視線方向における球面調和関数の係数の評価によって決定されます。キャリブレーションされた画像のセットが与えられると、トレーニング レイのレンダリング損失を使用してモデルが直接最適化されます。モデルのアーキテクチャを以下の図 2 に示します。

上の図 2 は、スパース Plenoxel モデル フレームワークの概念図です。物体またはシーンの画像セットが与えられると、研究者は各ボクセルの密度と球面調和関数の係数を使用して、(a) 疎ボクセル (Plenoxel) グリッドを再構築します。光をレンダリングするために、(b) 隣接するボクセルの係数の三線補間によって各サンプル ポイントの色と不透明度を計算します。また、(c)微分可能ボクセルレンダリングを使用して、これらのサンプルの色と不透明度を統合します。次に、トレーニング画像と全体的な変動正則化に対する標準MSE再構成損失を使用して、ボクセル係数を最適化できます(d)。

実験結果

研究者らは、合成された境界付きシーン、実際の境界のない前向きシーン、実際の境界のない 360° シーンでモデルのパフォーマンスを実証しました。彼らは、新しいモデルの最適化時間をこれまでのすべての方法 (リアルタイム レンダリングを含む) と比較し、新しいモデルが大幅に高速であることを発見しました。定量的な比較結果を表2に示し、視覚的な比較結果を図6、7、8に示します。

さらに、新しい方法では、図 5 に示すように、最適化の最初のエポック (所要時間は 1.5 分未満) の後でも高品質の結果を得ることができます。

<<:  人工知能技術が現代農業の発展を促進する

>>:  人工知能は仕事をなくしてしまうのでしょうか?マスク氏の提案を聞いてみましょう。

ブログ    
ブログ    

推薦する

3行のコードで損失なく40%高速化、You YangチームのAIトレーニングアクセラレータがICLR口頭発表論文に選出

プルーニングを使用すると、AI トレーニングを高速化し、ロスレス操作を実現できます。わずか 3 行の...

2020年に中国で期待されるAI企業トップ10

近年の新興技術として、人工知能は人々の生活のあらゆる側面に静かに浸透し、比較的ホットな産業に発展しま...

効率的なトランスフォーマーが次々と登場、Googleチームが1つの記事ですべてをレビュー

Transformerモデルは2017年の誕生以来、自然言語処理やコンピュータービジョンなど多くの分...

アリババAIチームが米国CES展示会に参加、外国人は新たな4大発明のアップグレードを賞賛!

毎年恒例の国際コンシューマー・エレクトロニクス・ショー(CES)が始まったため、ラスベガス・ストリッ...

これら15のアルゴリズムをマスターすれば、グラフデータベースNeo4jを操作できるようになります。

チャート分析はビジネス上の意思決定において非常に価値があり、優れたグラフ アルゴリズムは使いやすく実...

最新研究:スーパー人工知能は理論的には制御不能

計算能力には限界があるため、人間が超人工知能を制御することはできません。 [[379749]]最近、...

AIを使って人間の子どもを「飼い慣らす」: ハードコアな子育ての楽しさを発見した父親

技術オタクの父親たちは、Netflix のエピソードを数本静かに観るために何をするのでしょうか? [...

...

インド初のAI教師アイリスが就任。3か国語を話し、個別指導を改善できる

3月8日、インド初のAI教師であるアイリス氏が就任した。彼女は、楽しみながら学ぶことで生徒の学習体験...

いくつかのシンプルな負荷分散アルゴリズム

負荷分散とは負荷分散(英語名は Load Balance)とは、複数のサーバーを対称的に構成したサー...

包括的なデータサイエンスC/C++機械学習ライブラリコレクション、Baidu検索は不要

はじめにと動機 - なぜ C++ なのか? C++ は、動的負荷分散、適応型キャッシュ、大規模なデー...

AI、IoT、VR、AR、ブロックチェーン、クラウドコンピューティングで建設業界を変革

AI、IoT、ブロックチェーン、AR、VR、クラウドコンピューティング技術が建設業界に新たな形をもた...

人工知能とビッグデータの違い

人工知能とビッグデータは人々がよく知っている流行語ですが、混乱が生じることもあります。 AI とビッ...

人工知能:この冷たい水はちょうどいいタイミングで注がれます!

最近、AI(人工知能)同時通訳詐欺事件をめぐる議論がテクノロジーや翻訳界で話題となり、「AIは人間を...

顔認識技術のまとめ:従来の方法からディープラーニングまで

英国ハートフォードシャー大学とGBG社の研究者らは最近、顔認識のさまざまな従来の手法と現在流行してい...