ニューラル放射線フィールドは「神経」を取り除き、3D効果の品質を低下させることなくトレーニング速度を100倍以上向上させます。

ニューラル放射線フィールドは「神経」を取り除き、3D効果の品質を低下させることなくトレーニング速度を100倍以上向上させます。

2020年、カリフォルニア大学バークレー校、Google、カリフォルニア大学サンディエゴ校の研究者らは、数枚の静止画像を使用して複数の視点からリアルな3D画像を生成できる「NeRF」と呼ばれる2D画像から3Dへのモデルを提案した。改良モデル NeRF-W (NeRF in the Wild) は、光の変化や障害物の多い屋外環境にも適応し、わずか数分で 3D の観光名所を生成できます。

NeRF モデルのデモ。

NeRF-Wモデルのデモ。

ただし、これらの素晴らしい効果は非常に計算集約的です。各フレームのレンダリングには 30 秒かかり、単一の GPU でモデルをトレーニングするには 1 日かかります。そのため、その後の多くの論文では、特にレンダリングにおける計算コストの改善が図られました。しかし、モデルのトレーニングコストは大幅に削減されておらず、単一の GPU を使用したトレーニングには依然として数時間かかり、これが実装を制限する大きなボトルネックとなっています。

カリフォルニア大学バークレー校の研究者らは新しい論文でこの問題に取り組み、「プレノクセル」と呼ばれる新しい方法を提案した。新しい研究では、ニューラル ネットワークがなくても、放射フィールドを最初からトレーニングすることで NeRF と同じ生成品質を達成でき、最適化が 2 桁高速化されることが示されています。

  • 論文リンク: https://arxiv.org/pdf/2112.05131.pdf
  • プロジェクトホームページ: https://alexyu.net/plenoxels/
  • コードリンク: https://github.com/sxyu/svox2

モデルのシンプルさを活用して大幅な高速化を実現するカスタム CUDA 実装を提供します。制限付きシナリオでは、単一の Titan RTX GPU での Plenoxels の典型的な最適化時間は 11 分ですが、NeRF の場合は約 1 日です。前者は 100 倍以上の高速化を実現します。制限なしシナリオでは、Plenoxels の最適化時間は約 27 分ですが、NeRF++ の場合は約 4 日です。前者は 200 倍以上の高速化を実現します。 Plenoxels の実装は高速レンダリング用に最適化されていませんが、1 秒あたり 15 フレームのインタラクティブな速度で新しい視点をレンダリングできます。レンダリング速度を高速化したい場合は、最適化された Plenoxel モデルを PlenOctree (著者 Alex Yu らが ICCV 2021 論文で提案した新しい方法: https://alexyu.net/plenoctrees/) に変換できます。

具体的には、研究者らは、ニューラル ネットワークを使用せずに、ビューに依存するスパース ボクセル グリッドに基づく明示的なボクセル表現方法を提案しました。新しいモデルは、リアルな新しい視点をレンダリングでき、微分可能なレンダリング損失とトレーニング ビューのバリエーション正規化を使用して、調整された 2D 写真に対してエンドツーエンドの最適化を実行します。

このモデルはボクセルのスパース グリッドで構成されており、各ボクセルには不透明度と球面調和関数の係数情報が格納されているため、Plenoxel (プレノクティック ボリューム要素) と呼ばれています。これらの係数は補間され、完全なプレノプティック関数を空間内で連続的にモデル化します。単一の GPU で高解像度を実現するために、研究者は空のボクセルを削除し、粗から細への最適化戦略を採用しました。コア モデルは境界のあるボクセル グリッドですが、境界のないシーンを次の 2 つの方法でモデル化できます。1) 正規化されたデバイス座標を使用する (前向きのシーンの場合)。2) グリッドの周囲の背景を多球イメージでエンコードする (360° シーンの場合)。

前向きのシーンにおけるプレノクセルの効果。

360° シーンにおける Plenoxel の効果。

このアプローチは、データ表現、順方向モデル、正規化子、最適化子など、逆問題からの現実的なボクセル単位の再構築に標準ツールを使用できることを示しています。これらの各コンポーネントは非常にシンプルでありながら、SOTA 結果を達成できます。実験結果から、Neural Radiance Fields の重要な要素はニューラル ネットワークではなく、微分可能なボクセル レンダラーであることが示されました。

フレームワークの概要

プレノクセルは、各占有ボクセルコーナーにスカラー不透明度 σ と各カラーチャネルの球面調和関数係数のベクトルが格納されるスパースボクセルグリッドです。著者らはこの表現をプレノクセルと呼んでいます。任意の場所と視線方向における不透明度と色は、隣接するボクセルに格納された値の三線補間と、適切な視線方向における球面調和関数の係数の評価によって決定されます。キャリブレーションされた画像のセットが与えられると、トレーニング レイのレンダリング損失を使用してモデルが直接最適化されます。モデルのアーキテクチャを以下の図 2 に示します。

上の図 2 は、スパース Plenoxel モデル フレームワークの概念図です。物体またはシーンの画像セットが与えられると、研究者は各ボクセルの密度と球面調和関数の係数を使用して、(a) 疎ボクセル (Plenoxel) グリッドを再構築します。光をレンダリングするために、(b) 隣接するボクセルの係数の三線補間によって各サンプル ポイントの色と不透明度を計算します。また、(c)微分可能ボクセルレンダリングを使用して、これらのサンプルの色と不透明度を統合します。次に、トレーニング画像と全体的な変動正則化に対する標準MSE再構成損失を使用して、ボクセル係数を最適化できます(d)。

実験結果

研究者らは、合成された境界付きシーン、実際の境界のない前向きシーン、実際の境界のない 360° シーンでモデルのパフォーマンスを実証しました。彼らは、新しいモデルの最適化時間をこれまでのすべての方法 (リアルタイム レンダリングを含む) と比較し、新しいモデルが大幅に高速であることを発見しました。定量的な比較結果を表2に示し、視覚的な比較結果を図6、7、8に示します。

さらに、新しい方法では、図 5 に示すように、最適化の最初のエポック (所要時間は 1.5 分未満) の後でも高品質の結果を得ることができます。

<<:  人工知能技術が現代農業の発展を促進する

>>:  人工知能は仕事をなくしてしまうのでしょうか?マスク氏の提案を聞いてみましょう。

推薦する

ロボットは独自の言語を作り、将来的には自律的にコミュニケーションできるようになるのでしょうか?

[[187107]]人工知能技術は飛躍的に進歩していますが、人工知能間のコミュニケーションの問題は...

チャットボットのアーキテクチャモデルと応答メカニズムについての簡単な説明

[51CTO.com クイック翻訳] 気付きましたか? 人工知能はもはや、少数のテクノロジー企業の単...

眼球認識技術が魔法を発揮し、一目であなたを認識します

サイバーセキュリティは「人民の戦い」を必要とするだけでなく、科学技術の問題でもある。オンライン詐欺で...

トップマガジンTPAMI2023!生成AIと画像合成のレビューを公開しました!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

インドは、大規模言語モデルの開発を強化するためにAI分野に1037億ルピーの投資を発表した。

インド政府は3月8日、「インドにAIを根付かせる」と「AIをインドのために役立てる」という2大目標の...

2021 年を迎えるにあたり、人気の GNN はどのアプリケーション分野で存在感を発揮するのでしょうか?

近年、グラフ構造の強力な表現力により、機械学習の手法を用いたグラフ解析の研究が注目を集めています。グ...

人工ニューラルネットワーク入門

[[440456]]この記事はWeChatの公開アカウント「Zhibin's Python ...

...

2021年のAIに関する10の大胆な予測

2020年は忘れられない年です。今年に入って、新型コロナウイルスの感染拡大に伴い、人工知能(AI)が...

江長建、世界初のサイボーグと対談 - JD Smart Community 2.0 全国ローンチカンファレンス ライブプレビュー

[[374688]] 「半オーク」「半魚」… SF映画、漫画、おとぎ話では、それは驚くことではありま...

WOT2018 Xian Yunsen: O2O検索にはアルゴリズムがあふれている

[51CTO.com からのオリジナル記事] 7 年間の努力と見事な変貌。 2012年以降、6年連続...

掃除ロボットに抜け穴がある!あるいは数秒で盗聴ツールに変わる可能性もある

先日、陝西省西安市は「サイバーセキュリティは人々のためのものであり、サイバーセキュリティは人々に依存...

AIは50個の三角形を使って、ポストモダンな雰囲気を持つモナリザの抽象版を描きます

[[425382]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

クラウドベースの生成 AI システムを実行するためのベスト プラクティス

翻訳者 |ブガッティレビュー | Chonglou何だと思う?クラウド コンピューティング カンファ...