学部生の新しいアルゴリズムはNeRFを上回り、ニューラルネットワークなしで写真をアニメーション化でき、速度は100倍に向上

学部生の新しいアルゴリズムはNeRFを上回り、ニューラルネットワークなしで写真をアニメーション化でき、速度は100倍に向上

[[441881]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

ニューラルネットワークなしで写真を 3D に変換するのがこんなにスムーズにできるとは思いませんでした。

それ以前は、新しい視点の合成におけるビッグネームはNeRF (神経放射場) であり、過去 2 年間で非常に人気がありました。

これは、2D 画像の情報をトレーニング データとして使用して、ボリュームのある 3D シーンを復元する、シンプルな完全接続ニューラル ネットワークです。

しかし最近、カリフォルニア大学バークレー校の研究者らが「プレノクセル」と呼ばれる方法を提案した。

ニューラル ネットワークは必要ありません。勾配降下法と正規化だけで同じ効果が得られ、速度は100 倍になります。

それで、彼らはどうやってこれを実現するのでしょうか?

NeRFからPlenoxelsへの進化

誰もがPlenoxelsを理解しやすくするために、まずNeRFモデルについて簡単に紹介します。

NeRF用のデータを準備するには、まずカメラが必要です。

さまざまな角度から多数の写真を撮影した後、各 2D 画像の座標視線方向が、MLP (多層完全接続ニューラル ネットワーク) の入力としてカメラ光線に沿った 5D ベクトル (x、y、z、θ、φ) に構築されます。

図(b)から、光線上の点には色があり、各点の色c = (r, g, b)と密度(σ)が出力ベクトルであることがわかります。

NeRF はボリューム レンダリング技術を使用して、取得した色と密度を 3D にレンダリングします。

レンダリング関数は微分可能であるため、合成効果と実際の効果の間の誤差を最小限に抑えることができ、それによってニューラル ネットワーク パラメータを最適化できます。

MLP で使用されるパラメータは 5MB に達することがあります。実際のトレーニングでは、トレーニング時間が非常に長く、通常は 1 ~ 4 日かかります。

この速度は、 Plenoxelsの 11 分と比較すると確かに受け入れられません。

2D 画像を 3D に変換するのは、小さなプロジェクトではないように思えます。Plenoxelsニューラル ネットワークを使用せずにこれをどのように実現しているのでしょうか?実のところ、それほど複雑ではありません。

Plenoxels はNeRF の成功の秘密は実際にはボリューム レンダリング方程式にあり、最も時間のかかるニューラル ネットワークとはほとんど関係がないことを発見しました。

では、ボリューム レンダリング方程式が何なのか気になっているはずです。まずはそれについて見てみましょう。

σi は不透明度、ci は色、δi は距離を表します。 Ti は光線上の点 i を通過する光の量を表し、密度と距離によって計算されます。

このボリューム レンダリング方程式は、実際には光線上の各ポイントの色、不透明度、光、距離を統合します。

ボリューム レンダリング方程式を紹介しましたが、 Plenoxels はニューラル ネットワークを必要とせずにどのように画像を表現するのでしょうか。

Plenoxels はまず、占有されている各ボクセルの不透明度球面調和関数の係数を含むスパース ボクセル テーブルを再構築します。

色情報は、これらの球面調和係数に格納されます。各色チャネルを表現するには、9 個の係数が必要です。合計 3 色あるため、各ボクセルの色を表現するには、27 個の球面調和係数が必要です。

カメラ光線が通過する各ポイントの色と不透明度は、最も近い 8 つのボクセルの三線補間によって計算されます。

結果として得られた色と不透明度は、 NeRFに似たボリューム レンダリング技術を使用して 3D でレンダリングされます。

Plenoxels は、レンダリングされたピクセルの平均二乗誤差(MSE) を最小限に抑えることでボクセルの不透明度と球面調和係数を最適化し、 TV 正規化を使用してノイズを除去します。

TV正規化を使用するかしないかで効果に大きな違いがあることがわかります!

100倍速く、わずか11分

最も直感的な方法を使用して、2 つのモデル間の速度の違いを比較します。

ご覧のとおり、 Plenoxels はわずか数秒でより鮮明な効果を実現できますが、 NeRFではぼやけた影しか出ません。

同じ単一のシナリオの場合、 NeRF はモデル v100 の単一の GPU を使用してトレーニングするのに 1 ~ 2 日かかりますが、 Plenoxels は通常、単一の GPU を使用して 11 分しかかかりません。

この時点で、あなたの心の中に疑問が残っているはずです。速度がそれほど上昇した場合、効果は本当に影響を受けないのでしょうか?

言葉だけでは不十分で、データを使って伝える必要があります。

PSNR (ピーク信号対雑音比): 画質を評価するための最も一般的で広く使用されている客観的な測定方法です。PSNR 値が大きいほど、歪みが少なくなります。

SSIM (構造類似度): 実際の画像と合成画像の類似度を測定します。2 つの画像がまったく同じ場合、SSIM 値は 1 になります。

LPIPS (学習知覚パッチ類似度): 実際の画像と合成画像の違いを測定するために使用されます。値が低いほど、画像の類似性が高くなります。

Plenoxelsのパフォーマンスは他のモデルと比較して最高ではないことがわかりますが、決して他より劣っているわけではありません。重要なのは、その速度が2 桁速いことです。

Plenoxels の速度が大幅に向上したため、マルチバウンス照明大規模シーンの 3D 生成モデルなど、現在ボトルネックとなっている一部のダウンストリーム アプリケーションが可能になります。

カメラとボクセル ハッシュを効果的に最適化できれば、このモデルは、パイプラインを使用してエンドツーエンドの 3D 再構築を実用的なアプリケーションにすることもできます。

プレノクセルの可能性はこれだけではないと思います。導入後の成果に期待しましょう!

カリフォルニア大学バークレー校の学部生

この強力なプレノクセルはカリフォルニア大学バークレー校の学生チームによって開発されたもので、第一著者のアレックス・ユー氏はまだ学部生である。

大学ではコンピュータサイエンス応用数学を学んだだけでなく、バ​​ークレーにあるバークレー人工知能研究所 ( BAIR ) で 3D コンピュータビジョンの研究も行いました。

アレックスは2022年の秋に博士課程を始める予定です。AI分野には非常に多くの才能ある人々がいることにため息をつくしかありません。

博士課程を修了した彼は、今後どのようなエネルギーを発揮するのでしょうか。楽しみに待っていましょう。

GitHub コードのオープンソース

現在、 Plenoxelsプロジェクトのコードは GitHub でオープンソース化されています。

皆さん、写真を撮るときは、できるだけ被写体の周りを回り、さまざまな高さで撮影してみてください。

ぜひその効果をお試しください!

<<:  人生の意味とは何でしょうか?ステーションBのUP司会者がAIに「究極の質問」を投げかけた

>>:  2022年の自動運転のトップ10トレンドが発表されました。データインテリジェンスシステムは、自動運転の商用化のクローズドループの鍵となるでしょうか?

ブログ    
ブログ    

推薦する

倫理的な AI の今後はどうなるのでしょうか?

今日のデジタル時代では、人工知能 (AI) と機械学習 (ML) はあらゆるところに存在しています。...

FenyintaのCTO、張明氏:観光産業を深く掘り下げ、AI技術を使って異言語コミュニケーションの問題を解決する

[51CTO.comからのオリジナル記事] 1930年代初頭、フランスの科学者GBアルチュニは翻訳に...

AI聴覚技術は国際紛争に関与したことがあるか?

AI視覚技術がさまざまな業界で応用されるのはもはや目新しいことではなく、現在ではAI聴覚技術も戦場...

中国の博士が、パラメータのわずか 33% で画像復元フィールドを圧縮するモデル SwinIR を提案しました。

[[421559]]パラメータの数とモデルのパフォーマンスの間には絶対的な関係がありますか?チュー...

AIによる改ざんサイバー攻撃が迫る

AIによる顔変えの余波はまだ消えず、AIによる声変え電話詐欺劇が現実のものとなりました!ディープフェ...

AIは自動車でも加速しており、メルセデス・ベンツは車載音声アシスタントをChatGPTチャットボットに接続すると発表した。

6月16日のニュースによると、メルセデス・ベンツは木曜日、6月16日にテストプログラムを開始し、ア...

AIは生成的敵対ネットワークを使用して、笑顔、悲しみ、怒り、驚きなどの個別の顔の属性を生成します。

人工知能は、生成的敵対的ネットワークを使用して、笑顔、悲しみ、怒り、驚きなどの個別の顔の属性を生成し...

調査によると、ChatGPTはプログラミングの質問に答える際に50%以上のエラー率があることが判明

米パデュー大学の調査によると、OpenAIが開発した人工知能チャットボット「ChatGPT」は、ソフ...

南京大学の周志華氏と清華大学の胡世民氏が学者候補に選出されました!コンピュータ分野合計7名

[[414852]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

人工知能は私たちに取って代わるのでしょうか?科学者たちは十分な証拠を提示しているが、その日が来るのはまだ遠い。

人工知能といえば、これは現代社会の最新の産物であり、この産物もまた最速のスピードで人間を駆逐していま...

医療機器における人工知能:これらは新たな産業アプリケーションです

人工知能により、研究者や製造業者は生活の質を向上させることができます。 [[419960]]人工知能...

古典へのオマージュ!ボストンダイナミクスのロボットが40年前のローリングストーンズのダンスを正確に再現

ボストン・ダイナミクスが「バンドで演奏」します!今回のターゲットは有名な「ローリング・ストーンズ」。...