推論コストが48分の1に削減されました! 1つのGPUで静止画像を動かすことができる

推論コストが48分の1に削減されました! 1つのGPUで静止画像を動かすことができる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

バークレーとグーグルが共同で開発したNeRF が登場して以来、静止画像と変化する画像の魔法が世界中で人気を博しています。

[[416610]]

ただし、AI を利用してこのような 3D ダイナミック エフェクトの作成を簡素化する場合、計算能力のオーバーヘッドは小さくありません。

NeRF を例にとると、1440×1600 ピクセル、90Hz VR ヘルメットでリアルタイム レンダリングを実現するには、37 ペタフロップス (1 秒あたり 10^15 回の浮動小数点演算) の計算能力が必要ですが、これは現在の GPU では実現不可能です。

計算の複雑さを軽減するにはどうすればよいでしょうか?

現在、オーストリアのグラーツ工科大学とFacebookの研究者らが、実際の深度情報を導入するという解決策を考案した。

このように、非常に迅速に推論コストを最大48 倍削減し、1 つの GPU だけで 20 フレーム/秒のインタラクティブ レンダリングを実現できます。

画像の品質はまったく影響を受けません。さらに改善することもできます。

具体的なトリックについては以下で引き続き説明しましょう。

ディープオラクルネットワークに基づくNeRF

まず、NeRF (ニューラル放射場法) は、カメラ光線に沿って 5D 座標をサンプリングすることで画像合成を実現することに留意する必要があります。

つまり、NeRF のレンダリング プロセスでは、各レイをネットワーク内で評価して、色やボリューム密度値などの対応する情報を出力する必要があります。

これが、NeRF がリアルタイム レンダリング アプリケーションでは高価すぎる主な理由です。

現在、グラーツ工科大学と Facebook の研究者は、真の深度情報を導入し、物体の表面の周囲の重要なサンプルのみを考慮することで、画質に影響を与えることなく、各ビューレイに必要なサンプル数を大幅に削減できることを発見しました。

これを基に彼らはDONeRFを提案した。

DONeRF は 2 つのネットワークで構成されています。そのうちの 1 つであるSampling Oracle Network は、分類方法を使用して、ビュー レイに沿った最適なサンプリング位置を予測します。

具体的には、このディープ オラクル ネットワークは、光線に沿った空間を離散化し、光線に沿ったサンプリング確率を予測することで、各光線上の複数の潜在的なサンプリング オブジェクトを予測します。

下の図に示すように、3 つのカラー チャネルは、光線に沿った 3 つの最も高いサンプリング確率をエンコードします。グレースケール値は、サンプリングする必要があるサーフェスが 1 つだけである可能性があることを示し、カラー値は、これらのサンプルを深さ方向に分散させる必要があることを示します。

2 番目に、NeRF に似たレイ マーチングと累積方法を使用して RGBA 出力を提供するシェーディング ネットワークがあります。

入力の曖昧さを排除するために、研究者らは光線を均一な空間に変換し、非線形サンプリングを使用して近接領域をトレースしました。

さらに、研究者らは、2 つのネットワーク間でローカル サンプリングを歪め、カラー化ネットワークの高頻度予測が前景に導かれるようにしました。

この記事では、ビュー セルの概念についても紹介します。ビュー ユニットは、主方向と最大視野角を持つ境界ボックスとして定義されます。

簡単に言えば、この境界ボックスは、ボックス内から発生し、特定の回転範囲にあるすべてのビュー レイをキャプチャします。

この方法を使用すると、大きなシーンをセグメント化できるため、NeRF を大きなシーンに適用できないという問題が解決されます。

さらに、ビュー セルが小さくなると、シーン内の表示コンテンツが減るため、画像品質がさらに向上する可能性があります。

比較結果

それで、DONeRF は前身の NeRF と比べてどれくらい高速なのでしょうか?

比較結果を直接見てみましょう。

NeRF は、同様の品質で合計 256 個のサンプルを使用します。 DONeRF は 4 つのサンプルのみを使用し、速度を 20 ~ 48 倍向上させることができます。

また、画像の詳細に関して言えば、DONeRF の画像のエッジはより鮮明です。

研究者らはまた、16サンプルでは、​​ピーク信号対雑音比(PSNR)の点でほぼすべてのシナリオにおいてDONeRFがNeRFを上回っていると指摘した。

ポータル

論文の宛先:
https://arxiv.org/abs/2103.03231

プロジェクトアドレス:
https://depthoraclenerf.github.io/

<<:  CNNを称賛するのはやめろ。類似点と相違点さえ区別できない

>>:  GitHub はオープンソース コミュニティをイライラさせます!非フリーの Copilot はコピー方法しか知りません?我慢できない

ブログ    
ブログ    

推薦する

専門家の洞察: 顔が高度なアクセス制御認証情報である 5 つの理由

認証情報としての顔認識は、最新の正確で高速なテクノロジーを導入し、ほとんどのアクセス制御アプリケーシ...

...

兵馬俑は「Subject Three」を演奏したが、これは予想外のことだった

ご家族の皆さん、世界中で人気の魔法のダンス「Subject Three」、まさか兵馬俑も踊り始めると...

2024 年に AI は他に何ができるでしょうか?これらの10のトレンドは注目すべきである

正月休みが終わり、心身ともに仕事に復帰できましたか?新年を迎え、私のように、お金を稼ぐために働きたい...

世界を支配するマスターアルゴリズムは存在するのでしょうか?

[[159157]]アルゴリズムは私たちの生活にますます影響を与えています。しかし、ほとんどの場合...

インテリジェントロボット:ハイエンド製造レベルの重要な指標

[51CTO.com からのオリジナル記事] ロボット製造は現在、知能ロボットの時代である 2.0 ...

人工知能はモバイルインターネットデバイスを変えようとしている

安価な高速インターネット、安全なクラウド ストレージ、モバイル ソリューション、低コストのデバイスの...

...

ザッカーバーグの45分間の詳細なインタビュー:今後10年間のVRと脳コンピューターインターフェースへの野望を明らかにする

[[386531]]誰もそこに頭を突っ込みたくないよ!ザッカーバーグ氏は脳コンピューターインターフェ...

5Gネットワ​​ーク構築80%:5Gロボットが新たな転換点を迎えようとしている

最近、CCTVニュースによると、中国は2月末までに計画通り5Gネットワ​​ーク構築の80%を完了した...

アンドリュー・ン:AIはビッグデータから「スモールデータ」に移行する時が来た

AI界の巨匠アンドリュー・ン氏が最近、新型コロナウイルスの検査で陽性反応を示し、多くのネットユーザー...

テンセントのロボット犬が本物の犬の仕事を奪う!彼は楽しくゲームをしたり、歩き回ったりすることができます。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AIストレージプラットフォームが機械学習とデータ分析のニーズを満たす方法

機械学習と AI タスクの実行方法や環境内でのデータの収集方法に応じて、組織はどの AI ストレージ...

...

ハーバード大学とMITが協力し、新型コロナウイルスに遭遇すると自動的に光るスマートマスクを開発

[[326611]] 「新型コロナウイルスにさらされると、マスクが自動的に点灯し、検査員に警告を発し...