この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 バークレーとグーグルが共同で開発したNeRF が登場して以来、静止画像と変化する画像の魔法が世界中で人気を博しています。 ただし、AI を利用してこのような 3D ダイナミック エフェクトの作成を簡素化する場合、計算能力のオーバーヘッドは小さくありません。 NeRF を例にとると、1440×1600 ピクセル、90Hz VR ヘルメットでリアルタイム レンダリングを実現するには、37 ペタフロップス (1 秒あたり 10^15 回の浮動小数点演算) の計算能力が必要ですが、これは現在の GPU では実現不可能です。 計算の複雑さを軽減するにはどうすればよいでしょうか? 現在、オーストリアのグラーツ工科大学とFacebookの研究者らが、実際の深度情報を導入するという解決策を考案した。 このように、非常に迅速に推論コストを最大48 倍削減し、1 つの GPU だけで 20 フレーム/秒のインタラクティブ レンダリングを実現できます。 画像の品質はまったく影響を受けません。さらに改善することもできます。 具体的なトリックについては以下で引き続き説明しましょう。 ディープオラクルネットワークに基づくNeRFまず、NeRF (ニューラル放射場法) は、カメラ光線に沿って 5D 座標をサンプリングすることで画像合成を実現することに留意する必要があります。 つまり、NeRF のレンダリング プロセスでは、各レイをネットワーク内で評価して、色やボリューム密度値などの対応する情報を出力する必要があります。 これが、NeRF がリアルタイム レンダリング アプリケーションでは高価すぎる主な理由です。 現在、グラーツ工科大学と Facebook の研究者は、真の深度情報を導入し、物体の表面の周囲の重要なサンプルのみを考慮することで、画質に影響を与えることなく、各ビューレイに必要なサンプル数を大幅に削減できることを発見しました。 これを基に彼らはDONeRFを提案した。 DONeRF は 2 つのネットワークで構成されています。そのうちの 1 つであるSampling Oracle Network は、分類方法を使用して、ビュー レイに沿った最適なサンプリング位置を予測します。 具体的には、このディープ オラクル ネットワークは、光線に沿った空間を離散化し、光線に沿ったサンプリング確率を予測することで、各光線上の複数の潜在的なサンプリング オブジェクトを予測します。 下の図に示すように、3 つのカラー チャネルは、光線に沿った 3 つの最も高いサンプリング確率をエンコードします。グレースケール値は、サンプリングする必要があるサーフェスが 1 つだけである可能性があることを示し、カラー値は、これらのサンプルを深さ方向に分散させる必要があることを示します。 2 番目に、NeRF に似たレイ マーチングと累積方法を使用して RGBA 出力を提供するシェーディング ネットワークがあります。 入力の曖昧さを排除するために、研究者らは光線を均一な空間に変換し、非線形サンプリングを使用して近接領域をトレースしました。 さらに、研究者らは、2 つのネットワーク間でローカル サンプリングを歪め、カラー化ネットワークの高頻度予測が前景に導かれるようにしました。 この記事では、ビュー セルの概念についても紹介します。ビュー ユニットは、主方向と最大視野角を持つ境界ボックスとして定義されます。 簡単に言えば、この境界ボックスは、ボックス内から発生し、特定の回転範囲にあるすべてのビュー レイをキャプチャします。 この方法を使用すると、大きなシーンをセグメント化できるため、NeRF を大きなシーンに適用できないという問題が解決されます。 さらに、ビュー セルが小さくなると、シーン内の表示コンテンツが減るため、画像品質がさらに向上する可能性があります。 比較結果それで、DONeRF は前身の NeRF と比べてどれくらい高速なのでしょうか? 比較結果を直接見てみましょう。 NeRF は、同様の品質で合計 256 個のサンプルを使用します。 DONeRF は 4 つのサンプルのみを使用し、速度を 20 ~ 48 倍向上させることができます。 また、画像の詳細に関して言えば、DONeRF の画像のエッジはより鮮明です。 研究者らはまた、16サンプルでは、ピーク信号対雑音比(PSNR)の点でほぼすべてのシナリオにおいてDONeRFがNeRFを上回っていると指摘した。 ポータル論文の宛先: プロジェクトアドレス: |
<<: CNNを称賛するのはやめろ。類似点と相違点さえ区別できない
>>: GitHub はオープンソース コミュニティをイライラさせます!非フリーの Copilot はコピー方法しか知りません?我慢できない
[[348074]]自動運転車でディープラーニングを使用すると、歩行者の行動を理解したり、最短ルー...
ゲスト | 王 燕著者 | ユン・チャオコラム紹介: 「T最前線」は、51CTOコンテンツセンターが...
[[410843]] 7月9日、2021年世界人工知能大会の期間中に開催された「新世代人工知能コンピ...
予測分析モデルが改良されるにつれ、この分野のイノベーターたちは、これまで断片化されていて使用コストが...
現在、あらゆる分野で革新的なテクノロジーを活用して産業のアップグレードを加速する方法が模索されており...
8月6日、今年初めから、生成型人工知能への熱狂がテクノロジー業界全体を席巻しているというニュースが...
[[409544]] 2021年5月初旬、イスラエルに住むパレスチナ人とイスラエル警察の間で激しい衝...
ICLR 2022の授賞式を利用して、MIT、コーネル、Google、Microsoftが新しいSO...
Newbing を使い始めてから、CHATGPT 3.5 を諦めました。昨日記事を書いた後、Chat...
ニューラル アーキテクチャ検索は、常に高い計算能力の代表例と考えられてきました。微分可能アーキテクチ...
ビッグデータダイジェスト制作著者: カレブ空には太陽が輝き、花々は私に微笑みかけ、鳥たちは「おはよう...
顔認識は、一般的に肖像認識または顔認識とも呼ばれ、顔の特徴に基づいて人物を識別する生体認証技術です。...