オブジェクトの明るさが色やビューに大きく依存する多くの没入型 VR/AR アプリケーションでは、ぼやけた複雑なオブジェクトの非常にリアルなモデリングとレンダリングが非常に重要です。この論文では、上海科技大学の研究者らが、畳み込みニューラル レンダラーを使用して、ぼやけたオブジェクトの不透明度放射輝度フィールドを生成する新しい方式を提案しました。これは、明示的な不透明度監視と畳み込みメカニズムをニューラル放射輝度フィールド フレームワークに組み合わせて、高品質の外観を実現し、任意の新しい視点でグローバルに一貫したアルファ マスクを生成する最初の方式です。 具体的には、この研究では、カメラ光線と画像平面に沿った効率的なサンプリング戦略を提案し、パッチ単位での効率的な放射フィールドのサンプリングと学習を可能にします。同時に、この研究では、パッチごとにハイブリッドな特徴埋め込みを生成し、ビューに一貫性のあるきめ細かい外観と不透明な出力を再構築する、新しいボリューム特徴統合スキームも提案しました。 さらに、本研究では、自己教師ありフレームワークで高周波の外観と不透明な詳細を同時に保存するために、パッチ単位の敵対的トレーニングスキームをさらに採用しています。この研究では、困難なぼやけたターゲットの高品質のカラーマップとアルファマップをキャプチャするための効率的なマルチビュー画像キャプチャシステムも提案されました。既存のデータセットと、難しいぼやけたオブジェクトを含む新しいデータセットに対する広範な実験により、本研究で提案された新しい方法により、さまざまなぼやけたオブジェクトに対して、非常にリアルで、全体的に一貫性があり、見栄えの良い不透明なフリービュー レンダリングを実現できることが示されました。 論文アドレス: https://arxiv.org/abs/2104.01772 この研究の主な貢献は次のとおりです。
方法論フレームワーク論文では、研究者らは新たに提案された畳み込みニューラル不透明度放射場(ConvNeRF)を詳しく紹介した。このモデルはキャプチャ システムの RGBA 入力に基づいており、次の図に示すように、新しいビューで非常にリアルで全体的に一貫した外観と不透明度のレンダリングを実現できます。 エンドツーエンドのConvNeRFパイプラインの概要 マルチビュー RGBA 画像が与えられた場合、効率的なレイ サンプリングのために SFS (Shape-From-Silhouette) を使用してプロキシ ジオメトリを推測します。ボリューム空間内の各サンプル ポイントの位置と方向が、多層パーセプトロン (MLP) ベースの特徴予測ネットワークに入力され、オブジェクトをグローバル レベルで特徴付けます。次に、近くの光線をローカル フィーチャ パッチにマージし、畳み込みボリューム レンダラーを使用して RGB とマスクにデコードします。彼らは、最終出力に敵対的トレーニング戦略を使用して、細かい表面の詳細を促進します。参照フェーズでは、各パッチをレンダリングするのではなく、イメージ全体を一度にレンダリングします。 この方法の主なアイデアは、空間畳み込みメカニズムを使用して不透明な情報を明示的にエンコードし、Neural Radiance Field メソッド (NeRF) を改良して高周波の詳細をモデル化することです。研究者たちは、NeRF にヒントを得て、同様の暗黙的なニューラル放射フィールドを採用し、多層パーセプトロンを使用してシーンを表現し、キャスト光線の方向に沿って予測された密度と色の値を体積積分しました。 一方、ConvNeRF は空間畳み込み設計によって不透明度をさらに明示的にエンコードし、神経放射フィールドの再構成を大幅に改善します。この目的のために、研究者らはまず、カメラ光線に沿った事前の固有輪郭を利用するだけでなく、画像平面全体の空間情報をエンコードする効率的なサンプリング戦略を提案しました。次に、グローバルな幾何学的表現を使用して 3D 位置を高レベルの輝度特徴にマッピングし、外観と不透明度の機能を個別にモデル化する新しいボリューム融合スキームを通じてパッチごとのハイブリッド機能埋め込みを生成し、パッチ単位でより効率的な輝度フィールド学習を実現します。 最後に、軽量の U-Net を使用して特徴パッチをビュー一貫性のある外観と不透明度の出力にデコードし、さらにパッチ単位の敵対的トレーニング スキームを採用して、自己教師ありフレームワークで高頻度の外観と不透明度の詳細を保持します。 キャプチャシステムこの研究で使用されたキャプチャ システムは、難しいぼやけたオブジェクトの明示的な不透明度モデリングのための高品質のマルチビュー RGBA 画像を生成できます。 下のキャプチャシステム概要図に示すように、この方法のパイプラインには、使いやすいキャプチャデバイスと安定した検証および自動カットアウト方法が備わっています。 実験結果この研究では、さまざまな毛皮の物体に対して ConvNeRF を評価しました。定量的および定性的な評価実験の結果は、私たちの方法が、以前の研究と比較して、高忠実度の外観の詳細をよりよく保持し、あらゆる新しいビューで全体的に一貫したアルファマスクを生成できることを示しています。この研究ではさらに、この方法の設計上の選択を検証するためにアブレーション実験を実施しました。 下の図 6 に示すように、研究者は Cat、Girl、Wolf データセットでこの手法を IBOH、NOPC、NeRF の自由視点 RGB と比較しました。この手法では、幾何学的な全体ビューの一貫性を保ちながら、猫の毛皮の質感、少女のブーツの模様、オオカミの毛皮の幾何学的詳細など、幾何学と外観の細かい詳細を再構築できることがわかった。 IBOH ではゴーストとエイリアシングが発生し、NOPC では過度のぼやけと幾何学的詳細の損失が発生し、NeRF では過度のノイズとぼやけが発生します。 下の図 7 は、Cat および Hairstyle 2 データセットにおけるこの方法の自由視点アルファ効果と IBOH、NOPC、および NeRF の比較を示しています。提案された方法は、最初の行に示すように、猫のひげなどの視線の不一致なアルファ マスクから失われた部分的な不透明度を回復できることがわかりましたが、IBOH では重大なアーティファクトが発生して失敗します。この方法では、髪の毛の周りにひどいアーティファクトを生成する NOPC よりもシャープなアルファ マスクが生成されます。しかし、NeRF は難しい Hairstyle 2 データセットでは失敗します。 定量的評価に関しては、研究者らはPSNR、LPIPS、SSIMを指標として使用し、いくつかの方法を定量的に評価しました。以下の表 1 および 2 に示すように、ConvNeRF は RGB とアルファの両方の結果で大幅なパフォーマンスの向上を実現します。 以下の表 3 は、この方法が SOTA パフォーマンスを達成する半透明 (つまり、0 < α < 1) 領域のすべてのデータセットの平均 PSNR を示しています。 |
>>: 脳をシミュレートする NLP、クヌース賞受賞: 文解析のためのニューロン集団計算
今日、チャットボットは、顧客サービスの向上、業務の効率化、そしてより効果的な顧客との関わりを求める企...
スティーブ・ジョブズの「電話の再発明」は携帯電話を再定義しただけでなく、世界を変え、人類をモバイルイ...
人工知能は未来をリードする戦略的技術であり、産業変革の中核的な原動力であり、経済発展の新たな原動力で...
IHS Markit は、ハードウェアとソフトウェアを含む AI システムの世界的な収益が 202...
さまざまなメーカーが続々と参入し、スマートカー市場はますます熱を帯びています。このような背景から、ス...
ある日、ヘルメットをかぶると、SFのような美しい世界が目の前に浮かび上がるのを想像したことはありませ...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
機械学習コミュニティでは研究の再現性に関する議論が活発化していますが、こうした議論は主に学術的な環境...
UI デザイナーとフロントエンド エンジニアの間にニューラル ネットワークが必要になる場合があります...
8月6日、今年初めから、生成型人工知能への熱狂がテクノロジー業界全体を席巻しているというニュースが...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
著者 | 崔昊レビュー | Chonglouまとめこの記事では、大規模な言語モデルと AI ビデオ生...
日本の収穫期には、農家の中には毎日多くの時間を費やして、農場で収穫したキュウリを種類ごとに仕分けする...