2Dが3Dになり、視野角を自由に変更でき、高精細な立体感が完璧に復元されます

2Dが3Dになり、視野角を自由に変更でき、高精細な立体感が完璧に復元されます

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

この迫力ある恐竜の化石の写真を見ると、きっとビデオで撮影したんだと思うでしょう?

しかし、真実は、それは完全に静止画像によって生成されたものです。

そうです、 3Dモデリングも必要ありません

これはカリフォルニア大学バークレー校とGoogleによる最新の研究であるNeRFであり、少数の静止画像を入力するだけで、複数の視点からのリアルな3D効果を実現できる。

この研究のコードとデータもオープンソースになっていることにも注目すべきです。

アイデアがあれば、ぜひ試してみてください。

静止画像、合成されたリアルな3D効果

まず、合成データセットに対する NeRF の効果を見てみましょう。

生成されたオブジェクトは、どの角度で回転しても、照明、影、さらにはオブジェクトの表面の詳細まで非常にリアルであることがわかります。

それは、ビデオ機器を持って、オブジェクトの周囲のビデオを録画するようなものです。

諺にあるように、比較しなければ害はありません。以下は、NeRF の効果と SRN、LLFF、Neural Volumes の効果の比較です。

比較に使用した 3 つの方法が、角度によって多少ぼやけていることは容易にわかります。

NeRFは死角のない360度高精細効果を実現したといえる。

次は NeRF の視点依存の結果です。

カメラの視点を固定し、照会された視線方向を変更することで、視点に依存する外観エンコーディングが NeRF 表現で視覚化されます。

NeRF は、複雑な遮蔽があるシーン内の詳細なジオメトリも表示できます。

実際のシーンに仮想オブジェクトを挿入することもでき、「近くでは大きく、遠くでは小さく」やオクルージョンなどの効果もリアルに再現できます。

もちろん、360度でリアルなシーンを撮影することも可能です。

神経放射場法

このような優れた効果はどのようにして達成されるのでしょうか?

1 つ目は、位置と視線方向で構成される連続 5D 座標によって定義されるベクトル関数としてシーンのボリューム表現を最適化することです。具体的には、5D 座標がカメラ光線に沿ってサンプリングされ、画像が合成されます。

このようなシーン表現は、完全に接続されたディープ ネットワーク (MLP) にパラメータ化され、5D 座標情報を通じて対応する色とボリューム密度の値が出力されます。

これらの値は、ボリュームレンダリング技術を使用して RGB 画像に合成されます。

レンダリング関数は微分可能であるため、合成画像と実画像間の残差を最小化することでシーン表現を最適化できます。

MLP は 8 つの完全接続層 (ReLU アクティベーション、層あたり 256 チャネル) を使用して入力を処理し、σ と 256 次元の特徴ベクトルを出力することに注意することが重要です。この特徴ベクトルはカメラビューと連結され、さらに 4 つの完全接続レイヤー (ReLU アクティベーション、各 128 チャネル) を通過して、視点に依存する RGB カラーを出力します。

NeRF による RGB カラー出力も、空間位置 x と視線方向 d の 5D 関数です。

これを実行することの利点は比較を通じてわかります。視点の相関関係が削除されると、モデルは鏡面反射を再現できなくなることがわかります。位置エンコーディングが削除されると、モデルの高周波幾何学的テクスチャを表現する能力が大幅に低下し、レンダリングされた外観が過度に滑らかになります。

さらに、研究者らは高解像度の複雑なシーンに対して 2 つの側面で改良を加えました。

まず、入力座標の位置エンコードは、 MLP が高周波関数を表現するのに役立ちます。

2つ目は層別抽出法です。高周波表現をより効率的にサンプリングするために使用されます。

GitHub コードのオープンソース

現在、NeRF プロジェクトのコードは GitHub でオープンソース化されています。

コードは主に Python 3 に基づいています。準備する必要があるライブラリとフレームワークには、TensorFlow 1.15、matplotlib、numpy、imageio、configargparse などがあります。

NeRFの最適化

研究者らによると、NeRF の最適化は 1 つの GPU だけで実行でき、数時間から 1 日か 2 日 (解像度によって異なります) かかるとのことです。

最適化された NeRF から画像をレンダリングするには、約 1 ~ 30 秒しかかかりません。

次のコードを実行して、Lego データセットと LLFF Fern データセットを生成します。

  1. bash ダウンロード_example_data.sh

低解像度の Fern NeRF を最適化するには:

  1. Python の run_nerf.py --config config_fern.txt

200 回の反復後、次の結果が得られます。

低解像度の Lego NeRF を最適化するには:

  1. python run_nerf.py --config config_lego.txt

200 回の反復後、次の結果が得られます。

レンダリングを開始

次のコードを実行して、Fern データセットの事前トレーニング済みの高解像度 NeRF を取得します。

  1. bash ダウンロード_example_weights.sh

レンダリング コードは render_demo.ipynb にあります。

あるいは、次のように NeRF をグリッドに変換することもできます。

具体的な例は extract_mesh.ipynb にあります。 PyMCubes、trimesh、pyrender パッケージも準備する必要があります。

著者について: 3人の若い才能

この論文の研究チームは、カリフォルニア大学バークレー校、Google Research、カリフォルニア大学サンディエゴ校から構成されています。

共著者は3人います。

ベン・ミルデンホールはスタンフォード大学を卒業し、学士号を取得しました。現在は、バークレー校の電気工学およびコンピューターサイエンス学部 (EECS) の助教授であるレン・ン氏の指導の下、博士課程に在籍しています。コンピュータービジョンとグラフィックスの研究に専念しています。

[[321798]]

Pratul P. Srinivasan 氏は、Yiren Wu 氏と Ravi Ramamoorthi 氏の指導の下、バークレー大学で電気電子工学の博士課程に在籍しています。

[[321799]]

マシュー・タンシックは、前 2 人の著者の同級生で、MIT で学士号と修士号を取得しました。彼はコンピューターイメージングとコンピュータービジョンの研究に注力しているほか、写真愛好家でもあります。

最適化は 1 つの GPU だけで完了し、最適化後のレンダリングには 1 ~ 30 秒しかかかりません。非常に便利で効率的なプロジェクトですので、今すぐ試してみませんか?

もう一つ

最後に、この分野における興味深い研究を紹介したいと思います。

NeRF は確かに強力ですが、入力としてさらに多くの写真が必要です...

では、たった 1 枚の写真で3D 効果を生み出す方法はあるのでしょうか?

ただ尋ねれば、手に入ります。

以前、Adobe のインターンは、1 つの 2D 画像を数秒で 3D に変換できるインテリジェントな被写界深度アルゴリズムを提案しました。

効果を実感してみましょう。

超大作映画のような雰囲気もあります。

最近、台湾の国立清華大学の研究者らが古い写真を3D画像に変換する新しい方法を考案し、その論文がCVPR 2020に選出されました。

女神オードリー・ヘプバーン、ピカソ、マーク・トウェインを見てください。

今後は写真を振って見るのがより楽しくなりそうな気がします。

「月面着陸」と「宇宙飛行士と握手する人々」の写真の肉眼3D効果を見てみましょう。

かなり没入感があります。

先ほど紹介した Adob​​e アルゴリズム (背景にリンクを追加) と同様に、この 3D 画像の階層化深度修復テクノロジのコア アルゴリズムもコンテキスト認識修復に関連しています。

レイヤー化された深度画像 (LDI) が初期化され、前景と背景の輪郭を形成するようにカットされ、その後、エッジの背景ピクセルのみが修復されます。エッジの「既知」側からローカル コンテキスト領域が抽出され、「未知」側に合成領域が生成されます (下の図 c を参照)。

そういえば、この技術の成熟は、3D モデリングの経験がない個人のビデオ制作者、ゲーム開発者、アニメーション会社にとって「朗報」と言えるでしょう。

AIテクノロジーにより、3D効果の実現がさらに簡素化されるため、Facebook、Adobe、Microsoftなどの企業がこの分野の研究に投資しています。

最後に、このプロジェクトのコードもオープンソースです...

原稿を書き終える前に、長い間「お蔵入り」していた写真シリーズを準備して、試しに撮ってみました。

これは私が最近見た中で最もクールな 3D 画像のブレークスルーでもあります。

もっとかっこいいものがあれば、ぜひメッセージを残してシェアしてください~~

ポータル

プロジェクトのホームページ: http://www.matthewtancik.com/nerfhttps://shihmengli.github.io/3D-Photo-Inpainting/

GitHub アドレス: https://github.com/bmild/nerf https://github.com/vt-vl-lab/3d-photo-inpainting

<<:  モデルはわずか7M:軽量で高精度な顔認識方式DBFace

>>:  AI + コンサルティング: データ サイエンティストはコンサルタントになるか?

ブログ    
ブログ    

推薦する

トレーニングは不要、自動的にスケーラブルなビジュアルトランスフォーマーが登場

現在、ビジョントランスフォーマー (ViT) の分野には 2 つの大きな問題点があります。1. Vi...

...

...

米空軍、戦闘機で人工知能をテスト

人工知能は戦闘機を効果的に操縦できるのか?米空軍は、コードネームXQ-58ヴァルキリーという実験機で...

このAI商用リストをお見逃しなく: 生産上の問題はアプリケーションによって解決されるかもしれません

[[219776]]リアム・ヘーネル編纂者:趙怡雲、江宝尚、銭天培人工知能があらゆる分野に浸透してい...

Appleは、インダストリー4.0の発展を加速するために韓国で初の中小企業スマート製造フォーラムを開催した。

Appleの技術と製品は現在、製造業で広く利用されています。同社は最近、アジア太平洋地域の製造チェ...

LLM ウィザード、コードの事前トレーニングは魔法の杖です! UIUC中国チームがコードデータの3つの利点を明らかに

大規模モデルの時代における言語モデル (LLM) は、サイズが大きくなるだけでなく、トレーニング デ...

...

ディープラーニングの「記憶喪失」に応えて、科学者たちは類似性に基づく重み付けインターリーブ学習を提案し、PNASに掲載された。

人間とは異なり、人工ニューラル ネットワークは新しいことを学習するときに以前に学習した情報をすぐに忘...

...

...

2020 年の最後の 1 か月間に発生した 1,694 件の AI インシデントを包括的にレビューします。ハイライトは何ですか?

今月、ニュースイベント分析、マイニング、検索システム NewsMiner のデータによると、図 1 ...

企業向けの優れたビジネス インテリジェンス ツール 10 選

規模に関係なく、企業はニーズに合わせてカスタマイズされたビジネス インテリジェンス ツールを使用して...

産業用拡張現実(AR)は、機器のメンテナンス、現場サービス、従業員のトレーニングを容易にします。

拡張現実技術の可能性は、小売、エンターテインメント、教育などのクリエイティブ産業を超えて広がります。...

...