フィギュアを買う余裕がないなら、AI を使ってレンダリングしましょう!インターネット上の画像を検索して合成することができます

フィギュアを買う余裕がないなら、AI を使ってレンダリングしましょう!インターネット上の画像を検索して合成することができます

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

髪の毛や皮膚のしわを細かく表現した 3D ドラゴンボール フィギュアをレンダリングするのはどれくらい複雑ですか?

クラシックモデル NeRF の場合、同じカメラで特定の距離から撮影したフィギュアの写真が少なくとも100 枚必要です。

しかし今では、新しい AI モデルでは、図全体をレンダリングするために、あらゆるソースからのオンライン画像40 枚のみが必要です。

これらの写真には、撮影角度、距離、明るさの要件はありませんが、復元された写真は鮮明でアーティファクトがありません。

あらゆる角度から材質を推定し、再照明することもできます。

この AI モデルはNeROICと呼ばれ、南カリフォルニア大学と Snap チームによって開発された新しい技術です。

これを見たネットユーザーの中には大喜びする人もいた。

さまざまな角度からの写真から 3D モデルをレンダリングし、写真だけでムービーを作成することもできます...

一部のネットユーザーは、 NFT (手動犬の頭)に投機する機会も得ました。

では、NeROIC はどのようにして 2D 入力からオブジェクトの 3D 形状とプロパティを取得するのでしょうか?

材料の照明を予測する改良されたNeRF

このモデルを紹介する前に、NeRF について簡単に確認する必要があります。

NeRF は、5D ベクトル関数を使用して連続シーンを表現する、ニューラル放射輝度フィールドと呼ばれる手法を提案しました。この手法では、5 つのパラメータを使用して空間点の座標位置 (x、y、z) と視線方向 (θ、φ) を表します。

しかし、NeRF にはいくつか問題があります。

  • 入力画像には高い要件があり、同じシーンで撮影されたオブジェクトの写真である必要があります。
  • オブジェクトの材質特性を予測することは不可能なので、レンダリングの照明条件を変更することは不可能です。

今回、 NeROIC は次の 2 つの側面で最適化されました。

  • 入力画像のシーンは限定されず、オブジェクトの背景写真やオンライン画像でもかまいません。
  • マテリアル特性を予測し、レンダリング中にオブジェクトの表面の照明効果を変更することができます(照明を適用できます)。

主に深度抽出ネットワーク (a) とレンダリング ネットワーク (c) の 2 つのネットワークで構成されています。

1 つ目は、オブジェクトのさまざまなパラメータを抽出するために使用されるディープ抽出ネットワークです。

無制限の入力シーンを実現するためには、まず AI にさまざまな背景から画像を切り取ることを学習させる必要があります。しかし、AI はカメラの位置を正確に推定できないため、切り取られた画像には常に次のようなアーティファクトが存在します (左)。

そのため、ディープ抽出ネットワークではカメラパラメータを導入し、AIがカメラの位置を推定する方法、つまり写真に写っているネットユーザーがどの角度から撮影され、どのくらい離れているかを推定する方法を学習できるようにして、切り抜かれた写真が実際の効果に近くなるようにしています(GT)。

同時に、重要な詳細を保持しながら幾何学的ノイズの影響を排除するために、表面法線を推定する新しいアルゴリズムが設計されました (法線はモデルの表面上のテクスチャであり、光の条件によって変化し、照明のレンダリングに影響します)。

最後のステップはレンダリング ネットワークです。これは抽出されたパラメータを使用して 3D オブジェクト効果をレンダリングします

具体的には、この論文では、色予測、ニューラル ネットワーク、パラメトリック モデルを組み合わせて色を計算し、最終的な法線を予測する方法を提案しています。

このうち、NeROICの実装フレームワークはPyTorchで構築され、トレーニングには4枚のNVIDIA Tesla V100グラフィックカードが使用されました。

トレーニング中、深度抽出ネットワークの実行には 6 ~ 13 時間かかり、レンダリング ネットワークの実行には 2 ~ 4 時間かかります。

ウェブ画像を使用して3Dモデルをレンダリングする

NeROIC のトレーニングに使用されるデータセットは、主に次の 3 つの部分で構成されています。

画像はインターネット(一部の商品はAmazonやTaobaoなどのオンラインショッピングプラットフォームから)、NeRD、および著者自身の写真(牛乳、テレビ、モデル)から取得されています。平均して、オブジェクトごとに40枚の写真が収集されます。

それで、このモデルはどれほど効果的でしょうか?

この論文ではまず、NeROIC と NeRF を比較します。

直感的な観点から見ると、オブジェクトのレンダリングの詳細明瞭さの点で、NeROIC は NeRF よりも優れています。

具体的には、ピーク信号対雑音比 (PSNR) と構造類似性 (SSIM) の点では、ディープ抽出ネットワークの「カットアウト」テクノロジは非常に優れており、NeRF よりも優れています。

同時に、この論文ではレンダリング モデルの効果をより多くのシーンでテストし、アーティファクトは発生しないことが判明しました。

また、新しい角度や再照明効果も作成されます。たとえば、これは屋外のシーンです。

屋内シーンの照明には別の効果もあります。

著者らは、NeRF と NeROIC のトレーニングに写真の数を 20 枚、さらには 10 枚に減らすことも試みました。

結果は、データ セットが不十分な場合でも、NeROIC が NeRF よりも優れたパフォーマンスを発揮することを示しています。

しかし、一部のネットユーザーは、作者がガラスや半透明の素材のレンダリング効果を提供していないと述べた。

AI にとって、透明または半透明のオブジェクトを再構築することは、確かに比較的複雑なタスクです。コードがリリースされたら、その効果を試すことができます。

作者によると、コードはまだ準備中とのこと。ネットユーザーたちは「トップ会議か演説後に発表されるかもしれない」と冗談を飛ばした。

第一著者 清華大学卒業生

論文の筆頭著者であるKuang Zhengfei氏は現在、南カリフォルニア大学の博士課程の学生であり、彼の指導教官はコンピューターグラフィックスの分野で著名な中国人教授Li Hao氏である。

彼は清華大学コンピュータサイエンス学部を卒業し、胡世民教授のコンピュータグラフィックスチームで研究助手として働いていました。

この記事は彼が Snap でインターンシップをしていたときに書かれたもので、他の著者もすべて Snap チームのメンバーです。

将来的には、自宅で VR クラウドを試すには、ネットユーザーからの「販売ショー」がいくつか必要になるかもしれません。

論文の宛先:

https://arxiv.org/abs/2201.02533

プロジェクトアドレス:

https://formyfamily.github.io/NeROIC/

<<:  自然の中でショウジョウバエがVRをプレイし、注意メカニズムとワーキングメモリを発見

>>:  ディープラーニングモデルアーキテクチャを視覚化する6つの一般的な方法の概要

推薦する

...

ディープラーニングをもっと有効活用するにはどうすればいいでしょうか?

企業向けにディープラーニングを実装する前に、ビジネスリーダーがこの画期的なテクノロジーの機能と特徴...

ビジュアルTransformer BERTの事前トレーニングのための新しい方法:USTC、MSRAなどが提案したPeCo

[[438709]]大規模なコーパスでトレーニングされた Transformer モデルは、自然言...

清華大学と中国気象局の大規模モデルがネイチャー誌に掲載:世界レベルの問題を解決、「幽霊天気」の予報時間が初めて3時間に到達

本当に「雨の日」に備えるために、清華大学の「幽霊天気」予報モデルが登場しました!世界の未解決の問題を...

ハッカーがテスラの自動運転システムの「隠しモード」を解除

最近開催されたカオスコンピューティングカンファレンスで、ベルリン工科大学のサイバーセキュリティ研究者...

スマートカーのステアバイワイヤ技術の詳細な説明

電動化とインテリジェント化という2つの大きな発展の流れの下、わが国は機能車からスマート車への転換点に...

...

私たちの重要なインフラは人工知能に対応できるでしょうか?

ChatGPT を楽しみや機能のために使用する個人から、タスクの自動化に人工知能 (AI) を適用...

自己一貫性を利用して大規模モデルの推論能力を向上させたGoogleは、ベンチマークの数学問題の75%を解決しました。これはGPT-3よりも20%高い数値です。

言語モデルはさまざまな NLP タスクで目覚ましい成功を収めていますが、その推論能力は不十分な場合が...

会話型AI: パンデミック時代の最先端技術

パンデミックの発生により、世界中の労働システムが危険にさらされています。コンタクト センターの従業員...

金融業界における人工知能の革新的な応用トップ 10

[[438117]]人工知能は、よりスマートで、より便利で、より安全な方法でお金を投資、アクセス、...

透明な AI の出現は、あなたのあらゆる行動が他人の目に留まることを意味します。

6月14日の英国デイリーメール紙によると、透視型の人工知能(AI)の開発に成功し、近々公開される予...

自動運転における車線逸脱警報システムの技術サポート

無人運転技術にはまだ改善の余地があるものの、ますます成熟しつつあることは認めざるを得ません。車線逸脱...

AIシステムが初めて自律プログラミングを実現し、初心者プログラマーを上回る成果を達成!

AI による自動プログラミングを可能にすることは、人工知能分野における長年の夢の 1 つです。現在...

なぜ人工知能は高度な数学を解くことができるのでしょうか?

まずは大学院入試から始めましょう。大学院入試の重要性は大学入試の重要性に匹敵します。数字で言うと、2...