偽3Dシーンがリアルすぎるとネット上で人気に!死角ゼロの1億画素超え、AIレンダリングの新たな高みと称賛

偽3Dシーンがリアルすぎるとネット上で人気に!死角ゼロの1億画素超え、AIレンダリングの新たな高みと称賛

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

[[429616]]

まずは「ビデオ」を見てみましょう。何かおかしいところはありませんか?

実際、これは一連の写真からのレンダリングにすぎません (写真は右下隅で撮影されています)。

生成されるのは単なるビデオではなく、 3D シーン モデルです。高解像度で死角がなく、任意の角度に切り替えることができます。露出やホワイト バランスなどのパラメータを調整して、新しい写真を生成することもできます。

戦車工場などのまったく異なるシナリオでは、一連の写真を使用してリアルな 3D シーンをレンダリングすることもできます。同じ角度は、実際の撮影画像とほぼ「完全に一致」します。

ご存知のとおり、 Apple はこれまでも写真のセットから対象オブジェクトの 3D モデルを生成する機能を開発したことがありますが、それはせいぜい箱などの単一のオブジェクトでした。

今回は全編3Dシーンです!

これはドイツのエアランゲン・ニュルンベルク大学の研究者数名が行ったプロジェクトです。公開されるとすぐに大人気となり、海外のソーシャルメディアでは5,000以上のいいね!と36万回以上の視聴回数を記録しました。

では、このような魔法のような効果はどのようにして生み出されるのでしょうか?

写真を使用して3Dシーングラフ全体を復元する

全体として、本論文では、AI を使用して入力画像を分析し、新しい角度から新しい画像を出力する、ポイントベースの微分可能ニューラル レンダリング パイプラインADOP (近似微分可能 1 ピクセル ポイント レンダリング) を提案しています。

入力時には、3D シーンをモデル化する必要があるため、シーン全体のスパース ポイント クラウド データを取得するには、ここでの写真を厳密に撮影する必要があります。

具体的には、著者らは写真から点群データを取得する際にCOLMAPを使用しました。

まず、各写真の視点を慎重に制御しながら、さまざまな角度からシーンの写真を撮影します。

次に、SfM (Structure From Motion) 法を使用して、カメラの内部および外部パラメータを取得し、シーン全体の 3D 再構築データ、つまりシーン構造を表すスパース ポイント クラウドを取得します。

次に、ポイント クラウドなどの情報を含むシーン データがパイプラインに入力され、さらに処理されます。

パイプラインは主に、微分可能ラスタライザー、ニューラル レンダラー、微分可能トーン マッパーの3 つの部分に分かれています。

まず、マルチ解像度の単一ピクセルラスタライゼーション微分可能レンダラー(微分可能ラスタライザー)を使用して、入力カメラパラメータと再構築されたポイントクラウドデータをスパースニューラルイメージに変換します。

画像とポイント クラウドを位置合わせするモデルの部分は、NavVis データセットを使用してトレーニングされました。

次に、ニューラル レンダラーを使用して影を計算し、スパース ニューラル イメージ内の穴を埋めて HDR 画像を生成します。

最後に、すべてのデバイスが HDR 画像をサポートしているわけではないため、ダイナミック レンジを変更し、HDR 画像を LDR 画像に変換してから LDR デバイスに表示するには、物理​​ベースの微分可能なトーン マッパーが必要です。

トレーニング用にシーンごとに300枚以上の画像

この新しいモデルの利点は何ですか?

モデルのすべての段階は微分可能であるため、このモデルはシーンのすべてのパラメータ(カメラ モデル、カメラのポーズ、ポイントの位置、ポイントの色、環境マップ、レンダリング ネットワークの重み、ビネット、カメラ応答関数、画像ごとの露出、画像ごとのホワイト バランス) を最適化し、それらを使用してより高品質の画像を生成することができます。

特にトレーニングでは、著者はまず 688 枚の写真 (7300 万点のポイントを含む) を使用してこのニューラル レンダリング パイプラインをトレーニングしました。

デモのいくつかのシーン(電車、灯台、遊園地、遊び場など)では、ハイエンドカメラを使用して 300 ~ 350 枚のフル HD 画像を撮影しました。各シーンで生成されたピクセル数はそれぞれ 10M、8M、12M、11M で、画像の 5% がテストに使用されました。

つまり、このような 3D シーンを作成するには、数百枚程度の画像が必要であり、各画像の撮影角度を厳密に制御する必要があります。

しかし、一部の読者は、AI を使用すれば何百枚もの画像を撮影してシーンを作成でき、現在の手動レンダリングよりもはるかに高速であると述べています。

機能面では、調整可能なパラメータで新しい角度から写真を生成するだけでなく、自動的に補間してシーン全体の3Dレンダリングビデオを生成することもできるため、大きな可能性を秘めていると言えます。

それで、このモデルは他の現在のレンダリングと比べてどうでしょうか?

1億ピクセル以上のシーンをリアルタイムで表示

著者らによると、論文で使用されている効率的な単一ピクセルラスタライゼーション方法により、ADOP は任意のカメラモデルを使用して、 1 億ピクセルを超えるシーンをリアルタイムで表示できるようになります。

肉眼で生成された結果から判断すると、最新のモデルで生成された画像には、多かれ少なかれアーティファクトや非現実的な状況がいくつかあるでしょう。対照的に、ADOP は細部を非常にうまく処理します。

データから判断すると、電車、遊び場、戦車、灯台のシーンのいずれであっても、ADOP モデルのレンダリングでは、ほぼすべてが VGG、LPIPS、PSNR で最高の結果を達成できます (戦車のデータを除く)。

しかし、研究自体にはまだいくつかの限界があります。たとえば、単一ピクセルレンダリングでは、ポイントクラウドがまばらな場合にレンダリングに穴が開くなどの問題がまだ残っています。

しかし、全体的に見ると、3Dシーンのリアルタイム表示の効果は依然として抜群であり、多くの業界関係者は「AIレンダリングの新たな高みに到達した」と述べています。

多くのネットユーザーは、映画スタジオの多くの時間と労力を節約するなど、この研究の用途を想像し始めています。

(映画を学ぶ学生の中には、卒業プロジェクトで直接使用したいという人もいます)

ゲーム業界への影響も非常に良好です。

自宅で3Aの傑作を作れるシーンが実現する日が来るのでしょうか?待つのは本当に辛いです。

これをiPhoneで実現できたら素晴らしいだろうと想像する人もいる(すでにiPhone 15を予約注文した人もいる)。

この研究自体に関しては、部外者の視点から、それは補間モデルのようなものだと感じるネットユーザーもいる(ほぼ同じだと答えたネットユーザーもいる)。

また、ネットユーザーの中には、大量の画像が必要だったため、宣伝ほどの効果はなく、研究の可能性について懐疑的な意見もあった。

著者らはすでに GitHub プロジェクトを立ち上げていますが、コードはまだ公開されていません。興味のある学生は待ってみてください。

オープンソース化の具体的な時期については、「トップカンファレンスでの優勝後に公開する予定」と著者らは述べている。 (この論文がトップカンファレンスに無事に収録されることを願っています~)

論文の宛先:
https://arxiv.org/abs/2110.06635

プロジェクトアドレス(コードはまだ投稿されていません):
https://github.com/darglein/ADOP

<<:  ResNet仮説は覆されたか? Redditの人:長年誰もその原理を理解していなかった

>>:  携帯電話の顔認識はどのように機能しますか?理解を助ける記事

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

自動運転のための LiDAR とビジョンフュージョン認識の理解

2022年は、インテリジェント運転がL2からL3/L4に飛躍する絶好のチャンスです。ますます多くの自...

賢い負荷分散アルゴリズム: 頭を使って

負荷分散技術は現在ではどこにでもありますが、基本的にはまだ使用段階であり、その核心は十分に理解されて...

2021年に注目すべき人工知能のトレンド

ワクチン開発からオンラインショッピング、農作物の栽培まで、人工知能技術はますます活用されるようになり...

...

...

...

...

...

...

AI は今後 10 年間で BAT のリセット ボタンとなるでしょうか?

中国の王朝には必ず一つの法則がある。一代か二代で王位は行き詰まりを迎える。漢の時代には呂后の乱、唐の...

教育は新世代の人工知能の発展を積極的に支援すべきである

[[250135]]習近平総書記は中国共産党中央委員会政治局第9回集団学習会で、人工知能は新たな科学...

デジタル変革の本質、道筋、段階、課題を1つの記事で解説

01エンタープライズデジタルトランスフォーメーションの本質デジタル化により、人間が暮らす現実世界と仮...

インテルが第3四半期の財務報告を発表、人工知能と新ファウンドリ事業が注目を集める

半導体メーカーのインテルは本日第3四半期の業績を発表し、同社の株価は時間外取引で約8%上昇した。一方...

...

大規模モデルにAI管理ルールを組み込む時代が到来

中国サイバースペース管理局と他の7つの部門が共同で発行した「生成人工知能サービスの管理に関する暫定措...