偽3Dシーンがリアルすぎるとネット上で人気に！死角ゼロの1億画素超え、AIレンダリングの新たな高みと称賛

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

[[429616]]

まずは「ビデオ」を見てみましょう。何かおかしいところはありませんか?

実際、これは一連の写真からのレンダリングにすぎません (写真は右下隅で撮影されています)。

生成されるのは単なるビデオではなく、 3D シーンモデルです。高解像度で死角がなく、任意の角度に切り替えることができます。露出やホワイトバランスなどのパラメータを調整して、新しい写真を生成することもできます。

戦車工場などのまったく異なるシナリオでは、一連の写真を使用してリアルな 3D シーンをレンダリングすることもできます。同じ角度は、実際の撮影画像とほぼ「完全に一致」します。

ご存知のとおり、 Apple はこれまでも写真のセットから対象オブジェクトの 3D モデルを生成する機能を開発したことがありますが、それはせいぜい箱などの単一のオブジェクトでした。

今回は全編3Dシーンです！

これはドイツのエアランゲン・ニュルンベルク大学の研究者数名が行ったプロジェクトです。公開されるとすぐに大人気となり、海外のソーシャルメディアでは5,000件以上のいいね！と36万回以上の視聴回数を記録しました。

では、このような魔法のような効果はどのようにして生み出されるのでしょうか?

写真を使用して3Dシーングラフ全体を復元する

全体として、本論文では、AI を使用して入力画像を分析し、新しい角度から新しい画像を出力する、ポイントベースの微分可能ニューラルレンダリングパイプラインADOP (近似微分可能 1 ピクセルポイントレンダリング) を提案しています。

入力時には、3D シーンをモデル化する必要があるため、シーン全体のスパースポイントクラウドデータを取得するには、ここでの写真を厳密に撮影する必要があります。

具体的には、著者らは写真から点群データを取得する際にCOLMAPを使用しました。

まず、各写真の視点を慎重に制御しながら、さまざまな角度からシーンの写真を撮影します。

次に、SfM (Structure From Motion) 法を使用して、カメラの内部および外部パラメータを取得し、シーン全体の 3D 再構築データ、つまりシーン構造を表すスパースポイントクラウドを取得します。

次に、ポイントクラウドなどの情報を含むシーンデータがパイプラインに入力され、さらに処理されます。

パイプラインは主に、微分可能ラスタライザー、ニューラルレンダラー、微分可能トーンマッパーの3 つの部分に分かれています。

まず、マルチ解像度の単一ピクセルラスタライゼーション微分可能レンダラー（微分可能ラスタライザー）を使用して、入力カメラパラメータと再構築されたポイントクラウドデータをスパースニューラルイメージに変換します。

画像とポイントクラウドを位置合わせするモデルの部分は、NavVis データセットを使用してトレーニングされました。

次に、ニューラルレンダラーを使用して影を計算し、スパースニューラルイメージ内の穴を埋めて HDR 画像を生成します。

最後に、すべてのデバイスが HDR 画像をサポートしているわけではないため、ダイナミックレンジを変更し、HDR 画像を LDR 画像に変換してから LDR デバイスに表示するには、物理ベースの微分可能なトーンマッパーが必要です。

トレーニング用にシーンごとに300枚以上の画像

この新しいモデルの利点は何ですか?

モデルのすべての段階は微分可能であるため、このモデルはシーンのすべてのパラメータ(カメラモデル、カメラのポーズ、ポイントの位置、ポイントの色、環境マップ、レンダリングネットワークの重み、ビネット、カメラ応答関数、画像ごとの露出、画像ごとのホワイトバランス) を最適化し、それらを使用してより高品質の画像を生成することができます。

特にトレーニングでは、著者はまず 688 枚の写真 (7300 万点のポイントを含む) を使用してこのニューラルレンダリングパイプラインをトレーニングしました。

デモのいくつかのシーン（電車、灯台、遊園地、遊び場など）では、ハイエンドカメラを使用して 300 ～ 350 枚のフル HD 画像を撮影しました。各シーンで生成されたピクセル数はそれぞれ 10M、8M、12M、11M で、画像の 5% がテストに使用されました。

つまり、このような 3D シーンを作成するには、数百枚程度の画像が必要であり、各画像の撮影角度を厳密に制御する必要があります。

しかし、一部の読者は、AI を使用すれば何百枚もの画像を撮影してシーンを作成でき、現在の手動レンダリングよりもはるかに高速であると述べています。

機能面では、調整可能なパラメータで新しい角度から写真を生成するだけでなく、自動的に補間してシーン全体の3Dレンダリングビデオを生成することもできるため、大きな可能性を秘めていると言えます。

それで、このモデルは他の現在のレンダリングと比べてどうでしょうか?

1億ピクセル以上のシーンをリアルタイムで表示

著者らによると、論文で使用されている効率的な単一ピクセルラスタライゼーション方法により、ADOP は任意のカメラモデルを使用して、 1 億ピクセルを超えるシーンをリアルタイムで表示できるようになります。

肉眼で生成された結果から判断すると、最新のモデルで生成された画像には、多かれ少なかれアーティファクトや非現実的な状況がいくつかあるでしょう。対照的に、ADOP は細部を非常にうまく処理します。

データから判断すると、電車、遊び場、戦車、灯台のシーンのいずれであっても、ADOP モデルのレンダリングでは、ほぼすべてが VGG、LPIPS、PSNR で最高の結果を達成できます (戦車のデータを除く)。

しかし、研究自体にはまだいくつかの限界があります。たとえば、単一ピクセルレンダリングでは、ポイントクラウドがまばらな場合にレンダリングに穴が開くなどの問題がまだ残っています。

しかし、全体的に見ると、3Dシーンのリアルタイム表示の効果は依然として抜群であり、多くの業界関係者は「AIレンダリングの新たな高みに到達した」と述べています。

多くのネットユーザーは、映画スタジオの多くの時間と労力を節約するなど、この研究の用途を想像し始めています。

（映画を学ぶ学生の中には、卒業プロジェクトで直接使用したいという人もいます）

ゲーム業界への影響も非常に良好です。

自宅で3Aの傑作を作れるシーンが実現する日が来るのでしょうか？待つのは本当に辛いです。

これをiPhoneで実現できたら素晴らしいだろうと想像する人もいる（すでにiPhone 15を予約注文した人もいる）。

この研究自体に関しては、部外者の視点から、それは補間モデルのようなものだと感じるネットユーザーもいる（ほぼ同じだと答えたネットユーザーもいる）。

また、ネットユーザーの中には、大量の画像が必要だったため、宣伝ほどの効果はなく、研究の可能性について懐疑的な意見もあった。

著者らはすでに GitHub プロジェクトを立ち上げていますが、コードはまだ公開されていません。興味のある学生は待ってみてください。

オープンソース化の具体的な時期については、「トップカンファレンスでの優勝後に公開する予定」と著者らは述べている。（この論文がトップカンファレンスに無事に収録されることを願っています～）

論文の宛先:
https://arxiv.org/abs/2110.06635

プロジェクトアドレス（コードはまだ投稿されていません）：
https://github.com/darglein/ADOP

<<: ResNet仮説は覆されたか？ Redditの人：長年誰もその原理を理解していなかった

>>: 携帯電話の顔認識はどのように機能しますか?理解を助ける記事

偽3Dシーンがリアルすぎるとネット上で人気に！死角ゼロの1億画素超え、AIレンダリングの新たな高みと称賛

写真を使用して3Dシーングラフ全体を復元する

トレーニング用にシーンごとに300枚以上の画像

1億ピクセル以上のシーンをリアルタイムで表示

30分で独自のディープラーニングサーバーを作成する

Google が新しいセマンティックセグメンテーションデータセットをリリースしました。ちなみに、私はトップに立つモデルを開発し、CVPR2021に採択されました

航空会社が AI を活用して乗客体験を向上させる方法

1行のコードでsklearnの操作が数千倍高速化

PyCaret: 機械学習モデルの開発が簡単に

Google: 2020年5月のコアアルゴリズムアップデート、多数のウェブサイトに影響

知能運転における「知覚重視・マッピング軽視」の技術動向と長期的にサポートできるビジネスシナリオを考える

人工知能技術は将来のネットワークセキュリティの起爆点と原動力となるかもしれない

推薦する

カーネルCF: 推薦システムのための最適リコール戦略

マイクロソフトがSkypeアプリをアップデート: 通話インターフェースの改善、カメラエクスペリエンスの最適化、Bingチャットの強化

2021年の中国人工知能産業の市場状況と競争環境の分析

AIを活用して混雑した都市での駐車のストレスを軽減

中国移動研究所のチャン・ヤオビン氏：主流の人工知能技術スタックの詳細な議論と実践的な概要

Google は、開発者が独自のモデルを構築できるようにエンドツーエンドの AI プラットフォームをリリースしました。

純粋なテキストモデルは「視覚的な」表現をトレーニングします。 MITの最新研究：言語モデルはコードで絵を描くことができる

ニューラルネットワークにおけるBPアルゴリズムの原理とPython実装のソースコード解析

人工知能と人間の思考の類似点と相違点

人工知能 (AI) の 19 の一般的な応用分野、あなたはどれくらい知っていますか?