最新の3D GANは3次元の幾何学データを生成できます!モデル速度が7倍に向上

最新の3D GANは3次元の幾何学データを生成できます!モデル速度が7倍に向上

[[441513]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

2D 画像を 3D に変換し、3D の幾何学的データを提供することはできますか?

NVIDIA とスタンフォード大学が共同で立ち上げたこの GAN は、3D GAN に新たな高みをもたらしました。

さらに、生成される画像の品質も高くなり、見る角度を変えても顔が変形することもありません。

従来の方法と比較すると、 7 倍高速で、メモリの占有量は 16 分の1以下です。

最も驚くべきことは、 3D の幾何学的データも提供できることです。たとえば、これらの石像効果は、抽出された位置情報に基づいてレンダリングすることで得られます。

リアルタイムでインタラクティブに編集することもできます。

このフレームワークがリリースされると、Twitter 上で多数のネットユーザーの注目を集め、600 件を超える「いいね!」が集まりました。

最新の3D GANは3次元の幾何学データを生成できます!モデル速度が 7 倍に向上 | NVIDIA & スタンフォード">

どうですか? 2D から 3D への想像力が再びリフレッシュされますか?

可視と不可視の混合+二重識別

実際、単一視点の 2D 写真のみを使用して 3D 効果を生成できるモデル フレームワークはすでに数多く存在します。

しかし、それらは計算コストが高かったり、実際の 3D 効果と一致しない近似値を与えたりします。

その結果、生成されたエフェクトには、画質の低下や変形などの問題が生じます。

上記の問題を解決するために、研究者は明示的・暗黙的なハイブリッドネットワークアーキテクチャを提案しました。

このアプローチは計算上の制限を回避でき、画像のアップサンプリングにあまり依存しません。

最新の3D GANは3次元の幾何学データを生成できます!モデル速度が 7 倍に向上 | NVIDIA & スタンフォード">

比較すると、純粋に暗黙的なニューラル ネットワーク (NeRF など) は、位置エンコーディング (PE) を備えた完全接続層 (FC) を使用してシーンを表現しており、位置の決定速度が遅くなることがわかります。

純粋な明示的ニューラル ネットワークと小さな暗黙的デコーダーを組み合わせたフレームワークは高速ですが、高解像度の出力を保証することはできません。

最新の3D GANは3次元の幾何学データを生成できます!モデル速度が 7 倍に向上 | NVIDIA & スタンフォード">

NVIDIA とスタンフォード大学が提案した新しい方法EG3Dは、明示的表現と暗黙的表現の利点を組み合わせたものです。

主に、StyleGAN2 ベースの特徴ジェネレーターとマッピング ネットワーク、軽量の特徴デコーダー、ニューラル レンダリング モジュール、超解像モジュール、および場所を二重に識別できる StyleGAN2 識別子が含まれます。

このうち、ニューラル ネットワークのバックボーン部分は 3D 座標を出力できる明示的な表現であり、デコーダー部分は暗黙的な表現です。

一般的な多層認識メカニズムと比較すると、この方法は7 倍高速で、メモリの占有量は 16 分の1未満です。

同時に、この手法は、優れた潜在空間など、StyleGAN2 の特徴も継承しています。

たとえば、FFHQ データセットで補間した後、EG3D は非常にうまく機能します。

この方法では、レンダリングに中解像度 (128 x 128) を使用し、2D 画像空間畳み込みを使用して最終出力の解像度と画質を向上させます。

この二重識別により、最終出力画像とレンダリングされた出力の一貫性が確保され、異なるビューでの畳み込み層の不一致によって発生する問題を回避できます。

△ 2枚の画像の左半分が最終的な出力効果で、右半分がレンダリングされた出力です

二重識別法を使用しないと、口角などの細部に歪みが生じます。

△左の写真は二重識別を使用していない場合、右の写真はEG3D法の効果を示しています

データに関しては、以前の方法と比較して、EG3D 方法は、256 解像度と 512 解像度での距離スコア (FID)、識別一貫性 (ID)、深度精度、姿勢精度において優れたパフォーマンスを発揮します。

最新の3D GANは3次元の幾何学データを生成できます!モデル速度が 7 倍に向上 | NVIDIA & スタンフォード">

チームについて

この研究はNVIDIAとスタンフォード大学が共同で実施した。

共著者は、Eric R. Chan、Connor Z. Lin、Matthew A. Chan、Koki Nagano の 4 名です。

そのうちのエリック・R・チャンはスタンフォード大学の博士課程の学生で、これまでpi-GANなど2D画像を3Dに変換するいくつかの手法に携わってきました。

[[441521]]最新の3D GANは3D幾何学データを生成できます!モデル速度が 7 倍に向上 | NVIDIA & スタンフォード">

Connor Z. Lin は、スタンフォード大学の 2 年目の博士課程の学生です。彼はカーネギーメロン大学で学士号と修士号を取得しました。彼の研究対象は、コンピューターグラフィックスとディープラーニングです。

[[441522]]最新の3D GANは3D幾何学データを生成できます!モデル速度が 7 倍に向上 | NVIDIA & スタンフォード">

Matthew A. Chan は研究助手です。3 人ともスタンフォード大学の Computational Imaging Lab に所属しています。

永野 功樹は現在、NVIDIA でコンピューター グラフィックスを専門とする上級研究員として働いています。彼は東京大学で学士号を取得しています。

[[441523]]最新の3D GANは3D幾何学データを生成できます!モデル速度が 7 倍に向上 | NVIDIA & スタンフォード">

論文の宛先:
https://arxiv.org/abs/2112.07945

<<:  時間変換に基づく初のビデオ移行攻撃アルゴリズム、復旦大学の研究がAAAI 2022に選出

>>:  人工知能技術は急速に発展しています。AIの信頼問題をどのように解決するのでしょうか?

ブログ    

推薦する

大きなモデルには堀がない? OpenAI の「LLM City」に侵入し、防御する方法

著者: ベン・ディクソン翻訳者 | 李睿レビュー | Chonglou制作:51CTO テクノロジー...

Zhiyuan が世界最大の中国語と英語のベクトルモデルトレーニングデータセットをリリースしました。最大3億のテキストペアまで拡張可能

9月15日、北京人工知能産業サミットおよび中関村科学城科学技術イノベーションコンテスト授賞式において...

アルバータ大学のチームのプロジェクトは、しかめ面の細部まで完璧に再現した超リアルな肖像画を制作する

深層畳み込みニューラル ネットワークは、顕著なオブジェクトの検出に広く使用されており、最先端のパフォ...

Java プログラミング スキル - データ構造とアルゴリズム「基数ソート」

[[394975]]基数ソート基数ソートは「分散ソート」に属し、「バケット ソート」または「ビン ...

CVPR2019で、Baidu Apolloはレベル4自動運転向けの純粋なビジョンソリューションであるApollo Liteを発表しました。

米国現地時間6月16日から20日まで、コンピュータビジョンとパターン認識の分野における世界有数の学術...

現実は素晴らしい、Googleとコーネル大学が提案した実画像補完技術RealFill

休暇で旅行するときは、写真を撮ることが必須です。しかし、景勝地で撮影した写真の多くは、背景に何かが写...

LK99最新ニュース:完全停止の難しさ、韓国の著者は「超伝導が唯一の可能な説明」と述べ、インドチームは3回の失敗で断念

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

国内メディアが大々的に報じた「世界初のAI地震監視システム」は的外れ

[[387555]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

マスク氏が公式に「脳をスライス」し、ニューラリンクの内部研究室の写真が公開された! 7年間で2万2000件の手術を計画、スーパーAIに対抗すべく研究開発に全力

最近、マスク氏の伝記作家がニューラリンクの最新の進歩について長い記事を書いた。来年から、ニューラリン...

...

OpenAI が ChatGPT にマルチモーダル入力機能を追加しました。ご存知ですか?

OpenAIのCEO、サム・アルトマン氏は昨夜Twitterで、ChatGPTに音声と画像の機能が...

最先端のディープラーニングデバイスのベンチマーク:Nvidia Jetson Nanoが勝利

エッジ コンピューティングは、急成長しているモノのインターネットの成長に不可欠です。最近、機械学習と...

古代東洋の究極の秘密 - 知的な美しさ

[51CTO.com からのオリジナル記事] 伝説によると、古代の神秘的な東洋の世界には、秘密で偉大...

座標系の変換を本当に理解していますか?自動運転にはマルチセンサーが不可欠

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

それは単なるアルゴリズムとモデルですか?これらのポイントによりAIを徹底的に理解できる

現在、AIはデジタル変革においてより重要な役割を果たしています。デジタル変革プロセス全体は、「クラウ...