写真から3Dモデルを生成、GANとオートエンコーダが衝突して奇跡を起こす

写真から3Dモデルを生成、GANとオートエンコーダが衝突して奇跡を起こす

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

2D絵「脳サプリメント」3Dモデル、今回は一枚だけで十分です——

AI にランダムな写真を入力するだけで、さまざまな角度からの「新しいビュー」が生成されます。

360°の椅子や車を処理できるだけでなく、「死の自撮り」の角度から下からのビューまで、新しい方法でを生成することもできます。

さらに興味深いのは、 Pix2NeRFというこの AI には「異なる」トレーニング データ セットもあることです。3D データ、複数の視点、カメラ パラメータがなくても、新しい視点を生成する方法を学習できます。

NeRFシリーズのAIは新たな高みに到達したと言えるでしょう。

GAN+オートエンコーダーで「脳を満たす」方法を学ぶ

これに先立ち、NeRF は複数のビューを通じて AI モデルをトレーニングし、新しい視点から 3D オブジェクトの写真を生成することを学習できるようにしました。

ただし、これにより、PixelNeRF や GRF などの NeRF メソッドを使用する一連のモデルも作成され、3D モデル効果を生成するために、マルチビュー データセットを使用してより優れた 2D をトレーニングする必要があります。

ただし、マルチビュー データセットは制限されることが多く、トレーニングに長い時間がかかります。

そこで著者らは、自動エンコーダーを使用して物体の姿勢と形状の特徴を抽出し、GAN を使用して新しい透視画像を直接生成するという新しい方法を考案しました。

Pix2NeRF には、ジェネレータ ネットワーク G、ディスクリミネーター ネットワーク D、エンコーダー E という 3 種類のネットワーク アーキテクチャが含まれています。

このうち、生成ネットワーク G と識別ネットワーク D は生成敵​​対ネットワークGANを構成し、エンコーダー E と生成ネットワーク G は自動エンコーダーを形成するために使用されます。

まず、オートエンコーダは、教師なし学習を通じて、物体の姿勢や形状など、入力画像の隠れた特徴を取得し、学習した特徴を使用して元のデータを再構築します。

次に、GAN を使用して、姿勢と形状データを通じて元のオブジェクトの形状とは異なる新しいビューを再構築します。

ここで研究者らは、他のタイプの GAN よりも優れた 3D 遠近法写真を生成するπ-GANと呼ばれる構造を使用しました (著者らは HoloGAN を使用した論文も比較しました)。

では、この「混合」AI モデルの効果は何でしょうか?

ぼやけた画像を使うことで新たな視点も生み出せる

著者らはまず、さまざまなトレーニング方法とモデルアーキテクチャが Pix2NeRF の効果を本当に向上させることができるかどうかを確認するために、一連のアブレーション実験を実施しました。

たとえば、モデルから GAN 逆マッピングとオートエンコーダーを削除するか、学習率をウォームアップするためにウォームアップを使用せずに、新しい視点から顔を生成してみます。

その中で、GAN 反転の目的は、与えられた画像を事前トレーニング済みの GAN モデルの潜在空間に反転し、ジェネレーターが反転されたコードから画像を再構築できるようにすることです。

実験では、完全なモデルを除いて、さまざまな方法のモデルを削除して顔を生成する効果が十分ではないことが示されています。

次に著者らは、生成された写真のパフォーマンスを、新しいビューを生成する他の A​​I モデルと比較しました。

結果は、Pix2NeRF は ShapeNet-SRN の生成において PixelNeRF ほど優れてはいないものの、結果は非常に近いことを示しています。

CelebA および CARLA データセットでは、Pix2NeRF が基本的に最良の結果を達成しました。

さらに、このモデルには「美化」機能も組み込まれています。ぼやけた画像が送信された場合でも、GAN に滑らかな輪郭を与えることができます。

一般的に、人間の顔はさまざまな角度から新しいビューを生成できることに加えて、物体も 360° でさまざまな姿勢をとることが想像できます。

AIは人間と同様に、見たことのない物体の形状を「想像」することを学んだようです。

著者について

この論文の著者は全員、スイス連邦工科大学チューリッヒ校(ETH)の出身です。

論文の筆頭著者である Shengqu Cai 氏は、ETH の修士課程の学生であり、キングス カレッジ ロンドンを卒業して学士号を取得しています。彼の研究対象には、ニューラル レンダリング、生成モデル、教師なし学習などがあります。彼は遼寧実験中学校を卒業しました。

ETH の博士課程の学生である Anton Obukhov 氏は、以前は NVIDIA などの企業で働いており、研究対象にはコンピューター ビジョンと機械学習が含まれます。

Dengxin Dai 氏は、マックスプランク研究所の上級研究員であり、ETH (外部) 講師です。彼の研究対象には、自動運転、センサー融合、限定的な監視による物体検出などがあります。

ETH のコンピューター ビジョン教授である Luc Van Gool 氏は、Google Scholar で 150,000 件を超える引用を獲得しています。彼の研究対象には、2D および 3D のオブジェクト認識、ロボット ビジョン、オプティカル フローなどがあります。

この研究のコードは現在準備中です。

興味のある友達はしばらくしゃがんでください〜

論文の宛先:

https://arxiv.org/abs/2202.13162

プロジェクトアドレス:

https://github.com/sxyu/pixel-nerf

<<:  Kevin P. Murphy の「確率的機械学習: 上級」が PDF でダウンロードできるようになりました。

>>:  オフサイトのコンピューティング能力の使用率が 55% 向上し、オープンソースになりました。 「東洋のデータと西洋のコンピューティング」のAIインフラへの対応

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

高校生のアルゴリズム「y-cruncher」が円周率の精度の世界記録を更新した

最近、スイスのグラウビュンデン応用科学大学のチームが、円周率の62.8兆桁の計算を101日と9時間で...

データ分析技術:エッジ人工知能の応用

私たちが SF の世界に引き込まれると、人工知能と機械学習 (AI/ML) の概念は、映画「マトリッ...

...

...

Google の大きな暴露: 謎の AI ツールが明らかに、Gemini が PaLM 2 に取って代わる

「大リーク:コードネームStubbsというGoogleの謎のAIツールが暴露された」と、Xという名の...

ビッグデータと人工知能がオンラインゲームをどう変えるのか

2017 年に成熟したと言われる 2 つの技術的進歩があるとすれば、それは間違いなく仮想現実と人工知...

...

産業オペレーションの深化が人工知能コンピューティングセンター構築の鍵

新たな科学技術革命と産業革命の到来とともに、デジタル経済は第四次産業革命の重要な礎となり、新たな組織...

自然言語処理がビジネスインテリジェンスの未来である理由

Siri に道順を尋ねるたびに、複雑なコード列がアクティブ化され、「Siri」は質問を理解し、必要...

...

サイバーセキュリティのための AI: セキュリティ戦略への AI の組み込み

人工知能は、生産性の向上、売上の増加、ユーザーエクスペリエンスの向上など、さまざまな状況で使用されて...

あなたが言う、私が描く、あなたが描く、私が言う:ERNIE-ViLG、世界最大の中国語クロスモーダル生成モデル

テキスト生成画像に関しては、Wenxin ERNIE-ViLG はユーザーが入力したテキストに基づい...

医療機器製造における3つの大きなトレンド

医療製造にロボット工学と自動化を導入したダヴィンチ ロボット手術システムが発売されてから 20 年が...

...