写真から3Dモデルを生成、GANとオートエンコーダが衝突して奇跡を起こす

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

2D絵「脳サプリメント」3Dモデル、今回は一枚だけで十分です——

AI にランダムな写真を入力するだけで、さまざまな角度からの「新しいビュー」が生成されます。

360°の椅子や車を処理できるだけでなく、「死の自撮り」の角度から下からのビューまで、新しい方法で顔を生成することもできます。

さらに興味深いのは、 Pix2NeRFというこの AI には「異なる」トレーニングデータセットもあることです。3D データ、複数の視点、カメラパラメータがなくても、新しい視点を生成する方法を学習できます。

NeRFシリーズのAIは新たな高みに到達したと言えるでしょう。

GAN+オートエンコーダーで「脳を満たす」方法を学ぶ

これに先立ち、NeRF は複数のビューを通じて AI モデルをトレーニングし、新しい視点から 3D オブジェクトの写真を生成することを学習できるようにしました。

ただし、これにより、PixelNeRF や GRF などの NeRF メソッドを使用する一連のモデルも作成され、3D モデル効果を生成するために、マルチビューデータセットを使用してより優れた 2D をトレーニングする必要があります。

ただし、マルチビューデータセットは制限されることが多く、トレーニングに長い時間がかかります。

そこで著者らは、自動エンコーダーを使用して物体の姿勢と形状の特徴を抽出し、GAN を使用して新しい透視画像を直接生成するという新しい方法を考案しました。

Pix2NeRF には、ジェネレータネットワーク G、ディスクリミネーターネットワーク D、エンコーダー E という 3 種類のネットワークアーキテクチャが含まれています。

このうち、生成ネットワーク G と識別ネットワーク D は生成敵対ネットワークGANを構成し、エンコーダー E と生成ネットワーク G は自動エンコーダーを形成するために使用されます。

まず、オートエンコーダは、教師なし学習を通じて、物体の姿勢や形状など、入力画像の隠れた特徴を取得し、学習した特徴を使用して元のデータを再構築します。

次に、GAN を使用して、姿勢と形状データを通じて元のオブジェクトの形状とは異なる新しいビューを再構築します。

ここで研究者らは、他のタイプの GAN よりも優れた 3D 遠近法写真を生成するπ-GANと呼ばれる構造を使用しました (著者らは HoloGAN を使用した論文も比較しました)。

では、この「混合」AI モデルの効果は何でしょうか?

ぼやけた画像を使うことで新たな視点も生み出せる

著者らはまず、さまざまなトレーニング方法とモデルアーキテクチャが Pix2NeRF の効果を本当に向上させることができるかどうかを確認するために、一連のアブレーション実験を実施しました。

たとえば、モデルから GAN 逆マッピングとオートエンコーダーを削除するか、学習率をウォームアップするためにウォームアップを使用せずに、新しい視点から顔を生成してみます。

その中で、GAN 反転の目的は、与えられた画像を事前トレーニング済みの GAN モデルの潜在空間に反転し、ジェネレーターが反転されたコードから画像を再構築できるようにすることです。

実験では、完全なモデルを除いて、さまざまな方法のモデルを削除して顔を生成する効果が十分ではないことが示されています。

次に著者らは、生成された写真のパフォーマンスを、新しいビューを生成する他の AI モデルと比較しました。

結果は、Pix2NeRF は ShapeNet-SRN の生成において PixelNeRF ほど優れてはいないものの、結果は非常に近いことを示しています。

CelebA および CARLA データセットでは、Pix2NeRF が基本的に最良の結果を達成しました。

さらに、このモデルには「美化」機能も組み込まれています。ぼやけた画像が送信された場合でも、GAN に滑らかな輪郭を与えることができます。

一般的に、人間の顔はさまざまな角度から新しいビューを生成できることに加えて、物体も 360° でさまざまな姿勢をとることが想像できます。

AIは人間と同様に、見たことのない物体の形状を「想像」することを学んだようです。

著者について

この論文の著者は全員、スイス連邦工科大学チューリッヒ校（ETH）の出身です。

論文の筆頭著者である Shengqu Cai 氏は、ETH の修士課程の学生であり、キングスカレッジロンドンを卒業して学士号を取得しています。彼の研究対象には、ニューラルレンダリング、生成モデル、教師なし学習などがあります。彼は遼寧実験中学校を卒業しました。

ETH の博士課程の学生である Anton Obukhov 氏は、以前は NVIDIA などの企業で働いており、研究対象にはコンピュータービジョンと機械学習が含まれます。

Dengxin Dai 氏は、マックスプランク研究所の上級研究員であり、ETH (外部) 講師です。彼の研究対象には、自動運転、センサー融合、限定的な監視による物体検出などがあります。

ETH のコンピュータービジョン教授である Luc Van Gool 氏は、Google Scholar で 150,000 件を超える引用を獲得しています。彼の研究対象には、2D および 3D のオブジェクト認識、ロボットビジョン、オプティカルフローなどがあります。

この研究のコードは現在準備中です。

興味のある友達はしばらくしゃがんでください〜

論文の宛先:

https://arxiv.org/abs/2202.13162

プロジェクトアドレス:

https://github.com/sxyu/pixel-nerf

<<: Kevin P. Murphy の「確率的機械学習: 上級」が PDF でダウンロードできるようになりました。

>>: オフサイトのコンピューティング能力の使用率が 55% 向上し、オープンソースになりました。「東洋のデータと西洋のコンピューティング」のAIインフラへの対応

ブログ

AIOps の実装を公開! 3 人の WOT エキスパートが AIOps を実現する方法をご覧ください

写真から3Dモデルを生成、GANとオートエンコーダが衝突して奇跡を起こす

GAN+オートエンコーダーで「脳を満たす」方法を学ぶ

ぼやけた画像を使うことで新たな視点も生み出せる

著者について

AIの偏見に対処するための重要なステップ

ファーウェイのロボット犬が公開：AI技術を使用して動的なマルチターゲット追跡と追従を実現

脳をシミュレートする NLP、クヌース賞受賞: 文解析のためのニューロン集団計算

AIOps の実装を公開! 3 人の WOT エキスパートが AIOps を実現する方法をご覧ください

新しい AI スキル: 芸術の分類と鑑賞

Googleが小規模でGeminiのテストを開始したと報道：GPT-4のトレーニングよりも5倍強力で、マルチモーダル機能が大幅に向上

推薦する

今週の土曜日は成都へ行こう！ Baidu Wenxin (ERNIE) がエンタープライズレベルの NLP モデルを迅速にカスタマイズする方法の分析

GPT-4 と Gemini は同時に重大な欠陥にさらされ、論理的推論が間違ってしまいました。ディープマインド上海交通大学の卒業生チームは、法学修士課程の知能が著しく低下していることを発見した

想像を超える: 5つの興味深い実用的なChatGPTのヒントとコツ

1日1,000個以上の星を生成したテスラのAIディレクターがGPT Pytorchトレーニングライブラリを作成した

従来のGANを解釈可能に修正し、畳み込みカーネルの解釈可能性と生成された画像の真正性が保証される

人間同士のやりとりを人工知能に置き換える時期が来ているのでしょうか?

「星から来た」ロボットは自閉症の子供たちを治せるのか？

TensorFlow を使用した ML モデルの実装と最適化: 1 秒あたり 3 億回の予測

最も人気のあるオープンソースの機械学習 JavaScript フレームワーク 5 つ

「順序付きファネル」アルゴリズム問題は、iResearch A10サミットで新たなブレークスルーを達成すると期待されています。

ソフトウェアエンジニアのコーディング面接でよく聞かれるアルゴリズムトップ 10

文字の組み合わせをソートするJavaアルゴリズム