写真から3Dモデルを生成、GANとオートエンコーダが衝突して奇跡を起こす

写真から3Dモデルを生成、GANとオートエンコーダが衝突して奇跡を起こす

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

2D絵「脳サプリメント」3Dモデル、今回は一枚だけで十分です——

AI にランダムな写真を入力するだけで、さまざまな角度からの「新しいビュー」が生成されます。

360°の椅子や車を処理できるだけでなく、「死の自撮り」の角度から下からのビューまで、新しい方法でを生成することもできます。

さらに興味深いのは、 Pix2NeRFというこの AI には「異なる」トレーニング データ セットもあることです。3D データ、複数の視点、カメラ パラメータがなくても、新しい視点を生成する方法を学習できます。

NeRFシリーズのAIは新たな高みに到達したと言えるでしょう。

GAN+オートエンコーダーで「脳を満たす」方法を学ぶ

これに先立ち、NeRF は複数のビューを通じて AI モデルをトレーニングし、新しい視点から 3D オブジェクトの写真を生成することを学習できるようにしました。

ただし、これにより、PixelNeRF や GRF などの NeRF メソッドを使用する一連のモデルも作成され、3D モデル効果を生成するために、マルチビュー データセットを使用してより優れた 2D をトレーニングする必要があります。

ただし、マルチビュー データセットは制限されることが多く、トレーニングに長い時間がかかります。

そこで著者らは、自動エンコーダーを使用して物体の姿勢と形状の特徴を抽出し、GAN を使用して新しい透視画像を直接生成するという新しい方法を考案しました。

Pix2NeRF には、ジェネレータ ネットワーク G、ディスクリミネーター ネットワーク D、エンコーダー E という 3 種類のネットワーク アーキテクチャが含まれています。

このうち、生成ネットワーク G と識別ネットワーク D は生成敵​​対ネットワークGANを構成し、エンコーダー E と生成ネットワーク G は自動エンコーダーを形成するために使用されます。

まず、オートエンコーダは、教師なし学習を通じて、物体の姿勢や形状など、入力画像の隠れた特徴を取得し、学習した特徴を使用して元のデータを再構築します。

次に、GAN を使用して、姿勢と形状データを通じて元のオブジェクトの形状とは異なる新しいビューを再構築します。

ここで研究者らは、他のタイプの GAN よりも優れた 3D 遠近法写真を生成するπ-GANと呼ばれる構造を使用しました (著者らは HoloGAN を使用した論文も比較しました)。

では、この「混合」AI モデルの効果は何でしょうか?

ぼやけた画像を使うことで新たな視点も生み出せる

著者らはまず、さまざまなトレーニング方法とモデルアーキテクチャが Pix2NeRF の効果を本当に向上させることができるかどうかを確認するために、一連のアブレーション実験を実施しました。

たとえば、モデルから GAN 逆マッピングとオートエンコーダーを削除するか、学習率をウォームアップするためにウォームアップを使用せずに、新しい視点から顔を生成してみます。

その中で、GAN 反転の目的は、与えられた画像を事前トレーニング済みの GAN モデルの潜在空間に反転し、ジェネレーターが反転されたコードから画像を再構築できるようにすることです。

実験では、完全なモデルを除いて、さまざまな方法のモデルを削除して顔を生成する効果が十分ではないことが示されています。

次に著者らは、生成された写真のパフォーマンスを、新しいビューを生成する他の A​​I モデルと比較しました。

結果は、Pix2NeRF は ShapeNet-SRN の生成において PixelNeRF ほど優れてはいないものの、結果は非常に近いことを示しています。

CelebA および CARLA データセットでは、Pix2NeRF が基本的に最良の結果を達成しました。

さらに、このモデルには「美化」機能も組み込まれています。ぼやけた画像が送信された場合でも、GAN に滑らかな輪郭を与えることができます。

一般的に、人間の顔はさまざまな角度から新しいビューを生成できることに加えて、物体も 360° でさまざまな姿勢をとることが想像できます。

AIは人間と同様に、見たことのない物体の形状を「想像」することを学んだようです。

著者について

この論文の著者は全員、スイス連邦工科大学チューリッヒ校(ETH)の出身です。

論文の筆頭著者である Shengqu Cai 氏は、ETH の修士課程の学生であり、キングス カレッジ ロンドンを卒業して学士号を取得しています。彼の研究対象には、ニューラル レンダリング、生成モデル、教師なし学習などがあります。彼は遼寧実験中学校を卒業しました。

ETH の博士課程の学生である Anton Obukhov 氏は、以前は NVIDIA などの企業で働いており、研究対象にはコンピューター ビジョンと機械学習が含まれます。

Dengxin Dai 氏は、マックスプランク研究所の上級研究員であり、ETH (外部) 講師です。彼の研究対象には、自動運転、センサー融合、限定的な監視による物体検出などがあります。

ETH のコンピューター ビジョン教授である Luc Van Gool 氏は、Google Scholar で 150,000 件を超える引用を獲得しています。彼の研究対象には、2D および 3D のオブジェクト認識、ロボット ビジョン、オプティカル フローなどがあります。

この研究のコードは現在準備中です。

興味のある友達はしばらくしゃがんでください〜

論文の宛先:

https://arxiv.org/abs/2202.13162

プロジェクトアドレス:

https://github.com/sxyu/pixel-nerf

<<:  Kevin P. Murphy の「確率的機械学習: 上級」が PDF でダウンロードできるようになりました。

>>:  オフサイトのコンピューティング能力の使用率が 55% 向上し、オープンソースになりました。 「東洋のデータと西洋のコンピューティング」のAIインフラへの対応

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

...

想像を超える: 5つの興味深い実用的なChatGPTのヒントとコツ

ChatGPT は情報を提供したり質問に答えたりするだけでなく、インテリジェントなアシスタントとして...

1日1,000個以上の星を生成したテスラのAIディレクターがGPT Pytorchトレーニングライブラリを作成した

GPT モデルが無敵の戦艦だとすると、minGPT はおそらく風や波に乗れる小型ヨットでしょう。最近...

人間同士のやりとりを人工知能に置き換える時期が来ているのでしょうか?

人工知能 (AI) は、面倒で時間のかかるすべての手動プロセスを置き換え、人間が価値の高いタスクに集...

「星から来た」ロボットは自閉症の子供たちを治せるのか?

[[236328]]私の友人のチャンさんは、8歳の自閉症の男の子の母親です。彼女の息子は2歳のとき...

TensorFlow を使用した ML モデルの実装と最適化: 1 秒あたり 3 億回の予測

[[425184]] TensorFlow は最も広く使用されている機械学習フレームワークの 1 つ...

最も人気のあるオープンソースの機械学習 JavaScript フレームワーク 5 つ

[[235929]]機械学習に興味がある、または JavaScript を使用して機械学習の専門家に...

「順序付きファネル」アルゴリズム問題は、iResearch A10サミットで新たなブレークスルーを達成すると期待されています。

新小売、新金融、新エンターテインメントなどの新しい業態の台頭により、ビッグデータの驚異的な力がインタ...

ソフトウェア エンジニアのコーディング面接でよく聞かれるアルゴリズム トップ 10

あなたは、コンピューターサイエンスまたはソフトウェアエンジニアリングの学位を取得して大学を卒業したば...

...

文字の組み合わせをソートするJavaアルゴリズム

Java の文字の組み合わせソートは、特に難しい問題ではありません。ブルートフォースとグラフ理論 (...