ワンクリックで 2D GAN を「3D」化、CUHK が教師なし 3D 再構築の新しい方法を提案

CUHK の MMLab チームによるこの研究は、2 次元 GAN がオブジェクトの 3 次元構造を暗黙的に学習できることを確認しています。研究者らが提案した方法は、3D 形状生成の新しい方法といえます。彼らは、従来の方法の対称性の仮定に依存しない新しい教師なし3D再構築方法「Shape-from-GAN」を提案し、建築物などのオープンデータセット上での3D再構築を初めて実現しました。この研究はICLR 2021口頭発表論文として採択されました。

現在、StyleGAN などの生成的敵対ネットワークは、さまざまなオブジェクトのリアルな 2D 画像を生成できます。しかし、おそらく皆さんが知らないのは、これらの GAN が、生成するオブジェクトの 3D 形状を実際に認識しているということです。 2D GAN によって生成された画像の場合、次の図に示すように、3D 構造を正確に再構築し、回転や再照明などの画像編集効果を実装できます。

これは、香港中文大学、南洋理工大学、香港大学の研究者らが提案した、2D GAN を使用した教師なし 3D 再構築を実現する GAN2Shape 手法です。この「Shape-from-GAN」パラダイムは、従来の方法の対称性の仮定に依存する必要がなく、さまざまなオブジェクトカテゴリに適用でき、SOTA を達成するための従来の方法を上回ります。現在、この論文はICLR 2021に口頭発表として採択されています。論文のコードもオープンソース化されています。

論文リンク:
https://openreview.net/pdf?id=FGqiDsBUKL0

プロジェクトリンク:
https://github.com/XingangPan/GAN2Shape

研究の動機

近年、生成的敵対的ネットワーク (GAN) は画像生成タスクで大きな成功を収めています。私たちは、2次元の画像の世界を作り出すためにそれを使用することに熱心ですが、実際には、これらの2次元の画像は、3次元のオブジェクトを2次元の画像平面に投影したものです。

例えば、下の図はStyleGAN[1]が顔の視点の変更を実現できることを示しています（顔の視点の注釈の監視下）。したがって、GAN の画像空間を移動する場合、理想的にはこれらの画像はオブジェクト自体の 3D 構造に準拠している必要があります。

StyleGANは顔の視点の変化を実現できる

したがって、興味深い疑問は、 2D GAN で幾何学的情報 (視点と照明) をマイニングすることで、オブジェクトの 3D 形状を再構築できるかどうかです。

方法: GAN画像空間における視点と照明情報のマイニングと活用

GAN で幾何学情報をマイニングするのは簡単な作業ではありません。既存の方法では、あらゆるオブジェクトカテゴリの GAN の潜在空間で対応する遠近法と照明変数の正確な方向を見つけることは困難です。この問題を解決するために、研究者たちは、ほとんどの物体（顔や車など）が比較的「凸型」の三次元形状をしていることに気が付きました。

そのため、彼らは物体の形状として楕円体を使用しました。この事前確率は弱いですが、オブジェクトの視点や照明の変化をある程度反映することができ、GAN 画像空間におけるさまざまな視点や照明の探索を導くために使用できます。

GAN2Shape メソッドの概要

このアイデアに基づいて、研究者はGAN画像空間内の遠近法と照明情報を反復的にマイニングして活用する戦略を設計しました。具体的な手順は次のとおりです。

最初のステップは、初期化された形状 (つまり、楕円体) と微分可能なレンダラーを使用して、さまざまな視野角と照明条件下で多数の「疑似サンプル」をレンダリングすることです。

2 番目のステップは、事前トレーニング済みの GAN を使用して疑似サンプルを再構築し、GAN 画像空間での投影、つまり「投影サンプル」を取得することです。これらの投影されたサンプルは、疑似サンプルと同様の視点と照明を継承します。同時に、GAN の生成特性により、投影されたサンプルは実際の画像空間に制約され、疑似サンプル内の非現実的な歪みや光と影が排除されます。

3 番目のステップでは、投影されたサンプルが微分可能なレンダリングステップのグラウンドトゥルースとして使用され、オブジェクトの 3D 形状が最適化されます。投影サンプルにはGANが学習した物体の3次元情報が含まれているため、上の写真の顔のように物体の形状がより正確になります。

上記の手順を完了したら、最適化された形状を初期形状として使用し、上記の手順を複数回繰り返して、収束するまで形状を徐々に改善することができます。

注目すべきは、上記の第 2 ステップで GAN を使用して疑似サンプルを再構築する際に、再構築結果の信頼性を確保するために、研究者らが StyleGAN2 のマッピングネットワークの一部を使用して潜在ベクトルを制限する方法を提案したことです。詳細については、元の論文を参照してください。

実験: 2D GAN 画像を 3D に変換できる

研究者らは、人間の顔、猫の顔、車、建物でトレーニングされたStyleGAN2 [1]にGAN2Shapeを適用しました。結果は、次の図に示すように、すべてが合理的な3D形状を再構築できることを示しました。

次の図は、建物上のGAN2Shapeの3D再構築と再照明の結果と、Unsup3d [2]との比較を示しています。

さらに、この研究の定量的な結果も他の方法を大幅に上回り、従来の顔の対称性の仮定を使用せずに合理的な3次元再構築結果が得られました。

この手法では、GAN 潜在空間における物体の 3 次元形状の方向と遠近照明の変化を取得するため、次の図に示すように、画像を 3 次元的に編集することができます。

オブジェクトの回転や再照明などの 3D 画像編集の結果。

他の教師なしGANベースの顔回転方法と比較して、研究者の方法は顔のアイデンティティをよりよく保持します。

教師なし顔回転方法の比較。

3D 再構築と編集のさらなる結果を次の図に示します。

<<: 私たちのプライバシーはどこにも見つからない

>>: 画像をデジタル化して特徴を抽出するための、事前トレーニング済みのディープラーニングモデル6つ

ドーパミンが来る！ Google が新しい強化学習フレームワーク Dopamine を発表

ワンクリックで 2D GAN を「3D」化、CUHK が教師なし 3D 再構築の新しい方法を提案

ドーパミンが来る！ Google が新しい強化学習フレームワーク Dopamine を発表

人工知能は気候変動の転換点を明らかにするかもしれない

スマートホームシステム設計の5つの原則

この「間違い」は実際には間違っていません。4つの古典的な論文から始めて、Transformerアーキテクチャ図のどこが「間違っている」かを理解してください。

このAIアルゴリズムの面接体験は非常に役立つ：Amazonは履歴書から面接まで実践的な経験を共有

CVPR'24の結果が発表され、中国の博士課程学生による3つの論文がベルサイユ賞を受賞しました！当局はネットユーザーを怒らせるためにミームを投稿した

人工知能が広く利用され、アルゴリズムの公平性の重要性が強調されている

モザイクから高精細画像まで、AIの画像作成能力は強化されてきましたが、美しさと歪みのバランスをどう実現するのでしょうか。

推薦する

AIに人間主義の精神を持ち込むことについて、フェイフェイ・リーとビル・ゲイツは今日スタンフォードで何について話したのでしょうか?

StarCraft II の共同競技ベンチマークが SOTA を上回り、新しい Transformer アーキテクチャがマルチエージェント強化学習の問題を解決

人工知能と教育の統合が高等教育改革を促進

AI受験者が発狂！上級数学試験の正解率は81％で、競争試験のスコアはコンピュータドクターのスコアよりも高い。

AIとクラウドコンピューティングが相互に利益をもたらし、ビジネス効率を向上させる方法

データサイエンスの現在と未来

ビル・ゲイツ: 生成AIは限界に達した

北京大学の最新のマルチモーダル大規模モデルはオープンソースです。混合データセットでトレーニングされ、修正なしで画像やビデオのタスクに直接使用されます。

脳コンピューターインターフェースでケーキを食べる