CUHK の MMLab チームによるこの研究は、2 次元 GAN がオブジェクトの 3 次元構造を暗黙的に学習できることを確認しています。研究者らが提案した方法は、3D 形状生成の新しい方法といえます。彼らは、従来の方法の対称性の仮定に依存しない新しい教師なし3D再構築方法「Shape-from-GAN」を提案し、建築物などのオープンデータセット上での3D再構築を初めて実現しました。この研究はICLR 2021口頭発表論文として採択されました。 現在、StyleGAN などの生成的敵対ネットワークは、さまざまなオブジェクトのリアルな 2D 画像を生成できます。しかし、おそらく皆さんが知らないのは、これらの GAN が、生成するオブジェクトの 3D 形状を実際に認識しているということです。 2D GAN によって生成された画像の場合、次の図に示すように、3D 構造を正確に再構築し、回転や再照明などの画像編集効果を実装できます。 これは、香港中文大学、南洋理工大学、香港大学の研究者らが提案した、2D GAN を使用した教師なし 3D 再構築を実現する GAN2Shape 手法です。この「Shape-from-GAN」パラダイムは、従来の方法の対称性の仮定に依存する必要がなく、さまざまなオブジェクト カテゴリに適用でき、SOTA を達成するための従来の方法を上回ります。現在、この論文はICLR 2021に口頭発表として採択されています。論文のコードもオープンソース化されています。 論文リンク: プロジェクトリンク: 研究の動機 近年、生成的敵対的ネットワーク (GAN) は画像生成タスクで大きな成功を収めています。私たちは、2次元の画像の世界を作り出すためにそれを使用することに熱心ですが、実際には、これらの2次元の画像は、3次元のオブジェクトを2次元の画像平面に投影したものです。 例えば、下の図はStyleGAN[1]が顔の視点の変更を実現できることを示しています(顔の視点の注釈の監視下)。したがって、GAN の画像空間を移動する場合、理想的にはこれらの画像はオブジェクト自体の 3D 構造に準拠している必要があります。 StyleGANは顔の視点の変化を実現できる したがって、興味深い疑問は、 2D GAN で幾何学的情報 (視点と照明) をマイニングすることで、オブジェクトの 3D 形状を再構築できるかどうかです。 方法: GAN画像空間における視点と照明情報のマイニングと活用 GAN で幾何学情報をマイニングするのは簡単な作業ではありません。既存の方法では、あらゆるオブジェクト カテゴリの GAN の潜在空間で対応する遠近法と照明変数の正確な方向を見つけることは困難です。この問題を解決するために、研究者たちは、ほとんどの物体(顔や車など)が比較的「凸型」の三次元形状をしていることに気が付きました。 そのため、彼らは物体の形状として楕円体を使用しました。この事前確率は弱いですが、オブジェクトの視点や照明の変化をある程度反映することができ、GAN 画像空間におけるさまざまな視点や照明の探索を導くために使用できます。 GAN2Shape メソッドの概要 このアイデアに基づいて、研究者はGAN画像空間内の遠近法と照明情報を反復的にマイニングして活用する戦略を設計しました。具体的な手順は次のとおりです。 最初のステップは、初期化された形状 (つまり、楕円体) と微分可能なレンダラーを使用して、さまざまな視野角と照明条件下で多数の「疑似サンプル」をレンダリングすることです。 2 番目のステップは、事前トレーニング済みの GAN を使用して疑似サンプルを再構築し、GAN 画像空間での投影、つまり「投影サンプル」を取得することです。これらの投影されたサンプルは、疑似サンプルと同様の視点と照明を継承します。同時に、GAN の生成特性により、投影されたサンプルは実際の画像空間に制約され、疑似サンプル内の非現実的な歪みや光と影が排除されます。 3 番目のステップでは、投影されたサンプルが微分可能なレンダリング ステップのグラウンド トゥルースとして使用され、オブジェクトの 3D 形状が最適化されます。投影サンプルにはGANが学習した物体の3次元情報が含まれているため、上の写真の顔のように物体の形状がより正確になります。 上記の手順を完了したら、最適化された形状を初期形状として使用し、上記の手順を複数回繰り返して、収束するまで形状を徐々に改善することができます。 注目すべきは、上記の第 2 ステップで GAN を使用して疑似サンプルを再構築する際に、再構築結果の信頼性を確保するために、研究者らが StyleGAN2 のマッピング ネットワークの一部を使用して潜在ベクトルを制限する方法を提案したことです。詳細については、元の論文を参照してください。 実験: 2D GAN 画像を 3D に変換できる 研究者らは、人間の顔、猫の顔、車、建物でトレーニングされたStyleGAN2 [1]にGAN2Shapeを適用しました。結果は、次の図に示すように、すべてが合理的な3D形状を再構築できることを示しました。 次の図は、建物上のGAN2Shapeの3D再構築と再照明の結果と、Unsup3d [2]との比較を示しています。 さらに、この研究の定量的な結果も他の方法を大幅に上回り、従来の顔の対称性の仮定を使用せずに合理的な3次元再構築結果が得られました。 この手法では、GAN 潜在空間における物体の 3 次元形状の方向と遠近照明の変化を取得するため、次の図に示すように、画像を 3 次元的に編集することができます。 オブジェクトの回転や再照明などの 3D 画像編集の結果。 他の教師なしGANベースの顔回転方法と比較して、研究者の方法は顔のアイデンティティをよりよく保持します。 教師なし顔回転方法の比較。 3D 再構築と編集のさらなる結果を次の図に示します。 |
>>: 画像をデジタル化して特徴を抽出するための、事前トレーニング済みのディープラーニングモデル6つ
10月9日、IDCコンサルティングの公式WeChatアカウントによると、IDCは本日「中国半期加速コ...
人工知能技術が成熟するにつれ、この技術のより広範な社会的、倫理的影響に十分な注意が払われていないので...
従業員の研修は企業にとって重要な問題です。企業は熟練労働者の確保に苦労し、高い離職率に悩まされ、大規...
[[381380]]人工知能 (AI) はスマートビル管理の究極の未来と考えられていますが、それが定...
2月18日、Googleは人工知能プロジェクトを大幅にアップデートし、BardをGeminiに改名し...
量子コンピューティングは、常に次の産業革命の原動力と考えられてきました。さまざまな国やテクノロジー企...
Google は、AI を使用して最適化された新世代の人工知能とインフラストラクチャの開発をリードす...
自動テストは、ソフトウェア ツールまたはハードウェア デバイスを使用して、テスト ケースの手動実行を...
[[246854]]私の意見では、警告、悲観、パニックはすべて「廬山の本当の顔を知らない」根拠のない...
[[239590]] 8月6日、自動運転車、ロボット医師、10億人を超える中国国民を対象とした社会...
2019年、21歳の中国人学生、李凡は自身の微博に書き込みをした後、薬を飲んで自殺した。その後の調査...
ちょうど昨日、第 1 回 CPAL ミニマリスト アカデミック カンファレンスで、ライジング スター...