ジオメトリテクスチャ再構築における新しい SOTA!浙江大学がSIFUを提案：一枚の画像で高品質の3D人体モデルを再構築可能

AR、VR、3Dプリント、シーン構築、映画制作など多くの分野において、衣服を着た人体の高品質な3Dモデルは非常に重要です。

これらのモデルを作成する従来の方法では、多くの時間が必要なだけでなく、複数の視点から写真を撮影できる特殊な機器や、熟練した専門家への依存も必要になります。

対照的に、私たちの日常生活では、携帯電話のカメラで撮影されたポートレート写真や、さまざまな Web ページで見つかったポートレート写真をよく目にします。

そのため、一枚の画像から3D人間モデルを正確に再構築できる方法があれば、コストを大幅に削減し、独立した作成プロセスを簡素化できる可能性があります。

従来の方法（左）と本論文の方法（右）の技術的ルートの比較

3D 人体再構築に使用されていた従来のディープラーニングモデルでは、画像から 2D 特徴を抽出し、2D 特徴を 3D 空間に変換し、3D 特徴を使用して人体を再構築するという 3 つのステップが必要になる場合がよくありました。

しかし、これらの方法では、2D 特徴を 3D 空間に変換するときに人体の事前分布の導入が無視されることが多く、その結果、特徴抽出が不十分になり、最終的な再構築結果にさまざまな欠陥が生じます。

SIFUと他のSOTAモデルの再構築効果の比較

さらに、テクスチャ予測の段階では、従来のモデルはトレーニングセットで学習した知識のみに依存しており、現実世界に関する事前の知識が不足していたため、目に見えない領域でのテクスチャ予測が不十分になることがよくありました。

SIFU は、テクスチャ予測段階で事前知識を導入して、目に見えない領域 (背面など) のテクスチャ効果を強化します。

これに対応して、浙江大学ReLER研究所の研究者らは、側面図の条件付き暗黙関数を利用して単一の画像から3D人体モデルを再構築するSIFUモデルを提案しました。

写真

論文アドレス: https://arxiv.org/abs/2312.06704

プロジェクトアドレス: https://github.com/River-Zhang/SIFU

このモデルは、2D 特徴を 3D 空間に変換する際の事前条件として人体の側面図を導入し、幾何学的再構築効果を高めます。テクスチャ最適化段階で事前トレーニング済みの拡散モデルが導入され、目に見えない領域のテクスチャが劣る問題が解決されます。

モデル構造

モデルパイプラインは次のとおりです。

写真

このモデルの動作は 2 つの段階に分けられます。第 1 段階では、暗黙的な関数を利用して人体の形状 (メッシュ) と粗いテクスチャ (粗いテクスチャ) を再構築し、第 2 段階では、事前トレーニング済みの拡散モデルを利用してテクスチャを洗練します。

第一段階では、著者らは独自のサイドビュー分離トランスフォーマーを設計しました。グローバルエンコーダーを通じて 2D 特徴を抽出した後、人体の前モデル SMPL-X の側面図をデコーダーのクエリとして導入し、さまざまな方向 (前後左右) の人体の 3D 特徴を画像の 2D 特徴から分離し、最終的に再構成に使用しました。

この方法は、2D の特徴を 3D 空間に変換する際に人体に関する事前の知識をうまく組み合わせ、モデルの再構築効果を向上させます。

第 2 段階では、著者らは 3D 一貫性テクスチャ改良プロセスを提案しました。このプロセスでは、まず人体の目に見えない領域 (側面、背面) を連続した視点を持つ一連の画像にレンダリングし、次に大量のデータから事前知識を学習する拡散モデルを使用して、粗いテクスチャ画像を一貫して編集し、より洗練された結果を取得します。最後に、改良前後の画像の損失を計算して、3D モデルのテクスチャマップを最適化します。

実験セクション

より高い再構築精度

実験部分では、著者らは CAPE-NFP、CAPE-FP、THuman2.0 を含む包括的かつ多様なテストセットを使用してモデルをテストし、主要なトップカンファレンスで以前に発表された単一画像人間再構成用の SOTA モデルと比較しました。定量的なテストの結果、SIFU モデルは幾何学的再構築とテクスチャ再構築の両方において最良の結果を示しました。

幾何学的再構築精度の定量的評価

テクスチャ再構成効果の定量評価

インターネット上の公開画像を入力として使用して定性的な結果を示す

より堅牢な

これまでのモデルをトレーニングセット外のデータに適用した場合、推定された人体事前モデル SMPL/SMPL-X の精度が十分でなかったため、再構成結果が入力画像から大きく離れ、実用化が困難になる場合がよくありました。

この点に関して、著者らは、実際のシナリオで不正確な SMPL-X 推定をシミュレートしてモデル再構築の精度を評価し、グラウンドトゥルースの事前モデルパラメータに摂動を加えてポーズをシフトさせることで、モデルの堅牢性を具体的にテストしました。結果は、この場合、SIFU モデルが依然として最高の再構築精度を持っていることを示しています。

不正確な人間の事前モデルに対するモデルの堅牢性を評価する

SIFU は、実際の画像を使用することで、事前の人体モデルの推定が不正確な場合でも、良好な再構築結果を実現します。

より幅広い応用シナリオ

SIFU モデルの高精度かつ高品質の再構築効果により、3D プリント、シーン構築、テクスチャ編集など、幅広い応用シナリオが可能になります。

3DプリントされたSIFU再構成人体モデル

3Dシーン構築のためのSIFU

公開されているモーションシーケンスデータの助けを借りて、SIFU再構成モデルを駆動することができる。

要約する

本論文では、側面図の条件付き暗黙関数と 3D 一貫性テクスチャ編集方法を提案し、2D 特徴を 3D 空間に変換してテクスチャを予測する際に、以前の研究で導入された事前知識の不足を補います。これにより、単一の画像からの人体再構成の精度と効果が大幅に向上し、モデルに実際のアプリケーションで大きな利点がもたらされ、この分野の将来の研究に新しいアイデアも提供されます。

参考文献:

https://arxiv.org/abs/2312.06704

<<: データセンターで自動化できない 5 つのこと

>>: