ジオメトリテクスチャ再構築における新しい SOTA!浙江大学がSIFUを提案:一枚の画像で高品質の3D人体モデルを再構築可能

ジオメトリテクスチャ再構築における新しい SOTA!浙江大学がSIFUを提案:一枚の画像で高品質の3D人体モデルを再構築可能

AR、VR、3Dプリント、シーン構築、映画制作など多くの分野において、衣服を着た人体の高品質な3Dモデルは非常に重要です。

これらのモデルを作成する従来の方法では、多くの時間が必要なだけでなく、複数の視点から写真を撮影できる特殊な機器や、熟練した専門家への依存も必要になります。


対照的に、私たちの日常生活では、携帯電話のカメラで撮影されたポートレート写真や、さまざまな Web ページで見つかったポートレート写真をよく目にします。

そのため、一枚の画像から3D人間モデルを正確に再構築できる方法があれば、コストを大幅に削減し、独立した作成プロセスを簡素化できる可能性があります。

従来の方法(左)と本論文の方法(右)の技術的ルートの比較

3D 人体再構築に使用されていた従来のディープラーニング モデルでは、画像から 2D 特徴を抽出し、2D 特徴を 3D 空間に変換し、3D 特徴を使用して人体を再構築するという 3 つのステップが必要になる場合がよくありました。

しかし、これらの方法では、2D 特徴を 3D 空間に変換するときに人体の事前分布の導入が無視されることが多く、その結果、特徴抽出が不十分になり、最終的な再構築結果にさまざまな欠陥が生じます。

SIFUと他のSOTAモデルの再構築効果の比較

さらに、テクスチャ予測の段階では、従来のモデルはトレーニング セットで学習した知識のみに依存しており、現実世界に関する事前の知識が不足していたため、目に見えない領域でのテクスチャ予測が不十分になることがよくありました。

SIFU は、テクスチャ予測段階で事前知識を導入して、目に見えない領域 (背面など) のテクスチャ効果を強化します。

これに対応して、浙江大学ReLER研究所の研究者らは、側面図の条件付き暗黙関数を利用して単一の画像から3D人体モデルを再構築するSIFUモデルを提案しました。

写真

論文アドレス: https://arxiv.org/abs/2312.06704

プロジェクトアドレス: https://github.com/River-Zhang/SIFU

このモデルは、2D 特徴を 3D 空間に変換する際の事前条件として人体の側面図を導入し、幾何学的再構築効果を高めます。テクスチャ最適化段階で事前トレーニング済みの拡散モデルが導入され、目に見えない領域のテクスチャが劣る問題が解決されます。

モデル構造

モデルパイプラインは次のとおりです。

写真

このモデルの動作は 2 つの段階に分けられます。第 1 段階では、暗黙的な関数を利用して人体の形状 (メッシュ) と粗いテクスチャ (粗いテクスチャ) を再構築し、第 2 段階では、事前トレーニング済みの拡散モデルを利用してテクスチャを洗練します。

第一段階では、著者らは独自のサイドビュー分離トランスフォーマーを設計しました。グローバルエンコーダーを通じて 2D 特徴を抽出した後、人体の前モデル SMPL-X の側面図をデコーダーのクエリとして導入し、さまざまな方向 (前後左右) の人体の 3D 特徴を画像の 2D 特徴から分離し、最終的に再構成に使用しました。

この方法は、2D の特徴を 3D 空間に変換する際に人体に関する事前の知識をうまく組み合わせ、モデルの再構築効果を向上させます。

第 2 段階では、著者らは 3D 一貫性テクスチャ改良プロセスを提案しました。このプロセスでは、まず人体の目に見えない領域 (側面、背面) を連続した視点を持つ一連の画像にレンダリングし、次に大量のデータから事前知識を学習する拡散モデルを使用して、粗いテクスチャ画像を一貫して編集し、より洗練された結果を取得します。最後に、改良前後の画像の損失を計算して、3D モデルのテクスチャ マップを最適化します。

実験セクション

より高い再構築精度

実験部分では、著者らは CAPE-NFP、CAPE-FP、THuman2.0 を含む包括的かつ多様なテスト セットを使用してモデルをテストし、主要なトップ カンファレンスで以前に発表された単一画像人間再構成用の SOTA モデルと比較しました。定量的なテストの結果、SIFU モデルは幾何学的再構築とテクスチャ再構築の両方において最良の結果を示しました。

幾何学的再構築精度の定量的評価

テクスチャ再構成効果の定量評価

インターネット上の公開画像を入力として使用して定性的な結果を示す

より堅牢な

これまでのモデルをトレーニング セット外のデータに適用した場合、推定された人体事前モデル SMPL/SMPL-X の精度が十分でなかったため、再構成結果が入力画像から大きく離れ、実用化が困難になる場合がよくありました。

この点に関して、著者らは、実際のシナリオで不正確な SMPL-X 推定をシミュレートしてモデル再構築の精度を評価し、グラウンドトゥルースの事前モデルパラメータに摂動を加えてポーズをシフトさせることで、モデルの堅牢性を具体的にテストしました。結果は、この場合、SIFU モデルが依然として最高の再構築精度を持っていることを示しています。

不正確な人間の事前モデルに対するモデルの堅牢性を評価する

SIFU は、実際の画像を使用することで、事前の人体モデルの推定が不正確な場合でも、良好な再構築結果を実現します。

より幅広い応用シナリオ

SIFU モデルの高精度かつ高品質の再構築効果により、3D プリント、シーン構築、テクスチャ編集など、幅広い応用シナリオが可能になります。

3DプリントされたSIFU再構成人体モデル

3Dシーン構築のためのSIFU

公開されているモーションシーケンスデータの助けを借りて、SIFU再構成モデ​​ルを駆動することができる。

要約する

本論文では、側面図の条件付き暗黙関数と 3D 一貫性テクスチャ編集方法を提案し、2D 特徴を 3D 空間に変換してテクスチャを予測する際に、以前の研究で導入された事前知識の不足を補います。これにより、単一の画像からの人体再構成の精度と効果が大幅に向上し、モデルに実際のアプリケーションで大きな利点がもたらされ、この分野の将来の研究に新しいアイデアも提供されます。

参考文献:

https://arxiv.org/abs/2312.06704

<<:  データセンターで自動化できない 5 つのこと

>>: 

ブログ    

推薦する

...

大型模型シリーズ - RAGの解釈

RAG は、2023 年に最も人気のある LLM ベースのアプリケーション システム アーキテクチャ...

データサイエンティストにとって最も重要なアルゴリズムと統計モデル

数年間この業界に携わってきたデータ サイエンティストとして、私は LinkedIn や QuoLa ...

機械学習: 密度ベースの外れ値検出アルゴリズム

外れ値検出 (異常検出とも呼ばれる) は、機械学習において、予想とは大きく異なる動作をするデータ オ...

ツールの選択からチームのコミュニケーションまで、ML エンジニアが実稼働レベルの機械学習を段階的に構築する様子をご覧ください。

機械学習がユーザーに真の価値をもたらすためには、それを本番システムに導入する必要があります。 AI ...

自動運転の知識 ポピュラーサイエンス 自動運転車の7つのコア技術

自動運転技術の本質は、機械の観点から人間のドライバーの行動をシミュレートすることです。その技術的フレ...

...

...

スマート製造における AI: イノベーションと効率の推進

AI 技術の継続的な革新と発展により、人工知能 (AI) は多くの分野で大きな進歩を遂げており、その...

IoTロボットが製造業と医療現場の危険を防止

IoT とロボティクスはそれぞれ単独でもビジネス組織に多くの利点をもたらしますが、組み合わせて使用​...

量子コンピューティングの画期的な論文3本がネイチャーの表紙に登場:忠実度は99%を超え、実用レベルに到達

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

心臓血管疾患における人工知能の応用

人工知能(AI)は、知識の学習、知識の保存、思考、計画という人間の脳の思考プロセスをシミュレートする...

アリババのPingtouge Xuantie CPUが重要な進歩を遂げました。RISC-V + Android 12 AIサポートを初めて実現しました。

アリババの平頭半導体は、ARMアーキテクチャの自社開発プロセッサYitian 710の商用化を実現し...

...