GauHuman オープンソース: ガウススプラッティングに基づく高品質の 3D 人間高速再構成およびリアルタイム レンダリング フレームワーク

GauHuman オープンソース: ガウススプラッティングに基づく高品質の 3D 人間高速再構成およびリアルタイム レンダリング フレームワーク


  • 論文タイトル: GauHuman: 単眼の人間動画からの関節型ガウス分布スプラッティング
  • 論文ダウンロードアドレス: https://arxiv.org/abs/2312.02973
  • プロジェクトのホームページ: https://skhu101.github.io/GauHuman
  • オープンソースコード: https://github.com/skhu101/GauHuman

背景

3D デジタルヒューマン再構築は、仮想現実や補助現実などのさまざまなアプリケーションシナリオに大きな影響を与える可能性があります。人間の神経放射場に基づいて、既存の方法では、スパースビューのビデオや単一の画像からでも 3D デジタル ヒューマンを復元できます。ただし、これらの方法では、トレーニングとレンダリングを完了するために高価な計算時間 (最大 10 時間) とリソースが必要になることが多く、実際のシナリオでの適用が大幅に制限されます。モデリングプロセスを加速するために、一般化可能な 3D 人体モデリング法では、事前トレーニングと微調整のパラダイムを採用しています。この種の方法では、通常、一般化可能な 3D 人間表現を得るために数時間の事前トレーニングが必要であり、その後、モデリングを完了するために各 3D デジタル人間に対してさらに 1 時間の微調整が必​​要になります。これらの方法は限られた情報しか提供できない入力画像に依存しているため、3D 人体再構築の品質を向上させる必要があります。別の種類の研究では、マルチ解像度ハッシュエンコーディングやニューラルボリュームプリミティブなど、人体モデリングのためのより効率的な 3D 人間表現が導入されています。多精度ハッシュ表現はトレーニングの収束速度を向上させますが、レンダリング速度が実際の適用を制限します。ニューラル ボリューム プリミティブはレンダリング速度を向上させますが、トレーニング速度と最終的なレンダリング品質にはまだ改善の余地があります。この手法では、静的および動的シーンにおけるガウススプラッティングのリアルタイム レンダリング特性を活用し、高速トレーニング (1 ~ 2 分) とリアルタイム レンダリング (最大 189 フレーム/秒) を備えた単眼人間ビデオ用のガウススプラッティングに基づく 3D 人間モデリング フレームワークを提案します。

図 2 単眼の人間のビデオに基づいて、GauHuman は高品質の 3D 人体を迅速にトレーニング (1 ~ 2 分) し、リアルタイムでレンダリング (最大 189 フレーム/秒) できます。

根拠

ガウススプラッティングを使用して単眼人体ビデオ内の関節付き 3D 人体をモデル化するには、2 つの困難な問題を解決する必要があります。1) 単眼人体ビデオ内の関節付き 3D 人体情報をガウススプラッティング フレームワークに導入する方法、2) 関節付きガウススプラッティングの効率的な最適化を実現する方法。上記の問題に対処するために、比較的簡単に考えられる解決策は、ガウス スプラッティングを使用して 3D 人体を標準空間でモデル化し、リニア ブレンド スキニング (LBS) アルゴリズムを使用して 3D ガウス球を標準空間からターゲット空間に変換し、それによってターゲット空間で画像をレンダリングして損失関数を構築することです。上記の方式の問題の 1 つは、線形スキニング アルゴリズムが 3D 人間の頂点の回転とオフセットを定義することです。SMPL 事前分布における人体の不正確な LBS 係数と姿勢情報から標準空間内の 3D ガウス球の回転とオフセットをどのように学習するかは、依然として難しい問題です。さらに、既存のガウス スプラッティング法では、Structure-from-Motion (SFM) またはランダム初期化によって生成されたポイント クラウドを使用して、3D ガウス球の中心座標を初期化します。この初期化方法は主に静的なシーン向けに設計されており、人体の構造情報を無視しているため、高速な人体モデリングには適していません。モデリング プロセス中に発生する過剰再構築および不十分再構築の現象に対応して、Gaussian Splatting 論文では、3D ガウス球の数を動的に制御するための分割操作と複製操作を提案しています。上記の操作により、再構築の品質が大幅に向上しますが、大量の 3D ガウス球も生成されるため、最適化の効率が制限され、大量のハードディスク容量が消費されます (たとえば、静的シーンには 734 MB のストレージ容量が必要です)。注目すべきもう 1 つの点は、既存の Gaussian Splatting フレームワークには多数の冗長な 3D ガウス球が含まれているため、最適化の効率をさらに向上させる余地があるということです。

上記の困難な問題のいくつかに対応するために、モデリング フレームワークと高速最適化アルゴリズムという 2 つの側面から解決策を検討します。 [単眼の人間動画に表現された3D人間情報をガウススプラッティングのフレームワークに導入] 以前の人間の神経放射場(Human NeRF)にヒントを得て、ガウススプラッティングを使用して3D人間の体を標準空間でモデル化し、3Dガウス球を標準空間からターゲット空間に変換します。ガウス関数の変換特性に基づいて、LBS アルゴリズムを使用して 3D ガウス ボールを標準空間からターゲット空間に回転およびオフセットできます。上記の変換には、LBS 係数をどのように推定するかという問題があります。ニューラル ネットワークを直接使用して LBS 係数を推定すると、多くの場合、長い期間の最適化が必要になり、最終的なレンダリング効果も満足のいくものではありません。より正確な LBS 係数を迅速に取得するために、1) ニューラル ネットワークを使用して SMPL の LBS 係数に基づいてバイアス値を提供し、2) トレーニング データに基づいて人体の姿勢情報を修正します。 1024p 画像をレンダリングする場合、上記のモデリング フレームワークでは、限られた数 (13k など) の 3D ガウス球をスノーボールするだけで済みますが、以前の人間の神経放射フィールドでは、3D 空間全体の何百万ものサンプリング ポイントに対してボリューム レンダリング操作を実行する必要があります。これにより、トレーニングとレンダリングにおける計算リソースの消費が大幅に削減されます。 【多関節型ガウススプラッティングの効率的な最適化】1) 3Dガウス球の初期化。 SMPL などの 3D 人体事前分布を使用して 3D ガウス球を初期化することで、最適化の効率が大幅に向上します。 2) 分割/複製/結合。実験分析により、分割操作と複製操作では、3D ゴッサマー ボール間の距離がメトリックとして無視されることがわかりました。上記の分析に基づいて、分割および複製操作を制限するために 3D ハイワイヤーボールの Kullback-Leibler (KL) ダイバージェンスを導入します。多数の冗長な 3D ガウス球に対して、これらの 3D ガウス球を効果的に削減するマージ操作を提案します。 3) 剪定。 3D 人体は特定の構造を持っていることを考慮して、3D ガウス球を 3D 人体から切り離します。上記の高速最適化アルゴリズムに基づいて、約 13,000 個の 3D ガウス球 (約 3.5 MB のハードディスク容量) を使用して、1 ~ 2 分で 3D 人体モデリングを完了できます。

図3 GauHumanフレームワークの概略図。 GauHuman は、まず人体の事前 SMPL に基づいて 3D ガウス ボールの位置を初期化し、次に LBS 係数偏差と人体姿勢補正モジュールに基づいて、標準空間からターゲット空間への 3D ガウス ボールの変換行列を学習します。その後の最適化プロセスでは、GauHuman はタイルベースの微分可能レンダラーを使用して画像をすばやくレンダリングし、人体の事前分布と KL ダイバージェンスを使用して分割、複製、マージ、およびプルーニング操作を制限し、3D ガウス ボールの数を効果的に制御します。

結果の比較

この論文では、2 つの単眼人間データセット、ZJU_MoCap と MonoCap で実験を実施しました。この研究では、NB、AN、AS、HumanNeRF、DVA、InstantNVR、InstantAvatar、PixelNeRF、NHP といったいくつかの高度な 3D 人間再構成手法を比較し、ピーク信号対雑音比 (PSNR)、構造類似性指数 (SSIM)、学習知覚画像パッチ類似性 (LPIPS) 指標を比較しました。下の図に示すように、GauHuman は 3D 人体を素早く (1 ~ 2 分) 再構築し、リアルタイム (最大 189 フレーム/秒) でレンダリングすることができ、パフォーマンス指標において従来のソリューションを上回っています。

応募の見通し

ゲーム映画の制作、仮想現実、拡張現実、またはデジタル ヒューマン モデリングを必要とするその他のシナリオでは、ユーザーは単眼の人間ビデオ、その角度でのカメラ パラメータ、および対応する人間のモーション シェイプ パラメータ (SMPL) を入力することで、3D デジタル ヒューマンを再構築できます。

結論

この論文では、ガウススプラッティングに基づく、高品質の 3D 人体高速再構成 (1 ~ 2 分) およびリアルタイム レンダリング (最大 189 フレーム/秒) フレームワーク GauHuman を提案します。この記事にはまだいくつかの欠陥があることは認められる。まず、3D ガウスから人体のメッシュを抽出する方法については、さらなる研究が必要です。第二に、単眼の人物ビデオから衣服のしわなどの 3D 人物の詳細を復元することは、依然として難しい問題です。実現可能な解決策は、衣服の物理シミュレーション モデルを 3D 人体再構築に導入することです。ついに、私たちのコードは完全にオープンソース化され、誰でもダウンロードして遊ぶことができます。

<<:  海外の詐欺師はAIを使ってテイラー・スウィフトの声を合成し、「無料のキッチン用品」の広告を偽造して詐欺行為を行った。

>>:  国内の多くの大学が共同でオープンソースコミュニティLAMMを構築しています。マルチモーダル言語モデルファミリーに参加する時が来ました

ブログ    
ブログ    
ブログ    

推薦する

...

ビッグデータと人工知能のために生まれた新しい職業:アルゴリズム専門家

ビッグデータとは、さまざまな種類のデータから貴重な情報を迅速に取得する能力を指します。これを理解する...

3万回以上の地震訓練を実施した後、彼らは揺れの強さを素早く予測する新しい方法を発見した。

[[396585]]ビッグデータダイジェスト制作編纂者:朱克進DeepShake ネットワークのト...

時間畳み込みネットワーク: 時系列の次の革命?

この投稿では、最近の TCN ベースのソリューションをいくつかレビューします。まず、動き検出のケース...

...

...

中国のAI特許申請数が米国を上回った!我が国の最新の5Gの成果:世界をリードする技術

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

ニューラルネットワークの詳細な説明、順方向伝播と逆方向伝播

主にロジスティック回帰について説明します。ロジスティック回帰には多くの基本概念が含まれており、ニュー...

3分レビュー! 2021年1月のロボット工学分野の重要な動向の概要

ポスト疫病時代において、国内ロボット市場は急速に発展しました。同時に、国際ロボット分野は前向きな発展...

絵が醜すぎて見せられない?機械学習用の描画テンプレートセットを作った人がいます。ダークモードもあります

機械学習の専門家は、ニューラル ネットワーク図の描き方について心配する必要がなくなりました。論文やブ...

AI生成画像に追加されたデジタル透かしは簡単に解読できると研究で判明

10月6日、EngadgetやWiredなどの海外メディアの報道によると、メリーランド大学の研究チー...

...

美団は食品配達に「ドローン」を使う予定?テクノロジーは飛躍的な進歩を遂げました!

以前のPC時代では、人々は携帯電話やウェブページを通じて近くのレストランに注文をしていたが、これには...

ヤン・ルカンは、テンセントのポートレート写真生成が自由にできることを明かした。

今回、ヤン・ルカンが初めて「変わり続ける大物」の仲間入りを果たした。アイアンマンの衣装とかっこいいサ...

AIとIoTが建設業界に価値をもたらす方法

モノのインターネット (IoT) センサーは主に運用スタックの可視性を提供し、リアルタイムで正確な運...