一枚の写真で「踊り続ける」ことができ、SHERFは人間の神経放射場を駆動できる新しい方法を一般化することができます

一枚の写真で「踊り続ける」ことができ、SHERFは人間の神経放射場を駆動できる新しい方法を一般化することができます

人体神経放射線分野の目標は、2D 人体画像から高品質の 3D デジタル人間を復元して駆動し、それによって 3D 人体形状情報を直接取得するために多くの人的資源と物質的資源を消費することを回避することです。この方向への探求は、仮想現実や支援現実のシナリオなど、一連のアプリケーション シナリオに大きな影響を与える可能性があります。

既存の人間の神経放射場生成および駆動技術は、主に 2 つのカテゴリに分けられます。

  • 最初のタイプのテクノロジーは、単眼またはマルチカメラの人体ビデオを使用して、3D デジタル ヒューマンを再構築して駆動します。このタイプのテクノロジーは、主に特定のデジタルヒューマンのモデリングと駆動を目的としています。最適化には時間がかかり、大規模なデジタルヒューマンの再構築に一般化する能力がありません。
  • 2 番目の技術は、3D デジタル ヒューマン再構築の効率を向上させることです。人間の神経放射場を再構築するための入力として、多視点の人体画像を使用することが提案されています。

この 2 番目のタイプの方法は 3D 人体再構成において一定の成果を達成していますが、このタイプの方法では、多くの場合、入力として特定のカメラ角度でのマルチビュー人体画像が必要になります。現実の世界では、カメラのどの角度から撮影しても人体の写真は 1 枚しか撮れないことが多く、このタイプの技術の応用には課題​​があります。

ICCV2023では、南洋理工大学-SenseTime共同研究センターのS-Labチームが、単一画像に基づく一般化可能で駆動可能な人間の神経放射場法であるSHERFを提案しました。

写真

  • 論文アドレス: https://arxiv.org/abs/2303.12791
  • プロジェクトアドレス: https://skhu101.github.io/SHERF
  • オープンソースコード: https://github.com/skhu101/SHERF

SHERF は、ユーザーが入力した任意のカメラ角度での 3​​D 人間画像、その角度でのカメラと人間のモーション シェイプ (SMPL) パラメータ、および指定されたターゲット出力空間での任意のカメラ パラメータと人間のモーション シェイプ (SMPL) パラメータに基づいて、3D デジタル ヒューマンを再構築して駆動できます。この方法は、任意のカメラ角度での人体の写真を使用して、3D の人間の神経放射フィールドを再構築して駆動することを目的としています。

写真

図1

根拠

人間の神経放射線場の再構築と駆動は、主に 5 つのステップに分かれています (図 2 を参照)。

写真

図2

最初のステップは、ターゲット空間から標準空間への座標変換です。ユーザーが入力したターゲット出力空間内の任意の人間の動作ボディパラメータとカメラの外部パラメータに基づいて、ターゲット空間に光線が放射され、一連の空間点が光線上でサンプリングされます。SMPLアルゴリズムの逆線形ブレンドスキニングを使用して、ターゲット空間内の空間点を標準空間に変換します。

2 番目のステップは、標準空間内の 3D ポイントに対応する階層的特徴を抽出することです。

  • グローバル特徴抽出: 2D エンコーダーを使用して入力画像から 1D 特徴を抽出し、マッピング ネットワークとスタイルベース エンコーダーを使用して、1D 特徴を標準空間の 3 平面特徴にさらに変換します。次に、標準空間の 3D ポイントを 3 平面に投影して、対応するグローバル特徴を抽出します。
  • ポイントレベルの特徴抽出: まず、2D エンコーダー ネットワークを使用して入力画像から 2D の特徴を抽出し、観測空間の SMPL の頂点を入力画像のイメージング プレーンに投影して対応する特徴を抽出します。次に、SMPL アルゴリズムの逆線形ブレンド スキニングを使用して、観測空間の SMPL の頂点を標準空間に転送してスパース 3D テンソルを構築し、スパース畳み込みを使用して標準空間の 3D ポイントのポイントレベルの特徴を取得します。
  • ピクセル整合特徴抽出: まず、2D エンコーダ ネットワークを使用して入力画像から 2D 特徴を抽出し、SMPL アルゴリズムの線形ブレンド スキニングを使用して標準空間の 3D ポイントを観測空間に変換し、それらを入力画像のイメージング プレーンに投影して、対応するピクセル レベルの特徴を抽出します。

3 番目のステップは機能融合 (Feature Fusion Transformer) です。これは、Transformer モデルを使用して 3 つの異なるレベルの機能を融合します。第 4 ステップは、人間の神経放射場をデコードして対応する画像情報を生成することです。標準空間の 3D ポイント座標、光線方向ベクトル、および対応する特徴を人間の神経放射場デコード ネットワークに入力して、3D ポイントのボリューム密度と色情報を取得し、さらにボリューム レンダリングに基づいてターゲット空間の対応するピクセルの色値を生成し、最終ユーザーが入力したターゲット出力空間の任意の人間の動作ボディ パラメータとカメラ外部パラメータの下で画像を取得します。

上記の手順に基づいて、ターゲット出力空間内の任意の人間の動作シーケンス (SMPL) パラメータを指定すると、2D 画像から 3D デジタル ヒューマンを復元して駆動できます。

結果の比較

この論文では、THuman、RenderPeople、ZJU_MoCap、HuMMan という 4 つの人間のデータセットで実験を実施しました。

この研究では、多視点の人間画像を一般化できる最先端の人間神経放射場法であるNHPとMPS-NeRFを比較します。この論文では、ピーク信号対雑音比 (PSNR)、構造類似性指数 (SSIM)、学習知覚画像パッチ類似性 (LPIPS) を比較します。下の図に示すように、この論文はすべてのデータセットとすべての指標において、これまでのソリューションを大幅に上回っています。

写真

SHERF が 3D 人体を動的に駆動した結果を次の図に示します。

写真

写真

写真

写真

写真

写真

写真

写真

写真

左から右へ: 入力画像、モーションシーケンス 1、モーションシーケンス 2

本論文では、実際の DeepFashion データに対する一般化と駆動効果も検証しています。以下の図 3 に示すように、任意の入力画像が与えられた場合、本論文では、単一の視点から SMPL を推定する高度なアルゴリズムを使用して SMPL と対応するカメラ角度を推定し、本論文で提案されたアルゴリズムを使用して 3D 人体を駆動します。実験結果は、SHERF が強力な一般化能力を持っていることを示しています。

写真

写真

写真

左から右へ: 入力画像、モーションシーケンス 1、モーションシーケンス 2

応募の見通し

ゲーム映画制作、バーチャルリアリティ、拡張現実など、デジタルヒューマンモデリングを必要とするシナリオでは、ユーザーは、専門的なスキルやソフトウェアを必要とせずに、任意のカメラ角度からの 3D 人体画像、その角度でのカメラパラメータ、および対応する人体動作形状パラメータ (SMPL) を入力することで、3D デジタルヒューマンを再構築して操作できます。

結論

本論文では、単一の入力画像に基づいて一般化および駆動できる人間の神経放射場法 SHERF を提案します。この記事にはまだいくつかの欠陥があることは認められる。

まず、入力画像では人体表面の一部が観察できず、レンダリング結果に特定の欠陥が観察される場合があります。 1 つの解決策は、オクルージョンを考慮した人体表現を確立することです。

第二に、入力画像内の欠落している人体部分をどのように補うかは、依然として難しい問題です。本論文では、再構成の観点から SHERF を提案するが、これは人体の観測不可能な部分に対しては決定論的な補完しか提供できず、観測不可能な部分の再構成には多様性が欠けている。実現可能な解決策は、生成モデルを使用して、観察できない人体の部位に多様で高品質の 3D 人体効果を生成することです。

ついに、私たちのコードは完全にオープンソース化され、1 枚の画像に基づいて生成された多数のデジタル ヒューマンの結果がプロジェクトのホームページにアップロードされました。誰でもダウンロードしてプレイできます。

<<:  企業の75%が現在ChatGPTを無効化しているか、永久に無効化する予定である。

>>:  Google: 大規模モデルは出現する能力だけでなく、長いトレーニング時間を経て「理解」する能力も備えている

ブログ    
ブログ    

推薦する

...

このAI「マスターレベル」の棒人間レベルはネットユーザーを驚かせた。GANすら使っていない

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Nature: 科学者がディープラーニングを使って初めて人間の意識を定量化

今、科学者たちは人間の意識について新たな理解を得ています!この研究では、ディープラーニングアルゴリズ...

ユニバーサルミッション!清華大学、線形複雑性を実現するバックボーンネットワークFlowformerを提案|ICML2022

タスクの一般性は、基本モデル研究の中心的な目標の 1 つであり、ディープラーニング研究が高度なインテ...

...

行列分解はディープラーニングに勝る! MIT が時系列データベース tspDB をリリース: 機械学習に SQL を使用

人類が歴史から学んだ唯一の教訓は、人類は歴史から何も学べないということだ。 「しかし、機械は学習でき...

時空間予測に適した時系列表現学習法

最近、香港科技大学、上海AIラボなどの組織が共同で時系列の教師なし事前トレーニングに関する論文を発表...

元Googleロボット部門責任者が伸縮自在のアシスタントロボットを開発

海外メディアの報道によると、過去3年間、グーグルの元ロボット工学部長であるアーロン・エドシンガー博士...

今後 10 年間で人工知能が私たちの生活を支配するようになるとき、携帯電話はどのようなものになるでしょうか?

テクノロジー業界のほとんどの人は、今後 10 年以内にユビキタス テクノロジーが 1 日のあらゆる瞬...

App Store 中国地域がアルゴリズムを調整?一部のアプリではフルネームによる検索が機能しません

最近、中国の Apple App Store で「奇妙な現象」が発生しました。一部のアプリケーション...

機械学習を生産性に変えるには、よくある 4 つの落とし穴に注意してください。

[[279043]]ビッグデータダイジェスト制作出典: topbots編纂者:呉帥ある技術カンファ...

世界の AI イベントのトップ 10 を見ると、AI ガバナンスはどのようにして利益を達成し、損害を回避できるのでしょうか?

はじめに:過去数年間を振り返ると、AIに関するネガティブな事件が頻繁に発生しており、政府は一連の政策...

AI設計においてデータプライバシーを優先する必要がある理由

人工知能はヘルスケア、テクノロジー、その他の分野の発展に不可欠ですが、データのプライバシーがどのよう...

効率が1200倍にアップ! MIT、医薬品製造向けの新たなAIモデルを開発

海外メディアTech Xploreによると、MITの研究者らは最近、新しいタンパク質分子の構造を事前...

...