フェイフェイ・リーのチームの新しい作品: AI 透視眼、障害物を通して見る、そして人体のレンダリングと遮蔽における新たなブレークスルー

人物画像のビデオレンダリングは、AR/VR、映画、医療などの分野で広く使用されています。単眼カメラからのビデオの取得は比較的容易であるため、単眼カメラから人体をレンダリングすることが常に主な研究方法となってきました。 Vid2Avatar、MonoHuman、NeuMan などの方法は素晴らしい結果を達成しました。これらの方法では、カメラビューが 1 つしかないにもかかわらず、新しい視点から人体を正確にレンダリングできます。

しかし、既存の方法のほとんどは、人体をレンダリングする際の理想的な実験シナリオ向けに設計されています。これらのシーンでは、障害物はほとんど存在せず、人体のすべての部分がすべてのフレームで完全に表示されます。しかし、これは実際のシーンとは大きく異なります。実際のシーンでは障害物が複数存在することが多く、人体が移動中に障害物に遮られることがあります。

ほとんどのニューラルレンダリング手法では、遮蔽のために現実世界のシーンを処理するのが困難ですが、主な理由の 1 つは監視の欠如です。実際のシーンでは、人体の外観、形状、姿勢に関する実際の教師ありデータを提供できないことが多いため、モデルはわずかな既存の証拠に基づいて他の情報を推測する必要がありますが、これは、特に人体の大部分が隠されている場合には非常に困難です。

多くのニューラルメソッドで採用されているポイントベースのレンダリングスキームにより、2 つの非常に近い座標でも、一方が遮蔽され、もう一方が遮蔽されていない場合、レンダリングされた出力に大きな違いが生じる可能性があります。そのため、遮蔽されたシーンに適応しない方法では、遮蔽に遭遇したときに人間の体が不完全に表示されたり、浮遊するオブジェクトやその他の視覚的なエラーがレンダリングされたりすることがよくあります。

最近、有名な人工知能教授のフェイフェイ・リー氏がXで3D人体レンダリングの新たな進歩を発表しました。それは、遮蔽があっても人体を完全に、高い忠実度でレンダリングできるWild2Avatarと呼ばれる新しいモデルです。

Wild2Avatar は、遮蔽物のある自然界の単眼ビデオをニューラルレンダリングする方法です。研究チームは、オクルージョンを考慮したシーンのパラメータ化を提案し、シーンをオクルージョン、人体、背景の 3 つの部分に分離し、これら 3 つの部分を個別にレンダリングして、新しい最適化目標を設計しました。

論文アドレス: https://arxiv.org/pdf/2401.00431.pdf
プロジェクトアドレス: https://cs.stanford.edu/~xtiange/projects/wild2avatar/

方法の紹介

Wild2Avatar は、遮蔽物のある自然界の単眼ビデオで、完全なジオメトリと高忠実度の外観を備えた 3D 人間をレンダリングできます。 Wild2Avatar モデルの全体的なアーキテクチャを以下の図 2 に示します。

具体的には、Wild2Avatar は遮蔽物、人体、背景を 3 つの独立したニューラルフィールドとしてモデル化し、遮蔽物に関係なく人体の鮮明な 3D 再構築を可能にします。この目的のために、本研究ではシーン自己分解技術を採用し、反転球面パラメータ化に基づくオクルージョンを考慮したシーンパラメータ化を提案した。

この研究では、反転球パラメータ化によって定義された最初の球に加えて、2 番目の内側球も導入し、カメラから内側球の端までの領域を遮蔽領域として定義しました。この領域を個別にレンダリングすることで、Wild2Avatar はオクルージョンをシーンの残りの部分からうまく分離します。

さらに、人体の高忠実度かつ完全なレンダリングを保証するために、この研究では、ピクセル測光損失、シーン分解損失、オクルージョン分離損失、および幾何学的整合性損失を組み合わせて 3 つのレンダリングを集約することを提案しました。

実験と結果

データセット

OcMotion: このデータセットは、人間がさまざまな物体と接触し、またこれらの物体によって部分的に遮られている屋内シーンで構成されています。研究者たちは、データセット内の 48 本のビデオから、さまざまな程度の閉塞を示す 5 本のビデオを選択しました。モデルをトレーニングするために各ビデオから 100 フレームのみを抽出し、データセットによって提供されるカメラマトリックス、人間のポーズ、および SMPL パラメーターを使用して最適化プロセスを初期化しました。フレーム内のバイナリ人間セグメンテーションマスクは、Segment Everything (SAM) によって取得されます。

実世界のビデオ: 研究者らは、YouTube からダウンロードしたビデオと、チームが携帯電話のカメラで撮影したビデオの 2 つの実世界のビデオで追加の実験を実施しました。彼らはトレーニング用にこれら 2 つのビデオから 150 フレームを抽出し、SLAHMR を使用してカメラマトリックス、人間の姿勢、および SMPL パラメーターを取得しました。グラウンドトゥルースポーズが提供されていないため、これらのビデオの評価では、さまざまな方法が不正確な推定に対して堅牢であることも実証されています。

遮蔽された単眼カメラのビデオの結果

図 5 は、2 つのデータセットにおける Vid2Avatar と Wild2Avatar のレンダリング結果を比較しています。

表 1 では、研究者らは 2 つの方法の定量的な結果を報告し、可視部分でのレンダリングパフォーマンスが同等であることを確認しています。ただし、Wild2Avatar は、ボディジオメトリと遮蔽された部分のレンダリング品質において、一貫して Vid2Avatar よりも優れていることに注意してください。

OccNeRFとの比較

研究者らは、Wild2Avatar を最近リリースされた遮蔽された人体レンダリングソフトウェア OccNeRF と比較しました。比較結果を図6に示します。

公平な比較のために、彼らはそれぞれ 500 フレームと 100 フレームの画像で OccNeRF をトレーニングしました。暗黙的な SDF 表現がないため、OccNeRF にはフローターやアーティファクトなどの一般的な欠陥が発生します。 OccNeRF は隠れた人間の部分を復元することもできますが、人体は通常予期せず歪んでしまい、レンダリング品質が低下します。

シーン分解の可視化

Wild2Avatar は 3 つのシーン部分を組み合わせてレンダリングします。人物と背景/遮蔽物は 2 つの異なるニューラルフィールドでモデル化されます。図 7 は、これら 3 つのシーン部分の個別のレンダリングを示しています。この研究は人間のレンダリングのみに焦点を当てているため、背景や遮蔽物のアーティファクトのないレンダリングは、この研究の範囲外であることに注意してください。

アブレーション実験

Wild2Avatar は遮蔽された外観を回復できますが、提案されたパラメータ化を行わないとレンダリング結果に多くのアーティファクトが表示されます (図 8 の最初の行を参照)。

提案された損失関数が採用されない場合、遮蔽された領域を完全に復元することはできません（図 8 の 2 行目を参照）。

提案された損失関数は、ボディジオメトリが SMPL メッシュの事前条件と一致するように強制する正規化子として機能し、間違ったポーズのレンダリングを防ぎます (図 8 の 3 行目を参照)。

詳細については、原著論文をお読みください。

<<:

>>: 中国AIGC広告・マーケティング業界パノラマレポート：5つの大きな変化と4つの大きな影響、生成AIにより「1人」のための広告作成が可能に