フェイフェイ・リーのチームの新しい作品: AI 透視眼、障害物を通して見る、そして人体のレンダリングと遮蔽における新たなブレークスルー

フェイフェイ・リーのチームの新しい作品: AI 透視眼、障害物を通して見る、そして人体のレンダリングと遮蔽における新たなブレークスルー

人物画像のビデオレンダリングは、AR/VR、映画、医療などの分野で広く使用されています。単眼カメラからのビデオの取得は比較的容易であるため、単眼カメラから人体をレンダリングすることが常に主な研究方法となってきました。 Vid2Avatar、MonoHuman、NeuMan などの方法は素晴らしい結果を達成しました。これらの方法では、カメラビューが 1 つしかないにもかかわらず、新しい視点から人体を正確にレンダリングできます。

しかし、既存の方法のほとんどは、人体をレンダリングする際の理想的な実験シナリオ向けに設計されています。これらのシーンでは、障害物はほとんど存在せず、人体のすべての部分がすべてのフレームで完全に表示されます。しかし、これは実際のシーンとは大きく異なります。実際のシーンでは障害物が複数存在することが多く、人体が移動中に障害物に遮られることがあります。

ほとんどのニューラル レンダリング手法では、遮蔽のために現実世界のシーンを処理するのが困難ですが、主な理由の 1 つは監視の欠如です。実際のシーンでは、人体の外観、形状、姿勢に関する実際の教師ありデータを提供できないことが多いため、モデルはわずかな既存の証拠に基づいて他の情報を推測する必要がありますが、これは、特に人体の大部分が隠されている場合には非常に困難です。

多くのニューラル メソッドで採用されているポイント ベースのレンダリング スキームにより、2 つの非常に近い座標でも、一方が遮蔽され、もう一方が遮蔽されていない場合、レンダリングされた出力に大きな違いが生じる可能性があります。そのため、遮蔽されたシーンに適応しない方法では、遮蔽に遭遇したときに人間の体が不完全に表示されたり、浮遊するオブジェクトやその他の視覚的なエラーがレンダリングされたりすることがよくあります。

最近、有名な人工知能教授のフェイフェイ・リー氏がXで3D人体レンダリングの新たな進歩を発表しました。それは、遮蔽があっても人体を完全に、高い忠実度でレンダリングできるWild2Avatarと呼ばれる新しいモデルです。

Wild2Avatar は、遮蔽物のある自然界の単眼ビデオをニューラル レンダリングする方法です。研究チームは、オクルージョンを考慮したシーンのパラメータ化を提案し、シーンをオクルージョン、人体、背景の 3 つの部分に分離し、これら 3 つの部分を個別にレンダリングして、新しい最適化目標を設計しました。

  • 論文アドレス: https://arxiv.org/pdf/2401.00431.pdf
  • プロジェクトアドレス: https://cs.stanford.edu/~xtiange/projects/wild2avatar/

方法の紹介

Wild2Avatar は、遮蔽物のある自然界の単眼ビデオで、完全なジオメトリと高忠実度の外観を備えた 3D 人間をレンダリングできます。 Wild2Avatar モデルの全体的なアーキテクチャを以下の図 2 に示します。

具体的には、Wild2Avatar は遮蔽物、人体、背景を 3 つの独立したニューラル フィールドとしてモデル化し、遮蔽物に関係なく人体の鮮明な 3D 再構築を可能にします。この目的のために、本研究ではシーン自己分解技術を採用し、反転球面パラメータ化に基づくオクルージョンを考慮したシーンパラメータ化を提案した。

この研究では、反転球パラメータ化によって定義された最初の球に加えて、2 番目の内側球も導入し、カメラから内側球の端までの領域を遮蔽領域として定義しました。この領域を個別にレンダリングすることで、Wild2Avatar はオクルージョンをシーンの残りの部分からうまく分離します。

さらに、人体の高忠実度かつ完全なレンダリングを保証するために、この研究では、ピクセル測光損失、シーン分解損失、オクルージョン分離損失、および幾何学的整合性損失を組み合わせて 3 つのレンダリングを集約することを提案しました。

実験と結果

データセット

OcMotion: このデータセットは、人間がさまざまな物体と接触し、またこれらの物体によって部分的に遮られている屋内シーンで構成されています。研究者たちは、データセット内の 48 本のビデオから、さまざまな程度の閉塞を示す 5 本のビデオを選択しました。モデルをトレーニングするために各ビデオから 100 フレームのみを抽出し、データセットによって提供されるカメラ マトリックス、人間のポーズ、および SMPL パラメーターを使用して最適化プロセスを初期化しました。フレーム内のバイナリ人間セグメンテーションマスクは、Segment Everything (SAM) によって取得されます。

実世界のビデオ: 研究者らは、YouTube からダウンロードしたビデオと、チームが携帯電話のカメラで撮影したビデオの 2 つの実世界のビデオで追加の実験を実施しました。彼らはトレーニング用にこれら 2 つのビデオから 150 フレームを抽出し、SLAHMR を使用してカメラ マトリックス、人間の姿勢、および SMPL パラメーターを取得しました。グラウンドトゥルースポーズが提供されていないため、これらのビデオの評価では、さまざまな方法が不正確な推定に対して堅牢であることも実証されています。

遮蔽された単眼カメラのビデオの結果

図 5 は、2 つのデータセットにおける Vid2Avatar と Wild2Avatar のレンダリング結果を比較しています。

表 1 では、研究者らは 2 つの方法の定量的な結果を報告し、可視部分でのレンダリング パフォーマンスが同等であることを確認しています。ただし、Wild2Avatar は、ボディ ジオメトリと遮蔽された部分のレンダリング品質において、一貫して Vid2Avatar よりも優れていることに注意してください。

OccNeRFとの比較

研究者らは、Wild2Avatar を最近リリースされた遮蔽された人体レンダリング ソフトウェア OccNeRF と比較しました。比較結果を図6に示します。

公平な比較のために、彼らはそれぞれ 500 フレームと 100 フレームの画像で OccNeRF をトレーニングしました。暗黙的な SDF 表現がないため、OccNeRF にはフローターやアーティファクトなどの一般的な欠陥が発生します。 OccNeRF は隠れた人間の部分を復元することもできますが、人体は通常予期せず歪んでしまい、レンダリング品質が低下します。

シーン分解の可視化

Wild2Avatar は 3 つのシーン部分を組み合わせてレンダリングします。人物と背景/遮蔽物は 2 つの異なるニューラル フィールドでモデル化されます。図 7 は、これら 3 つのシーン部分の個別のレンダリングを示しています。この研究は人間のレンダリングのみに焦点を当てているため、背景や遮蔽物のアーティファクトのないレンダリングは、この研究の範囲外であることに注意してください。

アブレーション実験

Wild2Avatar は遮蔽された外観を回復できますが、提案されたパラメータ化を行わないとレンダリング結果に多くのアーティファクトが表示されます (図 8 の最初の行を参照)。

提案された損失関数が採用されない場合、遮蔽された領域を完全に復元することはできません(図 8 の 2 行目を参照)。

提案された損失関数は、ボディジオメトリが SMPL メッシュの事前条件と一致するように強制する正規化子として機能し、間違ったポーズのレンダリングを防ぎます (図 8 の 3 行目を参照)。

詳細については、原著論文をお読みください。

<<: 

>>:  中国AIGC広告・マーケティング業界パノラマレポート:5つの大きな変化と4つの大きな影響、生成AIにより「1人」のための広告作成が可能に

ブログ    
ブログ    
ブログ    

推薦する

...

目標を達成するために、Google AI は自身の体をこのように変形させました...

[[246219]]強化学習 AI がゲームをプレイすることは珍しくありません。インテリジェントエ...

AIをベッド管理に適用し、追跡予測により患者にベッドの空きを確保

[[228998]]画像出典: Visual China医療分野はAIが進歩していく上で重要な方向で...

自動運転の実用化にはまだいくつかのハードルがある

ここ数年、世界的な自動運転はまだ発展途上であったとすれば、各国の政策の推進により、自動運転に関する最...

...

マイクロソフトが人工知能の小規模スタートアップBonsaiを買収

海外メディアの報道によると、マイクロソフトは水曜日、小規模な人工知能スタートアップ企業であるボンサイ...

人工知能がクラウドコンピューティングの発展に与える影響

クラウド コンピューティングは、組織の業務、情報の保存、意思決定の方法を変え、技術革新と分析研究への...

ビッグデータと AI: 3 つの実際の使用例

ビッグデータと人工知能は、企業が新しい方法で顧客体験を向上させるのに役立ちます。 AIとビッグデータ...

生成AIは昨年人気が高まったが、米国のIT関連の仕事の数はわずか700件しか増加しなかった

1月8日のニュースによると、2023年には、生成型人工知能が企業や投資家の間で大きなブームを引き起こ...

小売業と教育における感情認識に焦点を当てていますが、Mizao.com はどのように違うのでしょうか?

[51CTO.com からのオリジナル記事] 喜び、悲しみ、恐怖、平静、怒り、驚き、軽蔑、嫌悪など...

エンティティと値オブジェクトの特性を識別する

[[411622]]正確さは集計の設計に直接影響するため、エンティティと値オブジェクトを区別すること...

人工知能チュートリアル(I):基礎

今日、コンピュータサイエンスの分野の学生や実務家にとって、人工知能、データサイエンス、機械学習、ディ...

...

マイクロソフト、生成AIシステムのリスクを特定するためのPyRITをリリース

海外メディアの報道によると、マイクロソフトは2月26日、生成AIシステムのリスクを積極的に特定するた...

AI主導のサイバーセキュリティチームが人間の能力拡張に取り組む

サイバー脅威の範囲は、企業資産や選挙から健康データや物理インフラまで拡大しており、新興技術の予期せぬ...