フェイフェイ・リーのチームの新しい作品: AI 透視眼、障害物を通して見る、そして人体のレンダリングと遮蔽における新たなブレークスルー

フェイフェイ・リーのチームの新しい作品: AI 透視眼、障害物を通して見る、そして人体のレンダリングと遮蔽における新たなブレークスルー

人物画像のビデオレンダリングは、AR/VR、映画、医療などの分野で広く使用されています。単眼カメラからのビデオの取得は比較的容易であるため、単眼カメラから人体をレンダリングすることが常に主な研究方法となってきました。 Vid2Avatar、MonoHuman、NeuMan などの方法は素晴らしい結果を達成しました。これらの方法では、カメラビューが 1 つしかないにもかかわらず、新しい視点から人体を正確にレンダリングできます。

しかし、既存の方法のほとんどは、人体をレンダリングする際の理想的な実験シナリオ向けに設計されています。これらのシーンでは、障害物はほとんど存在せず、人体のすべての部分がすべてのフレームで完全に表示されます。しかし、これは実際のシーンとは大きく異なります。実際のシーンでは障害物が複数存在することが多く、人体が移動中に障害物に遮られることがあります。

ほとんどのニューラル レンダリング手法では、遮蔽のために現実世界のシーンを処理するのが困難ですが、主な理由の 1 つは監視の欠如です。実際のシーンでは、人体の外観、形状、姿勢に関する実際の教師ありデータを提供できないことが多いため、モデルはわずかな既存の証拠に基づいて他の情報を推測する必要がありますが、これは、特に人体の大部分が隠されている場合には非常に困難です。

多くのニューラル メソッドで採用されているポイント ベースのレンダリング スキームにより、2 つの非常に近い座標でも、一方が遮蔽され、もう一方が遮蔽されていない場合、レンダリングされた出力に大きな違いが生じる可能性があります。そのため、遮蔽されたシーンに適応しない方法では、遮蔽に遭遇したときに人間の体が不完全に表示されたり、浮遊するオブジェクトやその他の視覚的なエラーがレンダリングされたりすることがよくあります。

最近、有名な人工知能教授のフェイフェイ・リー氏がXで3D人体レンダリングの新たな進歩を発表しました。それは、遮蔽があっても人体を完全に、高い忠実度でレンダリングできるWild2Avatarと呼ばれる新しいモデルです。

Wild2Avatar は、遮蔽物のある自然界の単眼ビデオをニューラル レンダリングする方法です。研究チームは、オクルージョンを考慮したシーンのパラメータ化を提案し、シーンをオクルージョン、人体、背景の 3 つの部分に分離し、これら 3 つの部分を個別にレンダリングして、新しい最適化目標を設計しました。

  • 論文アドレス: https://arxiv.org/pdf/2401.00431.pdf
  • プロジェクトアドレス: https://cs.stanford.edu/~xtiange/projects/wild2avatar/

方法の紹介

Wild2Avatar は、遮蔽物のある自然界の単眼ビデオで、完全なジオメトリと高忠実度の外観を備えた 3D 人間をレンダリングできます。 Wild2Avatar モデルの全体的なアーキテクチャを以下の図 2 に示します。

具体的には、Wild2Avatar は遮蔽物、人体、背景を 3 つの独立したニューラル フィールドとしてモデル化し、遮蔽物に関係なく人体の鮮明な 3D 再構築を可能にします。この目的のために、本研究ではシーン自己分解技術を採用し、反転球面パラメータ化に基づくオクルージョンを考慮したシーンパラメータ化を提案した。

この研究では、反転球パラメータ化によって定義された最初の球に加えて、2 番目の内側球も導入し、カメラから内側球の端までの領域を遮蔽領域として定義しました。この領域を個別にレンダリングすることで、Wild2Avatar はオクルージョンをシーンの残りの部分からうまく分離します。

さらに、人体の高忠実度かつ完全なレンダリングを保証するために、この研究では、ピクセル測光損失、シーン分解損失、オクルージョン分離損失、および幾何学的整合性損失を組み合わせて 3 つのレンダリングを集約することを提案しました。

実験と結果

データセット

OcMotion: このデータセットは、人間がさまざまな物体と接触し、またこれらの物体によって部分的に遮られている屋内シーンで構成されています。研究者たちは、データセット内の 48 本のビデオから、さまざまな程度の閉塞を示す 5 本のビデオを選択しました。モデルをトレーニングするために各ビデオから 100 フレームのみを抽出し、データセットによって提供されるカメラ マトリックス、人間のポーズ、および SMPL パラメーターを使用して最適化プロセスを初期化しました。フレーム内のバイナリ人間セグメンテーションマスクは、Segment Everything (SAM) によって取得されます。

実世界のビデオ: 研究者らは、YouTube からダウンロードしたビデオと、チームが携帯電話のカメラで撮影したビデオの 2 つの実世界のビデオで追加の実験を実施しました。彼らはトレーニング用にこれら 2 つのビデオから 150 フレームを抽出し、SLAHMR を使用してカメラ マトリックス、人間の姿勢、および SMPL パラメーターを取得しました。グラウンドトゥルースポーズが提供されていないため、これらのビデオの評価では、さまざまな方法が不正確な推定に対して堅牢であることも実証されています。

遮蔽された単眼カメラのビデオの結果

図 5 は、2 つのデータセットにおける Vid2Avatar と Wild2Avatar のレンダリング結果を比較しています。

表 1 では、研究者らは 2 つの方法の定量的な結果を報告し、可視部分でのレンダリング パフォーマンスが同等であることを確認しています。ただし、Wild2Avatar は、ボディ ジオメトリと遮蔽された部分のレンダリング品質において、一貫して Vid2Avatar よりも優れていることに注意してください。

OccNeRFとの比較

研究者らは、Wild2Avatar を最近リリースされた遮蔽された人体レンダリング ソフトウェア OccNeRF と比較しました。比較結果を図6に示します。

公平な比較のために、彼らはそれぞれ 500 フレームと 100 フレームの画像で OccNeRF をトレーニングしました。暗黙的な SDF 表現がないため、OccNeRF にはフローターやアーティファクトなどの一般的な欠陥が発生します。 OccNeRF は隠れた人間の部分を復元することもできますが、人体は通常予期せず歪んでしまい、レンダリング品質が低下します。

シーン分解の可視化

Wild2Avatar は 3 つのシーン部分を組み合わせてレンダリングします。人物と背景/遮蔽物は 2 つの異なるニューラル フィールドでモデル化されます。図 7 は、これら 3 つのシーン部分の個別のレンダリングを示しています。この研究は人間のレンダリングのみに焦点を当てているため、背景や遮蔽物のアーティファクトのないレンダリングは、この研究の範囲外であることに注意してください。

アブレーション実験

Wild2Avatar は遮蔽された外観を回復できますが、提案されたパラメータ化を行わないとレンダリング結果に多くのアーティファクトが表示されます (図 8 の最初の行を参照)。

提案された損失関数が採用されない場合、遮蔽された領域を完全に復元することはできません(図 8 の 2 行目を参照)。

提案された損失関数は、ボディジオメトリが SMPL メッシュの事前条件と一致するように強制する正規化子として機能し、間違ったポーズのレンダリングを防ぎます (図 8 の 3 行目を参照)。

詳細については、原著論文をお読みください。

<<: 

>>:  中国AIGC広告・マーケティング業界パノラマレポート:5つの大きな変化と4つの大きな影響、生成AIにより「1人」のための広告作成が可能に

ブログ    
ブログ    
ブログ    

推薦する

AI アシスタントの人気が高まっていますが、次に購入するスマートフォンはなぜ電話なのでしょうか?

大きな模型ブームが到来し、アイアンマンのジャービスが最も忙しい「マーベルヒーロー」(手動の犬の頭)に...

投票の未来: AI、ブロックチェーン、生体認証

投票攻撃は止まらない2016年の米国大統領選挙は紆余曲折を経て、最終的にトランプ氏が米国大統領に選出...

スタンフォード大学の非接触型デバイスは、アクチュエータをスリーブに「縫い付ける」ことで、タッチ情報を遠隔で送信できる。

世界的なパンデミックは2年近く続いており、リモートワークで何日も過ごし、他の人との物理的な接触を切望...

[NCTS サミット レビュー] Ele.me Qiu Huafeng: バグの検出における人工知能の応用

2019年10月26日、Testinが主催する第2回NCTS中国クラウドテスト業界サミットが北京で開...

...

GoogleのオープンソースAIは92%の精度で音を区別できる

[[249335]] VentureBeatによると、Googleの人工知能研究部門は音声認識におい...

中国科学院の専門家が人工知能の混乱を批判:AIチップなど存在しない

Titanium Media Note:先週日曜日、IEEE SMC 協会 (IEEE システム、人...

人工知能とビッグデータの時代において、一般の人々はどうやってお金を稼ぐのでしょうか?

将来、旅行には自動運転車、食事にはプログラムされたスナックストリート、ヘアカットにはロボット理髪師、...

自動化: 現代の旅行計画に革命を起こす!

休暇の計画を立てることは、かつては時間がかかり、困難な作業でした。目的地の調査、宿泊施設の探し方から...

素晴らしい操作です!たった5行のコードで画像認識AIが作れる

この記事では、人工知能の分野、特にコンピューター ビジョンの分野について簡単に紹介し、そこに含まれる...

Reverse Midjourneyがオンラインになりました!デジタルアーティストがスティーブ・ジョブズに魅了され、写真がボルヘスの精神世界に入る

ブラウザに住むアーティストが開発した、ニューヨーク発のAIカメラアプリが人気を集めている。もしスティ...

機械学習: TensorFlow 2.0 の 10 のヒント

この記事では、TensorFlow 2.0 の 10 の機能について説明します。 [[326673]...

顔認識技術の長所と短所

かつては、特に『スタートレック』や『2001年宇宙の旅』などのSF作品では未来の文明の進歩の象徴とみ...