Meta、調整可能な照明とリアルな髪を備えたリアルタイム3Dアバター合成方式を発表

Meta、調整可能な照明とリアルな髪を備えたリアルタイム3Dアバター合成方式を発表

2021年、Facebookは「メタバース」を主力事業とし、社名をMetaに変更した。しかし、今年はChatGPTの登場により、生成AIが新たな研究トレンドとなり、多くのテクノロジー企業が生成AIを自社の重要な研究開発事業としています。しかし、Meta は VR/AR に関する研究を止めたことはありません。

最近、Meta の Codec Avatars Lab は、高忠実度で光を調整可能な仮想アバター合成方法である Relightable Gaussian Codec Avatars を提案しました。


  • 論文アドレス: https://arxiv.org/pdf/2312.03704.pdf
  • プロジェクトホームページ: https://shunsukesaito.github.io/rgca/

今年9月、MetaのCEOであるマーク・ザッカーバーグ氏は、メタバース上でMITの科学者レックス・フリードマン氏と1時間にわたる会話を行った。当時、二人の画像はスキャン技術を使って作られたユーザーの顔の3Dモデルであり、すでに非常にリアルなものでした。

Meta CEO のマーク・ザッカーバーグ氏と MIT の科学者レックス・フリードマン氏がメタバースで 1 時間にわたる会話を交わした。

現在、Relightable Gaussian Codec アバターは、髪の毛の可視化など、さらに詳細な機能を備えた、よりリアルでライト調整可能なリアルタイム 3D アバターを構築できます。

次に、Relightable Gaussian Codec Avatars メソッドのコアコンテンツと実験結果を見てみましょう。

方法の紹介

人間の視覚は顔の外観に非常に敏感であることがわかっているため、3D アバターの合成には常に課題がありました。

まず、人間の頭部は、さまざまな散乱および反射特性を示す非常に複雑で多様な材料で構成されています。たとえば、皮膚は微細構造と著しい表面下散乱により複雑な反射を示し、髪は半透明の繊維構造により多重反射を伴う面外散乱を示し、目には反射率の高い膜を持つ多層構造があります。一般に、特にリアルタイムで、これらすべてを正確に表現できる単一のマテリアル表現は存在しません。

本研究では、人間の頭部のさまざまな材質を統一的に特徴付けるために、球面ガウス分布を使用して全周波数反射のリアルタイム再照明を実現する、学習可能な放射伝達に基づく新しい再照明外観モデルを提案しました。

一方、基礎となるジオメトリの動きを正確に追跡してモデル化することは非常に困難です。この目的のために、本研究では、ガウススプラッティング技術を使用して複雑な幾何学的詳細を効果的にレンダリングする、3D ガウスベースの運転可能なアバターを提案します。

さらに、この研究では、再照明可能な明示的な眼球モデルを提案しました。これにより、初めて、他の顔の動きの視線制御や、完全なデータ駆動型の全周波数眼球反射が可能になり、眼球反射の忠実度がさらに向上しました。

最後に、Relightable Gaussian Codec Avatars は、動的な顔のシーケンス上の髪の毛や毛穴などの 3D 一貫性のあるサブミリメートルの詳細をキャプチャできます。

実験と結果

上の図 1 は、再構築された仮想キャラクターが、ポイント ライトや高解像度の環境マップなどの新しい表情、ビュー、照明を持つことができることを示しています。目の光の反射までも高周波の詳細を失うことなく周囲の環境を忠実に再現します。

図 3 に示すように、Relightable Gaussian Codec Avatars メソッドは、3D の一貫性と高忠実度の内部分解を実現できます。

幾何学的表現。この研究では、3 つのバリエーション(私たちのアプローチ、明示的な眼球モデル (EEM) を除外した私たちのアプローチ、およびボクセル ベースのプロトタイプ)を比較して、幾何学的コンポーネントを評価します。公平な比較のため、この研究では同じ外観モデルを使用し、幾何学的表現のみを変更しています(表1および2 B、D、H)。



図 4 は、3D ガウス ベースのジオメトリが MVP よりも肌の詳細と髪をより適切にモデル化できることを明確に示しています。さらに、完全なモデルを EEM と組み合わせて使用​​すると、目の反射が非常に説得力のあるものになります。ガウスモデルは、明るい光の下での SSIM メトリックを除くすべてのメトリックで優れたパフォーマンスを実現します。


外観の特徴づけ。外観表現については、この研究では外観モデルを既存の再照明可能な外観表現と比較します。表 1 および表 2 C、D、E に示すように、この論文の外観表現は、ほとんどの指標において既存の外観モデルよりも優れています。

図 5 に示すように、線形モデルでは正しい色を生成できますが、再照明の結果はぼやけており、高周波の詳細が欠けています。 EyeNeRF のビュー依存の球面調和関数はより詳細な反射を示しますが、鏡面反射を実装するために球面調和関数を使用しているため、表現力は制限されます。さらに、この研究では、ビュー依存の球面調和関数は過剰適合になりやすく、アニメーションにちらつきのアーティファクトが生じることが観察されました。対照的に、Relightable Gaussian Codec Avatars アプローチは帯域幅が制限されないため、高周波反射を実現します。

詳細については、原文論文を参照してください。

<<: 

>>:  初のオープンソースMoE大型モデル公開! 7Bx8の専門家、GPT-4に最も近いエピソード

ブログ    

推薦する

...

リアルタイムで「顔」をぼかす!実践的なチュートリアル

みなさんこんにちは。今日は実践的なチュートリアルを皆さんと共有したいと思います。いつものように、まず...

...

...

技術専門家によると、これらの15の仕事は決してAIに置き換えられないだろう

人工知能と機械学習の台頭により、企業はこれまでにない方法でプロセスを自動化し、生産性を向上させる機会...

モジュール式の機械学習システムで十分でしょうか?ベンジオの教師と生徒が答えを教えてくれます

ディープラーニングの研究者は、神経科学と認知科学からインスピレーションを得ています。隠れユニットや入...

快手は520で「ボーイフレンド」を送信。GANは敵対的ネットワークを生成し、独身者が「独身から抜け出す」のを助ける

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

両者は負荷分散アルゴリズムを要約する

さまざまな負荷分散アルゴリズムが存在します。これらを研究する際には、まずこれらの方法の概念を理解する...

チャット記録をアップロードして自分自身を「複製」する。このスタートアップは「ブラックミラー」の第 1 話を現実のものにしました

10年前に放映されたアメリカのテレビシリーズ「ブラックミラー」の第1話のタイトルは「Be Right...

考えてみると恐ろしいですね!人工知能は、成功率70%で人間の行動を操作することを学習したと疑われている。

人工知能に関しては、多くの人が懸念を表明しています。例えば、人類開発の最前線にいるホーキング博士とマ...

TensorFlow を使用した LSTM モデルの構築に関する詳細なチュートリアル

[[242005]]ターゲットこの記事の目的は、基本的な LSTM モデルを構築するために使用できる...

AIもボトルネックに遭遇。人工知能技術のストレージ性能要件の分析

2020年は多くの人々にとって忘れられない年です。新型コロナウイルス感染症の突然の発生は、ほぼすべて...

新しい AI スキル: 芸術の分類と鑑賞

芸術作品の分類と分析は難しいことで知られており、ごく少数の専門家だけが発言権を持ち、この分野への人工...

Python はとても使いやすいです! AI初心者でもすぐに顔検出を体験

[[423040]] Pythonを使用してAI認識テストを実行します。具体的な方法は、リアルタイム...

AmodalSynthDrive: 自動運転のための合成アモーダル知覚データセット

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...