1時間から3.5分まで、Metaの新しいアルゴリズムは携帯電話で3D顔データを収集できる

1時間から3.5分まで、Metaの新しいアルゴリズムは携帯電話で3D顔データを収集できる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

人間の顔の 3D モデリングを完了するには、いくつのステップが必要ですか?

データ収集段階での答えは、「携帯電話 1 台 + 3.5 分」でした。

そうです、わずか 3.5 分間のデータで、忠実度が高く運転可能な、リアルな 3D 顔ポートレートを生成するのに十分です。

この研究は、ザッカーバーグ氏のメタバース プロジェクトの中核部門である Meta Reality Labs によるものです。この論文はSIGGRAPH 2022に採択されました。

著者らは、このアプローチは VR アプリケーションに適していると述べています。

つまり、VRの世界では、将来的には漫画のような顔で登場する必要がなくなるかもしれないのです。

代わりに、太った友達の本当の姿に簡単に会うことができます。

方法の原理

この結果を達成するための方法のフレームワークを下の図に示します。

具体的には、3つの部分に分かれています。

まず、大規模なマルチビュー顔データセットを使用してスーパーネットワークをトレーニングします。このスーパーネットワークは、ニューラルネットワークデコーダーを通じて個人のアバターパラメータを生成できます。

データセット内の顔は、マルチビューキャプチャシステムによって収集され、さまざまな年齢、性別、人種の 255 人の参加者の顔画像データが含まれています。

△左が撮影装置、右が撮影した顔

この巨大な3D顔を撮影する装置は、2019年にMeta社によって開発された。171台の高解像度カメラを搭載し、1秒あたり180GBのデータを記録できる。収集時間は約1時間です。

このハイパーネットワークでは、デコーダーの基本的な構成要素は、バイアス マップを備えた畳み込みアップサンプリング レイヤーであることに留意してください。

これらのバイアス マップは、レイ トレーシングを介してアバターをレンダリングするためのボリューム セルを生成するために使用されます。

さらに、デコーダー アーキテクチャは視線を他の顔の動きと区別できるため、VR アプリケーションでは視線追跡システムをより直接的に活用できます。

第二に、軽量な表情キャプチャです

この研究では、顔を撮影するために深度カメラを備えたスマートフォンのみが必要でした。

実験では、研究者らはiPhone 12を使用した。

収集プロセスは次のようになります。

収集されたデータは次のように処理されます。

  • 顔画像の各フレームの幾何学的形状とテクスチャを取得します。
  • 入力 RGB 画像に対して顔のランドマーク検出とポートレートのセグメンテーションを実行します。
  • 検出された顔のランドマーク、セグメンテーションのアウトライン、深度マップに合わせてテンプレート メッシュをフィットおよび変形します。
  • 各フレームのテクスチャはアンパックされ、集約されて完全な顔のテクスチャが得られます。

モデルをさらに改善する過程で、65 個の特定の表現を収集する必要があります。

最後に、この方法で出力される 3D 顔アバターは、ユーザーの外見に高度に一致するだけでなく、グローバル表現空間を通じてさらに駆動および制御することもできます。

研究者らは、採取プロセス全体には約3.5分かかると述べた。

ただし、モデリング プロセスはリアルタイムではなく、データ処理には数時間かかることに注意してください。

実験結果

ここまで述べてきましたが、どれくらい効果があるのか​​実験結果を見てみましょう。

Pinscreenの「1枚の写真から3Dデジタルアバターを構築する」方法(CVPR 2021)と比較すると、この方法はよりリアルな顔モデルを生成できます。

ハイデルベルク大学、ミュンヘン工科大学、マックス・プランク研究所などの研究機関による論文「Neural Head Avatars from Monocular RGB Videos」で提案された方法と比較すると、この方法はより忠実度の高い結果を生成できます。

しかし、著者はこの方法には、長い髪や眼鏡をうまく保持できないこと、アーティファクトが発生しやすいことなどの限界もあると指摘しています。さらに、この方法では照明条件に関しても一定の要件があります。

<<:  時代遅れのリソグラフィー機械は中国に販売できません!米国がオランダのASMLに不当な圧力をかけ、国産チップが再び抑制される

>>:  人工知能技術が英語学習にどのように役立つかについての簡単な議論

ブログ    
ブログ    
ブログ    

推薦する

AI 偽指紋が登場しても指紋ロック解除は安全ですか?

スマートフォンに生体認証指紋認証ロック解除技術が搭載されて以来、パスワードを入力する面倒なロック解除...

中国の大学はいかにして「新世代の人工知能」をリードできるのか?

教育省は最近、「高等教育機関における人工知能イノベーションのための行動計画」を発行しました。計画によ...

160本の論文を体系的に調査した、分野初の総合レビューが出版され、IJCAI 2021に受理されました。

[[397024]]ドメイン一般化 (DG) は近年非常に人気のある研究方向となっています。研究す...

JS データ構造とアルゴリズム_ソートおよび検索アルゴリズム

序文これは「JavaScript のデータ構造とアルゴリズムを学ぶ」の最後のブログです。これは、面接...

サイバーセキュリティにおいて人工知能はどのように活用されていますか?

ここでは、ネットワーク セキュリティにおける人工知能の応用について、主にネットワーク セキュリティ防...

人間の姿勢評価技術の開発と実装

[51CTO.com クイック翻訳]関連調査レポートによると、デジタルフィットネス市場の規模は202...

アプリケーションプロトコル識別における大規模言語モデルの応用

パート 01.アプリケーション プロトコル識別とは何ですか?アプリケーション プロトコル識別とは、ネ...

Hehe情報:AI + ビッグデータ、デジタル金融をさらに進化させる

[51CTO.comからのオリジナル記事] 2020年、COVID-19パンデミックは世界経済に深刻...

過剰に防御的?モスクワのバス運転手は中国人乗客の身元を手動で確認し、顔認識システムの使用も許可されている。

最近、モスクワのバス運転手たちは少々パニックになっている。チャットグループでは、「バスの中でアジア人...

人間を機械に置き換えることで雇用上の課題が生じています。労働市場の将来はどうなるのでしょうか?

現在、世界中で加速する人工知能の発展は各国から大きな注目を集めています。単純な機械動作でも複雑な知覚...

...

わかりやすい! 「高校数学」勾配降下法の数学的原理を理解する

「時期尚早な最適化は諸悪の根源である。」 —ドナルド・アーヴィン・クヌース、コンピュータ科学者、数...

人工知能の今後の発展における3つの大きなトレンド、それぞれが驚きである

人工知能は、知能機械や機械知能とも呼ばれ、人間が作った機械が示す知能を指します。人工知能は、医療、テ...

AIやIoT技術を活用した企業が職場復帰する際に考慮すべきこと

新型コロナウイルス感染症のパンデミックにより、社会の多くの分野でデジタル変革が加速し、人工知能ツール...

人工知能が「骨董品鑑定」の分野に参入、人間の職業に再び影響が及ぶか?

データの「食料」が増え続け、入手が容易になるにつれ、現在の人工知能は機械学習、言語処理、対話機能にお...