AIは顔の特徴、口を開ける、見つめる、眉を上げるなどの動作を完璧に模倣できるため、動画詐欺を防ぐことは不可能である。

AIは顔の特徴、口を開ける、見つめる、眉を上げるなどの動作を完璧に模倣できるため、動画詐欺を防ぐことは不可能である。

防ぐのは不可能だ。そもそも防ぐことは不可能だ。AIの模倣能力はここまで発達しているのか?

ある瞬間に顔の表情をキラキラとさせ、次の瞬間には全く同じ表情を再現し、睨みつけたり、眉を上げたり、口を尖らせたり、どんなに誇張した表情でも非常に上手に真似されています。

難易度を上げて、眉毛を高くしたり、目を大きく見開いたり、さらには口の形を歪ませたりしても、仮想キャラクターのアバターは表情を完璧に再現できます。

左側のパラメータを調整すると、右側の仮想アバターもそれに応じて変化します。

口と目をア​​ップで撮ってみます。完全に同じとまではいきませんが、表情はまったく同じです(右端)。

この研究はミュンヘン工科大学などの機関によるもので、表情、姿勢、視点を完全に制御できるリアルな頭部アバターを作成するために使用できる手法である GaussianAvatars を提案しています。


  • 論文アドレス: https://arxiv.org/pdf/2312.02069.pdf
  • 論文ホームページ: https://shenhanqian.github.io/gaussian-avatars

研究によると、コンピュータービジョンとグラフィックスでは、動く人間の仮想頭部を作成することは常に課題でした。特に、極端な表情や、しわや髪の毛などの細部を捉えることは難しく、生成された仮想キャラクターは視覚的なアーティファクトが発生しやすくなります。

Neural Radiance Fields (NeRF) とその派生型は、マルチビュー観測から静的シーンを再構築する際に一貫して優れた結果を示してきました。その後の研究では、NeRF が拡張され、人間がカスタマイズしたシナリオの動的なシーン モデリングが可能になりました。しかし、これらの方法は制御性に欠けており、新しいポーズや表情にうまく一般化できません。

最近登場した「3D ガウス スプラッティング」方式は、NeRF よりも高いレンダリング品質を実現し、リアルタイムのビュー合成に使用できます。ただし、このアプローチでは出力アニメーションを再構築することはできません。

この論文では、3D ガウス スプラットに基づく動的な 3D 人間の頭部表現方法である GaussianAvatars を提案します。

具体的には、FLAME (頭部全体をモデル化する) メッシュが与えられ、各三角形の中心に 3D ガウス分布を初期化します。 FLAME メッシュがアニメーション化されると、各ガウス分布は親三角形に対して移動、回転、および拡大縮小されます。次に、3D ガウス分布がグリッドの上に放射フィールドを形成し、グリッドが正確に位置合わせされていない領域や特定の視覚要素を再現できない領域を補正します。

仮想キャラクターの再構築において高い忠実度を実現するために、本論文ではバインディング継承戦略を導入します。さらに、この論文では、新しい表情やポーズを持つ仮想キャラクターをアニメーション化するために、忠実度と堅牢性のバランスをとる方法についても検討します。結果は、GaussianAvatars が新しいビューのレンダリング、ビデオ再生の駆動などにおいて既存の研究よりもはるかに優れていることを示しています。

方法の紹介


下の図 2 に示すように、GaussianAvatars への入力は、人間の頭部のマルチビュー ビデオ録画です。各タイムステップで、GaussianAvatars はフォトメトリック ヘッド トラッカーを使用して、FLAME パラメータをマルチビュー観測値と既知のカメラ パラメータに一致させます。

FLAME メッシュの頂点は異なる位置にありますが、同じトポロジを共有しているため、研究チームはメッシュの三角形と 3D ガウス スプラットの間に一貫した接続を作成することができました。スプラットは、微分可能なタイル ラスタライザーを使用して画像にレンダリングされます。これらの画像は実際の画像によって監視され、リアルな人間の頭部アバターを学習します。

静的シーンでは、最適な品質を得るために、ガウススプラットを高密度化および削減するための一連の適応密度制御操作も実行する必要があります。三角形とスプラット間の接続を切断せずにこれを実現するために、研究チームは、新しいガウス点が FLAME メッシュにバインドされたままになるように、バインディング継承戦略を設計しました。

実験結果

この研究では、新しいビューの合成による再構築の品質と、自己再現によるアニメーションの忠実度を評価します。下の図3は定性的な比較結果を示しています。新しいビューの合成では、すべての方法で適切なレンダリング結果が生成されます。 PointAvatar の結果を詳しく調べると、固定ポイント サイズによるポイント アーティファクトが見られますが、GaussianAvatars は 3D ガウスの異方性スケーリングによってこの問題を軽減します。

表 1 の定量的な比較からも同様の結論を導き出すことができます。 GaussianAvatars は、新しいビュー合成メトリックの点では他の方法を大幅に上回り、LPIPS の点では知覚の違いが大幅に少なく、自己再現でも優れています。自己再現は追跡された FLAME グリッドに基づいて行われるため、ターゲット イメージと完全に一致しない可能性があることに注意してください。

アバターアニメーションの実世界テストを行うために、この研究では図 4 のクロスアイデンティティ再現を実験しました。アバターは、ソース俳優のまばたきや口の動きを正確に再現し、しわなどの生き生きとした複雑なダイナミクスを示しました。


本研究では、方法の構成要素の有効性を検証するためにアブレーション実験も実施し、その結果を次の図に示します。

<<:  Microsoft Copilot は、コード インタープリター、DALL·E 3、ChatGPT を備えた完全バージョンに進化しました。

>>:  Microsoft Copilot の壮大なアップデート! GPT-4 Turboは無料で使用でき、Bingのディープサーチは30秒で正確な回答を提供できます

ブログ    

推薦する

ブロックチェーンとAIを最大限に活用する方法

急速に進化する今日のテクノロジー環境において、成功を目指す企業にとって、常に時代の先を行くことが重要...

[NCTS サミット レビュー] Ele.me Qiu Huafeng: バグの検出における人工知能の応用

2019年10月26日、Testinが主催する第2回NCTS中国クラウドテスト業界サミットが北京で開...

中小企業向けテレマーケティング戦略における人工知能とビッグデータの影響

中小企業、大企業を問わず、コールドコールは製品の売上とビジネスを拡大するための最も効果的な戦略の 1...

モンローとドラゴンマザーがあなたと話すことを学びましょう。静止画とビデオだけです

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Python 暗号化および復号化モジュール hashlib の 7 つの暗号化アルゴリズムの一覧

[[393258]]序文プログラムでは、MD5 sha1 など、多くの暗号化アルゴリズムをよく見かけ...

将来の顔認識技術の最大の問題は、それがほぼ間違いのないものであることだ

近年、顔認識技術は、女性や有色人種の誤検出率の高さや、個人の自由やプライバシーへの悪影響など、常に世...

...

...

OpenAI が静かに「価値観」を変更: AGI に全力で取り組んでいないなら関与しないでください

OpenAI はひっそりとその中核となる価値観を変えました。公式ウェブサイトに掲載されている6つのコ...

グラフ畳み込みネットワークの作り方は?これは最小限のNumpy実装です

グラフは非常に複雑な構造を持ち、大量の情報を含んでいるため、グラフ上での機械学習は困難な作業です。こ...

ロボット開発で人気の言語:不滅のJava、不滅のC/C++、そして新興のPython

プログラミング言語は流行ったり廃れたりするものですが、Java と C/C++ は変わりません。 [...

...

将来、AIと競争して仕事を得るための16の実践的なヒント

[[256943]]現在、多くの企業がすでに人工知能と機械学習を活用しており、これらのテクノロジーの...

リスク管理シナリオの全プロセスモデルの構築と適用

オンライン マイクロクレジットの一般的なリスク管理シナリオは、融資前、融資中、融資後の段階に分けられ...

実証済みのROIを備えた機械学習アプリケーション

モノのインターネット (IoT) は、接続デバイスの数の急増により、10 年以上にわたって着実に成長...