AIは顔の特徴、口を開ける、見つめる、眉を上げるなどの動作を完璧に模倣できるため、動画詐欺を防ぐことは不可能である。

AIは顔の特徴、口を開ける、見つめる、眉を上げるなどの動作を完璧に模倣できるため、動画詐欺を防ぐことは不可能である。

防ぐのは不可能だ。そもそも防ぐことは不可能だ。AIの模倣能力はここまで発達しているのか?

ある瞬間に顔の表情をキラキラとさせ、次の瞬間には全く同じ表情を再現し、睨みつけたり、眉を上げたり、口を尖らせたり、どんなに誇張した表情でも非常に上手に真似されています。

難易度を上げて、眉毛を高くしたり、目を大きく見開いたり、さらには口の形を歪ませたりしても、仮想キャラクターのアバターは表情を完璧に再現できます。

左側のパラメータを調整すると、右側の仮想アバターもそれに応じて変化します。

口と目をア​​ップで撮ってみます。完全に同じとまではいきませんが、表情はまったく同じです(右端)。

この研究はミュンヘン工科大学などの機関によるもので、表情、姿勢、視点を完全に制御できるリアルな頭部アバターを作成するために使用できる手法である GaussianAvatars を提案しています。


  • 論文アドレス: https://arxiv.org/pdf/2312.02069.pdf
  • 論文ホームページ: https://shenhanqian.github.io/gaussian-avatars

研究によると、コンピュータービジョンとグラフィックスでは、動く人間の仮想頭部を作成することは常に課題でした。特に、極端な表情や、しわや髪の毛などの細部を捉えることは難しく、生成された仮想キャラクターは視覚的なアーティファクトが発生しやすくなります。

Neural Radiance Fields (NeRF) とその派生型は、マルチビュー観測から静的シーンを再構築する際に一貫して優れた結果を示してきました。その後の研究では、NeRF が拡張され、人間がカスタマイズしたシナリオの動的なシーン モデリングが可能になりました。しかし、これらの方法は制御性に欠けており、新しいポーズや表情にうまく一般化できません。

最近登場した「3D ガウス スプラッティング」方式は、NeRF よりも高いレンダリング品質を実現し、リアルタイムのビュー合成に使用できます。ただし、このアプローチでは出力アニメーションを再構築することはできません。

この論文では、3D ガウス スプラットに基づく動的な 3D 人間の頭部表現方法である GaussianAvatars を提案します。

具体的には、FLAME (頭部全体をモデル化する) メッシュが与えられ、各三角形の中心に 3D ガウス分布を初期化します。 FLAME メッシュがアニメーション化されると、各ガウス分布は親三角形に対して移動、回転、および拡大縮小されます。次に、3D ガウス分布がグリッドの上に放射フィールドを形成し、グリッドが正確に位置合わせされていない領域や特定の視覚要素を再現できない領域を補正します。

仮想キャラクターの再構築において高い忠実度を実現するために、本論文ではバインディング継承戦略を導入します。さらに、この論文では、新しい表情やポーズを持つ仮想キャラクターをアニメーション化するために、忠実度と堅牢性のバランスをとる方法についても検討します。結果は、GaussianAvatars が新しいビューのレンダリング、ビデオ再生の駆動などにおいて既存の研究よりもはるかに優れていることを示しています。

方法の紹介


下の図 2 に示すように、GaussianAvatars への入力は、人間の頭部のマルチビュー ビデオ録画です。各タイムステップで、GaussianAvatars はフォトメトリック ヘッド トラッカーを使用して、FLAME パラメータをマルチビュー観測値と既知のカメラ パラメータに一致させます。

FLAME メッシュの頂点は異なる位置にありますが、同じトポロジを共有しているため、研究チームはメッシュの三角形と 3D ガウス スプラットの間に一貫した接続を作成することができました。スプラットは、微分可能なタイル ラスタライザーを使用して画像にレンダリングされます。これらの画像は実際の画像によって監視され、リアルな人間の頭部アバターを学習します。

静的シーンでは、最適な品質を得るために、ガウススプラットを高密度化および削減するための一連の適応密度制御操作も実行する必要があります。三角形とスプラット間の接続を切断せずにこれを実現するために、研究チームは、新しいガウス点が FLAME メッシュにバインドされたままになるように、バインディング継承戦略を設計しました。

実験結果

この研究では、新しいビューの合成による再構築の品質と、自己再現によるアニメーションの忠実度を評価します。下の図3は定性的な比較結果を示しています。新しいビューの合成では、すべての方法で適切なレンダリング結果が生成されます。 PointAvatar の結果を詳しく調べると、固定ポイント サイズによるポイント アーティファクトが見られますが、GaussianAvatars は 3D ガウスの異方性スケーリングによってこの問題を軽減します。

表 1 の定量的な比較からも同様の結論を導き出すことができます。 GaussianAvatars は、新しいビュー合成メトリックの点では他の方法を大幅に上回り、LPIPS の点では知覚の違いが大幅に少なく、自己再現でも優れています。自己再現は追跡された FLAME グリッドに基づいて行われるため、ターゲット イメージと完全に一致しない可能性があることに注意してください。

アバターアニメーションの実世界テストを行うために、この研究では図 4 のクロスアイデンティティ再現を実験しました。アバターは、ソース俳優のまばたきや口の動きを正確に再現し、しわなどの生き生きとした複雑なダイナミクスを示しました。


本研究では、方法の構成要素の有効性を検証するためにアブレーション実験も実施し、その結果を次の図に示します。

<<:  Microsoft Copilot は、コード インタープリター、DALL·E 3、ChatGPT を備えた完全バージョンに進化しました。

>>:  Microsoft Copilot の壮大なアップデート! GPT-4 Turboは無料で使用でき、Bingのディープサーチは30秒で正確な回答を提供できます

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Baidu AI開発者会議が進行中、重要なニュースが次々と発表されている

百度AI開発者会議は予定通り7月4日から5日まで北京国家会議センターで開催されました。百度の創業者、...

...

95 年以降の DAMO アカデミーのインターン生がマイクロソフトに勝ち、最も難しい NLP タスクの世界記録を更新

アリババAIは、常識QA分野の権威あるデータセットであるCommonsenseQAで新たな世界記録を...

AIの実践、Pythonを使って自動運転を体験しよう!

設置環境Gym は、強化学習アルゴリズムの開発と比較のためのツールキットです。gym ライブラリとそ...

AIがフィンテックを変える4つの方法

[[432805]]金融業界の企業は、人工知能 (AI) を使用して複数のソースからのデータを分析お...

1990年代生まれの中国人教授が、1年間でネイチャー誌に3本の論文を発表した。最初の量子ニューラルネットワークQuantumFlowはオープンソースです

[[432543]]ニューラル ネットワークは、現在のコンピューティング アプリケーションで最も急速...

ビル・ゲイツ氏:GPT-5はGPT-4よりそれほど良くはならない、生成AIは限界に達した

ビル・ゲイツ氏の暴露は機械学習コミュニティで話題となっている。 「GPT-5 は GPT-4 よりそ...

マスク氏はAIに無料でデータを取得させない:Twitterは閉鎖され、ログインしないと誰も見ることができない

現在、Twitter アカウントにログインしないと、Twitter コンテンツの Web バージョン...

機械学習を使うべきタイミング

著者 | 杜家平なぜこのトピックを議論するのですか?このトピックを議論する本質的な理由は、顧客にデー...

「車輪の再発明」を拒否し、EasyDL で AI カスタム開発を体験できます

[[414878]]私たちは、あらゆるものが感知され、接続され、インテリジェントになる世界に突入して...

...

アルゴリズムの品質を評価するにはどうすればよいでしょうか?

序文アルゴリズムの品質を評価するには、そのアルゴリズムが問題を解決できるかどうかを確認することが重要...

...

AIを活用して混雑した都市での駐車のストレスを軽減

混雑した市街地でドライバーが駐車スペースを見つけるのを助ける人工知能がバース大学で開発されている。こ...

転換点までのカウントダウン:AI サーバーが市場を完全に支配するにはどれくらいの時間がかかるのでしょうか?

ハイパースケーラーとクラウド プロバイダーがインフラストラクチャの計画を検討する場合、まず全体的な動...