デジタルヒューマンブラック技術が公開、わずか数分で話す動画を再現可能に

デジタルヒューマンブラック技術が公開、わずか数分で話す動画を再現可能に

デジタルヒューマンと共存できるサイバーパンクの世界への準備はできていますか?

将来の仮想世界で多くのアプリケーションを構築するためのバックボーンとして、リアルな仮想デジタルヒューマンを作成する方法は、コンピュータービジョン、コンピューターグラフィックス、マルチメディアなどの人工知能関連の分野から常に注目されている重要な研究テーマです。

最近、中国科学技術大学、魯神師科技有限公司、浙江大学、清華大学が共同開発したAD-NeRF技術が学界と産業界から注目を集めています。

中国科学技術大学の張居勇研究グループと他の研究機関の研究者らは、最近人気のNeRF(Neural Radiance Fields)技術に基づいて、音声信号から会話ビデオを直接生成するアルゴリズムを提案した。対象人物の数分間の会話映像のみで、超リアルな人物の映像再現と音声駆動を実現できます。

論文の宛先:
出典:http://arxiv.org/pdf/2103.11078.pdf

プロジェクトアドレス:
https://yudongguo.github.io/ADNeRF/

「仮想人間建築を手の届く範囲に」

人工知能技術が着実に実装されるにつれて、新しい技術を社会に変革し、実用化していくことが学界と産業界におけるコンセンサスとなってきました。このプロセスにおいて、「デジタルバーチャルヒューマン」は間違いなく主流のビジョンの中で非常に「目を引く」概念です。対象キャラクターの最終的な表現形式に応じて、デジタル仮想人間は 2D 型と 3D 型、またはアニメーション、擬人化、実在の人物に分類できます。 2021年春節祝賀会では、全国が家族と再会する時期に、バーチャルアイドルの羅天依が初めてテレビ祝賀会の舞台に登場した。 3月の2回の会期中、CCTV.comが作成したデジタル仮想記者「小C」が、全人代代表とリアルタイムでつながり、生き生きとした人物イメージで政策ニュースを報道する任務を引き受けた。

[[391113]]

上から順に、サムスンのバーチャルデジタルヒューマンのネオン、バーチャルアイドルの羅天依、映画キャラクターのアリータです。

iQiyiが先に発表した「2019年バーチャルアイドル観察レポート」によると、現在中国では少なくとも3億9000万人がバーチャルアイドルをフォローしているという。 Douyin、Kuaishou、Bilibiliなどの主要なショートビデオプラットフォームには、少なくとも数万人のアクティブなデジタルバーチャルヒューマンアンカーが存在します。デジタル仮想人物は、汎エンターテイメントの分野だけでなく、仮想医師、仮想教師、仮想顧客サービス、仮想ショッピングガイドなど、他の一連のソーシャルアプリケーションにも幅広い想像空間を提供します。

人間とコンピュータのインタラクションの重要な媒体として、仮想人間のリアルな外観、自然な表情や動きをいかに効率的に構築するかは、この分野で常に注目されている研究テーマです。その中で、従来のコンピュータグラフィックスやアニメーション制作技術をベースとして、鮮明でリアルな仮想人間の行動ダイナミクス(音声内容に合わせた口の形や表情など)を構築するには、専門的で複雑な手作業が必要であり、仮想デジタルヒューマンの広範な応用に大きな制限があります。近年、ディープラーニング手法に基づく仮想人間構築技術は大きな進歩を遂げています。しかし、画像ベースの生成的敵対的ネットワーク(GAN)法であれ、3D顔再構成モデ​​ルに基づく顔編集レンダリング法であれ、既存の学習ベースの方法には、大量のトレーニングデータに依存することや、生成される結果の品質が低いことなどの問題があります。 2017年にSuwajanakornらが提案したSynthesizingObama研究を例に挙げてみましょう。この手法では、オバマ氏単独の役の音声駆動スピーチを実現するために、オバマ氏自身の最大14時間のビデオトレーニングデータを使用し、最終的に優れた画像とビデオ効果を確保しました。しかし、GAN ベースの顔と音声を駆使した多くの作業は、GAN モデル自体のトレーニングの複雑さによって制限されており、通常は 256 x 256 を超えない解像度のビデオ結果しか出力できません。

GAN ベースの方法で生成された画像は解像度が低いですが、ニューラル放射フィールド レンダリングに基づく AD-NeRF は任意の解像度のレンダリングをサポートします。

AD-NeRF方式では、対象人物の3~5分の会話映像だけで、任意の声でキャラクターを操作できる効果が得られます。それだけでなく、生成された結果は高解像度の画質と自然な表情を備えており、従来の方法よりもはるかに優れています。この「安価で高品質」な方法は、少量のトレーニング データのみで高品質の最終結果を生成するため、仮想の人間の画像を作成するための強力で便利なツールとなることは間違いありません。

フェイスマジックはどのように行われますか?

次の例の図は、AD-NeRF 作業のアルゴリズム フロー フレームワークを示しています。

(1)音声から動的神経放射場へのクロスモーダルマッピング:話者の顔、胴体、背景の高品質なディテールとダイナミクスを捉えるために、著者らはDeepSpeechの音声特徴と最新の神経放射場法(NeRF)を組み合わせ、想定されるカメラ位置、視線、対応する音声特徴を入力とし、各光線に沿った連続点の色と密度の値を出力する暗黙の関数Fをモデル化した。光線に沿って積分することで、光線が指すピクセル点の最終的な色値が決定される。

(2)頭部と胴体の完全かつ安定した統合:発話中に顔と胴体の動きが完全に統一されていないという事実を考慮して、著者らは元の神経放射場モデルを異なる機能を持つ2つの暗黙のモデル表現に分割した。まず、トレーニングデータの各フレームに対してセマンティックセグメンテーションを実行しました。顔部分の3次元モーションパラメータは、連続したオプティカルフローの複数フレームを使用して推定され、人間の頭部の神経放射場をトレーニングするための仮想カメラ外部情報に直接変換されました。人間の頭部モデルに基づくボディ モジュールは、人間の頭部のモーション パラメータを追加の条件情報として使用し、体の部分のモデリングを制御します。この設計の明らかな利点は、頭と体の姿勢の不一致によって生じるジッター効果を解決できることです。

(3)背景と視点の編集のサポート:神経放射場によって描写される暗黙の3次元情報を利用して、著者らは背景を任意に置き換えたり、観察角度を変えたりするその後の応用をさらに検討した。これらのアプリケーションを実装するには、テスト オーディオを入力するときに、想定されるカメラの外部情報と背景画像を変更するだけです。これらのアプリケーションの例は次の図に示されています。

AD-NeRF はどのような可能性をもたらすのでしょうか?

かつて、デジタルヒューマンはSF小説や映画で人気のサイバーパンクのテーマでしたが、現在ではデジタル仮想人間作成技術の反復と更新により、この未来的なコンセプトは前例のないスピードで一般家庭に浸透しつつあります。では、AD-NeRF はどのような実用的な仮想人間アプリケーションに技術的な可能性をもたらすのでしょうか?

まず、ビデオ会議の分野では、上記のように、AD-NeRF は任意の文字画像に対して音声によるサポートを簡単にサポートできます。高い帯域幅を必要とするビデオ会議アプリケーションでは、ビデオ コーデック信号をリアルタイムで送信する必要がなくなり、話者自身の仮想イメージを駆動するためのオーディオ信号のみを送信するだけで済む場合があります。 AD-NeRFがサポートする背景の置き換えや姿勢編集は、ARヘルメットなどのデバイスと組み合わせることで、自由に作り出せる3次元のシーンの中で、まるでその場にいるかのような臨場感や相手との会話を味わうことができます。

第二に、AD-NeRF では、特定の文字画像の動的放射フィールドをトレーニングするのに数分間のビデオしか必要ありません。親しい友人といつでも直接会ってコミュニケーションが取れるように、その友人のデジタル画像を残しておきたい場合、AD-NeRF のアルゴリズム設計により、このデジタル画像の作成の難しさが大幅に軽減されます。サイバースペースでの不滅はもはや夢ではないかもしれません。

最後に、AD-NeRF は間違いなく、現在の商用デジタル仮想人間構築プロセスを改善する大きな可能性を秘めています。リアルな仮想アンカー、フレンドリーな仮想ショッピング ガイド、本格的な仮想教師など、どんなものを作成する場合でも、AD-NeRF を使用すると簡単に作成できます。必要なのは、表現力豊かな俳優が音声ビデオを録音することだけです。残りは、ビジネスイノベーションにおける幅広い応用の見込みがある自動音声駆動型テクノロジーに任せることができます。

一方、強力な技術的権限を持つ一方で、閾値とデータ要件がますます低くなっているため、デジタル仮想人間の作成には多くのリスクと論争が伴います。たとえば、偽のデジタル画像を使用して他人の財産を盗んだり、偽のニュースを広めるためにビデオを偽造したり、さらには故意に他人を中傷して人格を侮辱したりすることなどです。昨年、DeepFakeやZaoなど一連の「AI顔変え」人工知能アプリケーションが、倫理やプライバシーの問題に関する幅広い社会的な議論を引き起こしました。それに応じて、DeepForensicsをテーマにした一連の「顔変え検出」研究も学術界で生まれました。

現在、AD-NeRF はアプリケーション レベルからより高度な基礎アルゴリズムを使用して、神経放射フィールドを通じて 3 次元の動きの詳細を暗黙的にモデル化し、完全でリアルな画像フレームをレンダリングし、本物の顔と偽物の顔のビデオの区別と検出に対してより価値のある課題を提示しています。

中国のことわざに「悪魔は一尺高ければ、道は十尺高くなる」とある。セキュリティとプライバシー保護のニーズから、より強力な偽造防止および検出アルゴリズムは、将来、仮想人間技術とともに必然的に共通の競争と発展の双星となるだろう。公平性と正義の観点から、デジタル時代の産物であるバーチャルヒューマンも、法律、規制、業界ルールの制約に従う必要があります。将来、仮想デジタルヒューマンは知性、利便性、信頼性の代名詞となり、この世界での情報交換や対人交流の向上に大きく貢献すると信じています。

<<:  人工知能の簡単な歴史 | (1)相農は人工知能の誕生を目撃した

>>:  MITのロボットは、浸透する無線周波数を使って隠れた物体を感知する

ブログ    
ブログ    

推薦する

開発から生産まで: 機械学習に関する 7 つの実践的な提案

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

中国チームが超伝導において新たな大きな進歩を遂げました! LK-99のような物質は、再現性と検証性を備えた超伝導性を示す。

室温超伝導に新たな進歩はありますか?華南理工大学、中南大学、中国電子科技大学の研究者らは12月19日...

アルゴリズムの問​​題を解決するための Python 3 コード フレームワーク

序文現在インターンシップをしており、仕事量はそれほど多くないので、空き時間を利用してPATのウェブサ...

各自動車会社の「地図なし」インテリジェント運転ソリューションについてお話ししましょう

01 起源産業発展のニーズ2022年下半期には、高速道路や都市高速道路でのインテリジェント運転の問題...

感染症予防・抑制において、サービスロボットは「必須」なのか?

人工知能の概念の普及に伴い、サービスロボット業界も近年ますます注目を集めています。資本市場のサービス...

原理から応用まで: ロジスティック回帰アルゴリズムの簡単な説明

ロジスティック回帰は、バイナリ分類タスクで最も一般的に使用される機械学習アルゴリズムの 1 つです。...

ワクチン生産を加速するには?答えは医学ではなくテクノロジーにある

世界各国の政府は新型コロナウイルス感染症の流行に対抗するためさまざまな対策を講じているが、世界的な流...

大規模モデルは小規模モデルに正確にフィードバックし、知識の蒸留はAIアルゴリズムのパフォーマンスを向上させるのに役立ちます。

01 知識蒸留の誕生の背景近年、ディープニューラルネットワーク (DNN) は、特にコンピューター...

AI 主導のパーソナライズ学習: テクノロジーが教育にもたらす革命

かつてはSFの世界の話のように思われていた人工知能(AI)という言葉は、今や現実のものとなり、私たち...

AIがイノベーションの大きな原動力となる理由

近年、人工知能は新興技術から必需品へと徐々に変化してきました。より大規模な企業の問題に対する解決策を...

クラウド アーキテクチャに生成 AI を追加するためのヒント

デビッド・リンシカム企画 | ヤン・ジェンデータの可用性とセキュリティからモデルの選択と監視まで、生...

シングルトランスフォーマー情報検索、Google は微分可能な検索インデックスでデュアルエンコーダーモデルに勝利

情報検索 (IR) は、インターネットの誕生以来、揺るぎない地位を築いてきました。膨大なデータからユ...

新しい展開のアイデア | Minuet: GPU での 3D スパース畳み込みの高速化

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...