自分だけのデジタルヒューマンを開発しよう、FACEGOODが音声駆動表現技術をオープンソース化

自分だけのデジタルヒューマンを開発しよう、FACEGOODが音声駆動表現技術をオープンソース化


現在、メタバースのトレンドの下、AIデジタルヒューマンもエンターテインメント、サービス、教育、マーケティングなど多くの分野に関わり始めています。市場に出回っている AI デジタルヒューマンには、仮想アシスタント、仮想ツアーガイド、仮想カスタマーサービスなどの機能的 AI デジタルヒューマン、仮想パートナー、仮想家族などのコンパニオン AI デジタルヒューマン、仮想アンカー、仮想アイドル、仮想教師、仮想医師、仮想ショッピングガイドなどのソーシャル AI デジタルヒューマンが含まれます。

浦東発展銀行の銀行業界初のデジタル従業員、シャオ・プー

Huya AI デジタルヒューマン ワンユ

Sohu News ClientとSogouが立ち上げた初の有名人「AIデジタルヒューマン」キャスター。

仮想デジタルヒューマンのマルチドメイン浸透を実現し、より多くのAIデジタルヒューマンシナリオを実装するために、 FACEGOODはAI仮想デジタルヒューマンのコアアルゴリズムである音声駆動リップシンクアルゴリズム技術を正式にオープンソース化することを決定しました。この技術がオープンソース化されると、AIデジタルヒューマンの開発ハードルが大幅に下がります

プロジェクトアドレス: https://github.com/FACEGOOD/Audio2Face

プロジェクトの背景

2019年、第10回中国国際ニューメディア短編映画祭の組織委員会とFACEGOODが共同で、陸川監督のAIデジタルヒューマンを発表しました。

陸川監督のAIデジタルヒューマンイメージ

観客はAIデジタルLu Chuanと直接対面して交流することができ、仮想空間と現実空間の間の次元の壁を打ち破るリアルタイムでリアルなコミュニケーションとインタラクティブな体験をもたらします。リアルタイムのインタラクティブ効果を実現するために、FACEGOOD は音声から表情アニメーションへのリアルタイム変換を実現するデジタルヒューマンリアルタイム音声インタラクションシステムを開発しました。

今日、FACEGOOD は音声駆動表現セット全体の技術コードをオープンソース化し、デジタル ヒューマン開発者に無料で提供することを決定しました。

技術通訳

この技術は、音声を表情ブレンドシェイプアニメーションにリアルタイムで変換できます。これを行う理由は、現在の業界では、BSを使用してデジタル画像のアニメーション表現を駆動することが依然として主流であり、アニメーションアーティストが最終的なアニメーション出力に最も芸術的な調整を加えるのに便利であり、送信されるデータ量が少なく、異なるデジタル画像間でアニメーションを転送するのに便利であるなどです。

FACEGOOD は、これらの実際の制作ニーズに基づいて、入力データと出力データに適切な調整を加えました。サウンド データに対応するラベルは、モデル アニメーションのポイント クラウド データではなく、モデル アニメーションのブレンドシェイプ ウェイトになりました。最終的な使用プロセスを以下の図 1 に示します。

上記のプロセスでは、 FACEGOODが主にAudio2Face部分を完成させ、ASRとTTSはAISpiechインテリジェントロボットによって完成されます。自分の音声や第三者の音声を使用する場合は、ASR と TTS を自分で置き換えることができます。

もちろん、 FACEGOOD Audio2face部分は、自分の好みに合わせて再トレーニングすることもできます。例えば、自分の声や他の種類の声、またはFACEGOODが使用しているものと異なるモデルバインディングを運転データとして使用したい場合は、下記のプロセスに従って、自分専用のアニメーション運転アルゴリズムモデルトレーニングを完了することができます

では、Audio2Face のフレームワークとは何でしょうか?独自のトレーニングデータをどのように作成しますか?詳細は以下の図 2 に示されています。

従来のニューラル ネットワーク モデルのトレーニングは、データの収集と生成、データの前処理、データ モデルのトレーニングという 3 つの段階に大まかに分けられます。


  • 最初の段階はデータの収集と生成です。ここには主にサウンドデータとサウンドに対応したアニメーションデータの2種類のデータがあります。音声データは主に中国語のアルファベットの発音といくつかの特殊な破裂音を記録しており、発音付きのテキストを可能な限り多く収録しています。アニメーション データは、録音した音声データを Maya にインポートし、独自のバインディングに従ってモデルの顔の特徴に応じて対応する発音アニメーションを作成します。
  • 第 2 段階では、主に LPC を介してサウンド データを処理し、サウンド データをアニメーションに対応するフレーム データに分割し、Maya アニメーション フレーム データをエクスポートします。
  • 3 番目の段階では、処理されたデータをニューラル ネットワークの入力として使用し、損失関数が収束するまでトレーニングします。




<<:  IDC: 2024年までにIoTシステムの約20%が人工知能をサポートすると予想

>>:  量子コンピューティングの画期的な論文3本がネイチャーの表紙に登場:忠実度は99%を超え、実用レベルに到達

ブログ    
ブログ    

推薦する

...

バイナリ検索ツリーの検証: インターネット上の古典的なアルゴリズム

[[427951]]この記事はWeChatの公開アカウント「Programmer Bear」から転載...

インテリジェントロボット:ハイエンド製造レベルの重要な指標

[51CTO.com からのオリジナル記事] ロボット製造は現在、知能ロボットの時代である 2.0 ...

清華大学の崔鵬氏:因果推論技術の最新開発動向

著者 | 真実を追求する実践主義者人工知能が発展し続けるにつれて、セキュリティとコンプライアンスの問...

Googleが複数の機能を発表:皮膚疾患の特定、衣服の試着シミュレーション

Googleは6月15日、旅行計画、衣料品の買い物、皮膚異常の特定などをカバーする一連の新しい検索ア...

AIが高度な数学の問題を生成し、新たな難易度に到達:MITは問題を生成し、質問に答え、採点できるアルゴリズムモデルを提案

少し前に、DeepMind による研究が Nature の表紙を飾り、直感を導くことで 2 つの主要...

人工知能はよりクールで実用的

2021年は間違いなく人工知能産業の発展にとって重要な年となるでしょう。わが国のスマートシティ建設の...

...

...

人工知能が裁判官の判断に取って代われば、司法権は誤った方向に導かれる可能性がある

近年、社会構造の転換と国民の権利意識の強化に伴い、中国の裁判所が受理する事件の規模は毎年二桁増加し、...

...

ロボットは感染症の蔓延を抑制するためにどのように役立つのでしょうか?

COVID-19の時代において、ロボット工学とテクノロジーは協力して伝染性ウイルスの拡散を防いでい...

アルゴリズミア:人工知能は2021年に主流になる

1月6日、海外メディアの報道によると、新型コロナウイルス肺炎流行の影響により、企業内での人工知能技術...