この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 十分なコーパスがあれば、人間の顔の動きと発話動作を同期させることができることを示す研究が増えています。 2年前、カーネギーメロン大学の研究者たちは、ある人の顔の動きを別の人に転送する方法を説明する論文を発表しました。 今年6月、サムスンの応用科学者らは、人物の頭部のクローズアップショットで眉毛、口、まつ毛、頬をアニメーション化できるエンドツーエンドのモデルを発表した。わずか数週間後、Udacity は音声ナレーションからスタンドアップ ビデオ講義を自動的に生成できるシステムを実演しました。 マイクロソフトの研究チームは、これまでの研究と作業に基づいて、今週、ある技術を提案しました。彼らは、この技術によってトーキングヘッドアニメーションのリアリティを向上させることができると主張している。以前は、ヘッドアニメーションの生成には、ニュートラルなトーンのクリアで比較的ノイズのないオーディオが必要でした。現在、研究者らは、この技術によって音声シーケンスを発話内容や背景雑音などの要素に分解し、雑音が多く「感情的な」データサンプルを使用できると述べている。 Leifeng.com 注: 画像はMicrosoftから提供 ご存知のとおり、話し方は異なります。同じ単語でも、人によって文脈が異なり、持続性、振動の振幅、イントネーションなども異なります。声の内容に加えて、声自体にも豊富な情報が含まれており、人の感情状態、アイデンティティ(性別、年齢、人種)、性格などを明らかにすることができます。 実際、Microsoft の研究者が提案した手法は、潜在表示を備えた変分オートエンコーダ (VAE) の学習に基づいています。 VAE は、入力オーディオを、エンコードされたコンテンツ、表情、その他の変化要素を含むさまざまな表現に分解できます。入力オーディオに基づいて、いくつかのコンテンツ表現シーケンスが分布からサンプリングされます。このシーケンスは、入力された顔画像とともに、顔のアニメーション処理のためにビデオ ジェネレーターに送られます。 VAE をトレーニングしてテストするために、研究者は次の 3 つのデータ セットを選択しました。
研究者らは、GRID と CREMA-D からのデータをモデルに入力して音声と感情の表現を識別し、次に、ピーク信号対雑音比 (PSNR) と構造類似性指数 (SSIM) という 2 つの定量的指標を使用して、生成されたビデオの品質を評価しました。 研究チームによれば、パフォーマンスの面では、彼らの方法はあらゆる基準で他の明瞭で中立的な話し方と同等だという。彼らは、このアプローチは感情の全範囲にわたって一貫して機能できるだけでなく、現在最先端の音声アバター方式すべてと互換性があることを指摘しています。 注目すべきは、その変種固有の学習可能な事前アプローチは、アイデンティティや性別などの他の音声要素にも拡張でき、将来の研究の一環として検討できるということです。研究者らは、ノイズの多い感情的な音声サンプルでモデルをテストしてその有効性を検証し、音声が変化する場合に現在の最先端技術よりも優れていることを示しました。 注: この記事は、venturebeat に掲載された KYLE WIGGERS の記事を翻訳したものです。 |
>>: Google が 7 つの言語で新しいデータセットをリリース: BERT などの多言語モデル タスクの精度が最大 3 倍向上します。
畳み込みニューラル ネットワークは、ディープ ニューラル ネットワークの中で非常に人気のあるネットワ...
データセットの構築、ニューラル ネットワークのコーディング、モデルのトレーニングに何週間も費やした後...
COVID-19の流行は中国の武漢で最初に発生して以来、少なくとも100の国と地域に広がっています。...
12月7日、CreditEaseの代表者が「スマートテクノロジーカンファレンス」に出席し、IT運用の...
デュアルスタイルGAN高解像度のポートレートスタイル転送アルゴリズムDualStyleGAN ...
百度が1月30日に発表した公式ニュースによると、百度はウイルスRNAの解析時間を55分から27秒に短...
MITテクノロジーレビューは毎年、その年の「トップ10のブレークスルーテクノロジー」を選出していま...
翻訳者 |陳俊レビュー | Chonglou現在、人々は、回答の検索、グラフィック コンテンツの生成...
重慶には「マスター、急いでいます!」というスピードがあります。シートベルトを締めると、地面に近いとこ...
シャパシュとはモデルの解釈可能性と理解可能性は、多くの研究論文やオープンソース プロジェクトの焦点と...
3月4日のニュース、外国メディアの報道によると、ネイチャー誌に最近発表された研究によると、中国のエン...
[[376956]]過去10年間の人工知能の波の中で、ディープラーニングに代表される人工知能技術は、...
[[262566]]今日では、人工知能を使用するワークロードが普及しつつあり、その一部は世界最速のコ...
皆さんもご存知のとおり、大規模言語モデル (LLM) はディープラーニングの状況を変えつつあり、人間...