Uni-TTS音声合成モデルのアップグレード:1つの音声、複数の言語、高忠実度、高効率

Uni-TTS音声合成モデルのアップグレード:1つの音声、複数の言語、高忠実度、高効率

最近、マイクロソフトは最新の Azure ニューラル ネットワーク音声合成技術 Uni-TTSv3 多言語音声合成モデルをリリースしました。以前の世代の音声合成モデルと比較すると、Uni-TTSv3 音声合成は、忠実度が高く、速度が速く、トレーニング時間が短く、コストが低く、効率が高くなります。 Microsoft は、Uni-TTSv3 でアメリカ英語の合成女性音声 Jenny をアップグレードしました。新しくアップグレードされたJenny Multilingual Neuralは、クロスランゲージ機能を備え、14の国と地域の言語をサポートしています。さらに、Uni-TTSv3 に基づいて構築されたディープ ニューラル ネットワーク カスタマイズ音声サービスでは、言語間カスタマイズ サービス機能も拡張されました。お客様は、1 つの言語の録音データをコーパスとして提供するだけで、カスタマイズ モデルが同時に複数の言語を話せるようにトレーニングできます。

ジェニー多言語ニューラルオーディオの例

技術の継続的な進化により、Microsoft のインテリジェント音声パフォーマンスは実際の人間に匹敵するようになり、110 を超える国と地域の言語をサポートし、270 を超えるニューラル ネットワーク音声を提供しています。音声の使用シナリオをさらに拡大し、さまざまな業界の顧客の多様なニーズを満たすために、Microsoft Intelligent Voice は新しいサービスと機能を常に模索しています。

l多言語音声技術要件: 1つの音声だけで、世界中のユーザーを同時にカバーする多言語アプリケーション要件を生成できます。たとえば、仮想ゲームでは、多言語機能を備えたNPC(ノンプレイヤーキャラクター)を作成したり、インテリジェントなカスタマーサービスなどのシナリオで複数の言語を使用してユーザーとコミュニケーションしたりして、ユーザーエクスペリエンスを向上させることができます。

l安定的かつ効率的なプラットフォーム要件:音声モデルをより堅牢(システム安定性)にして、カスタマイズされたサービスシナリオでも外部環境の影響を受けないようにし、さまざまな種類のトレーニングデータを安定的かつ効率的に処理できるようにします。

上記の要求に対処し、以下の機能を改善するために、新世代のニューラル ネットワーク音声合成テクノロジ Uni-TTSv3 が提案されています。

高忠実度

Uni-TTSv3 は、FastSpeech 2 (高速で高品質の音声合成モデル) に基づいて構築された非自己回帰音声合成モデルです。実際の音声を直接トレーニングに使用し、発話速度、イントネーション、ストレス パターンなどの音声変化情報をさらに導入することで、合成音声の品質が向上します。音声の自然さを専門的に評価する、業界で認められたMOS(平均オピニオンスコア)テストの結果によると、さまざまな言語におけるインテリジェント合成女性音声Jenny Multilingual Neuralの平均スコアは4.2ポイント以上(合計5ポイント中)に達し、音声の忠実度が高いことが示されました。

Uni-TTSv3 モデル構造図

多言語サポート

Uni-TTSv3 は、多言語および多話者のデータセットでトレーニングされた強力な多言語音声モデルです。 Uni-TTSv3 は、50 を超えるさまざまな地域やアクセントの話者がさまざまなシナリオで録音した 3,000 時間以上の音声データをトレーニングすることで、多言語ユニバーサル基本音声モデルを構築し、AI 音声が発話速度、イントネーション、ストレス パターンを変更することなく複数の言語を解釈できるようにします。

トレーニング時間の短縮

Uni-TTSv3 は、Azure 音声合成プラットフォームとカスタム ニューラル音声を強化して、多言語音声をサポートします。 Uni-TTSv3 では、カスタム ニューラル音声トレーニング パイプラインをアップグレードし、お客様がより短いトレーニング時間で高品質の音声モデルを作成できるようにサポートします。以前の世代の音声合成モデルと比較すると、Uni-TTSv3 のチューニング プロセスは、特に音響トレーニング部分でシンプルです。トレーニング時間は大幅に約 50% 短縮され、コストがさらに削減され、効率が向上します。

Uni-TTSv3 モデルトレーニング図

Uni-TTSv3 多言語音声合成モデルを今すぐ試してみませんか? Microsoft Azure Audio Content Creation Platform を使用して高品質の合成音声を作成してみませんか?今すぐ試すにはここをクリックしてください!

<<:  「ICV革新的アルゴリズム研究タスク」が正式にリリースされました!登録は11月18日に開始されます

>>:  ペンシルバニア大学は、ディープニューラルネットワークの対称構造を研究し、層ごとの剥離解析モデルを提案した。

ブログ    

推薦する

Google X 中国博士がロボットシミュレーターSimGANをリリース、ICLR2021が出版

[[407004]]工学部の学生は、さまざまなシミュレーターから切り離すことはできません。シミュレー...

「あなたは私の中にいて、私はあなたの中にいる」人工知能はビッグデータと恋愛関係になりたい!

最近では、「ビッグデータ」や「人工知能」ほどよく使われる流行語はほとんどありません。多くのデータ分析...

AIを使用するための実践的な方法論:次の5つのステップに従ってください

Gartner の調査によると、約 37% の組織が何らかの形で AI を実装しています。しかし、E...

ケーススタディ | 埋め込みに基づく特徴セキュアな計算

[[331789]]序文従来のデータの公開と共有の方法の多くは、生のデータをプレーンテキストで直接出...

地球外文明は人間ではなく、人工知能かもしれません!なぜ科学者はこう言うのでしょうか?

地球外文明が存在するかどうかという疑問は、常に科学者たちを深く悩ませてきました。現在に至るまで、私た...

マイクロソフトがOpenAIを救わなければならない理由

CEO を雇い、チームを雇い、CEO を復帰させ、取締役会に加わらせる - Microsoft はO...

...

トップカンファレンスで新たな AI 技術が登場: リアルな 3D 顔を生成できるのは顔写真だけ

写真しかない場合、どのようにして人物のリアルなデジタルアバターを作成するのでしょうか? 2020年の...

消防ドローンはあらゆる能力に優れていることから人気が高まっています!

火災による被害は明らかですが、火災の予防と制御は容易ではありません。たとえば、森林火災は、その範囲が...

蹴り倒せない!家庭用ヒューマノイドロボットが誕生、価格は9万ドル未満

最近、障害を乗り越えるヒューマノイドロボットのビデオが話題になった。ビデオでは、ヒューマノイドロボッ...

無人公共交通機関が議題に上がっており、自動運転はまだ改善の余地がある

10月21日、蘇州で5G無人バスの定期運行が開始された。蘇州高速鉄道新城でデビューしたこの無人バスは...

特徴エンジニアリングとは何ですか?なぜ自動化が必要なのでしょうか?

[51CTO.com クイック翻訳] 今日、人工知能(AI)はますます一般的になり、必要になってき...

顔認識情報セキュリティは大きな注目を集めており、専門家の代表者らは多くの提案を行っている。

近年、人工知能技術の成熟に伴い、顔認識の応用範囲はますます広がっています。 「顔スキャン」は、効率、...

【ビッグネーム登場、第2話】快溝タクシーの知能進化への道

インテリジェントな注文発送システムをゼロから構築するように依頼され、1 日の注文数が 40 万件だと...