Uni-TTS音声合成モデルのアップグレード:1つの音声、複数の言語、高忠実度、高効率

Uni-TTS音声合成モデルのアップグレード:1つの音声、複数の言語、高忠実度、高効率

最近、マイクロソフトは最新の Azure ニューラル ネットワーク音声合成技術 Uni-TTSv3 多言語音声合成モデルをリリースしました。以前の世代の音声合成モデルと比較すると、Uni-TTSv3 音声合成は、忠実度が高く、速度が速く、トレーニング時間が短く、コストが低く、効率が高くなります。 Microsoft は、Uni-TTSv3 でアメリカ英語の合成女性音声 Jenny をアップグレードしました。新しくアップグレードされたJenny Multilingual Neuralは、クロスランゲージ機能を備え、14の国と地域の言語をサポートしています。さらに、Uni-TTSv3 に基づいて構築されたディープ ニューラル ネットワーク カスタマイズ音声サービスでは、言語間カスタマイズ サービス機能も拡張されました。お客様は、1 つの言語の録音データをコーパスとして提供するだけで、カスタマイズ モデルが同時に複数の言語を話せるようにトレーニングできます。

ジェニー多言語ニューラルオーディオの例

技術の継続的な進化により、Microsoft のインテリジェント音声パフォーマンスは実際の人間に匹敵するようになり、110 を超える国と地域の言語をサポートし、270 を超えるニューラル ネットワーク音声を提供しています。音声の使用シナリオをさらに拡大し、さまざまな業界の顧客の多様なニーズを満たすために、Microsoft Intelligent Voice は新しいサービスと機能を常に模索しています。

l多言語音声技術要件: 1つの音声だけで、世界中のユーザーを同時にカバーする多言語アプリケーション要件を生成できます。たとえば、仮想ゲームでは、多言語機能を備えたNPC(ノンプレイヤーキャラクター)を作成したり、インテリジェントなカスタマーサービスなどのシナリオで複数の言語を使用してユーザーとコミュニケーションしたりして、ユーザーエクスペリエンスを向上させることができます。

l安定的かつ効率的なプラットフォーム要件:音声モデルをより堅牢(システム安定性)にして、カスタマイズされたサービスシナリオでも外部環境の影響を受けないようにし、さまざまな種類のトレーニングデータを安定的かつ効率的に処理できるようにします。

上記の要求に対処し、以下の機能を改善するために、新世代のニューラル ネットワーク音声合成テクノロジ Uni-TTSv3 が提案されています。

高忠実度

Uni-TTSv3 は、FastSpeech 2 (高速で高品質の音声合成モデル) に基づいて構築された非自己回帰音声合成モデルです。実際の音声を直接トレーニングに使用し、発話速度、イントネーション、ストレス パターンなどの音声変化情報をさらに導入することで、合成音声の品質が向上します。音声の自然さを専門的に評価する、業界で認められたMOS(平均オピニオンスコア)テストの結果によると、さまざまな言語におけるインテリジェント合成女性音声Jenny Multilingual Neuralの平均スコアは4.2ポイント以上(合計5ポイント中)に達し、音声の忠実度が高いことが示されました。

Uni-TTSv3 モデル構造図

多言語サポート

Uni-TTSv3 は、多言語および多話者のデータセットでトレーニングされた強力な多言語音声モデルです。 Uni-TTSv3 は、50 を超えるさまざまな地域やアクセントの話者がさまざまなシナリオで録音した 3,000 時間以上の音声データをトレーニングすることで、多言語ユニバーサル基本音声モデルを構築し、AI 音声が発話速度、イントネーション、ストレス パターンを変更することなく複数の言語を解釈できるようにします。

トレーニング時間の短縮

Uni-TTSv3 は、Azure 音声合成プラットフォームとカスタム ニューラル音声を強化して、多言語音声をサポートします。 Uni-TTSv3 では、カスタム ニューラル音声トレーニング パイプラインをアップグレードし、お客様がより短いトレーニング時間で高品質の音声モデルを作成できるようにサポートします。以前の世代の音声合成モデルと比較すると、Uni-TTSv3 のチューニング プロセスは、特に音響トレーニング部分でシンプルです。トレーニング時間は大幅に約 50% 短縮され、コストがさらに削減され、効率が向上します。

Uni-TTSv3 モデルトレーニング図

Uni-TTSv3 多言語音声合成モデルを今すぐ試してみませんか? Microsoft Azure Audio Content Creation Platform を使用して高品質の合成音声を作成してみませんか?今すぐ試すにはここをクリックしてください!

<<:  「ICV革新的アルゴリズム研究タスク」が正式にリリースされました!登録は11月18日に開始されます

>>:  ペンシルバニア大学は、ディープニューラルネットワークの対称構造を研究し、層ごとの剥離解析モデルを提案した。

ブログ    
ブログ    

推薦する

第四次産業革命:人工知能

人工知能 (AI): 私たちの日常生活、生き方、他者との関わり方に根本的な変化がもたらされるのは、第...

データサイエンスを始めるにはどの程度のレベルの数学が必要ですか?

基礎科目として、数学はデータサイエンスと機械学習の両方において欠かせない役割を果たします。数学的な基...

...

...

Google Brain、ロボットアームの把持速度を2倍にする並行RLアルゴリズムを提案

RL アルゴリズムでは通常、観測値の取得、アクションの計算、およびそれらの実行の間で環境の状態が変化...

1 つのバグが原因で 200 億ドルの損失が発生しました。ビジネス異常検出システムを構築するにはどうすればよいでしょうか?

【51CTO.comオリジナル記事】 1. AI ビジネス異常検出システムが必要な理由企業は、業務...

劉慈欣は人工知能について語る: 前方にある知能と同じくらい人工知能も存在する。

[[248113]]画像出典: IDG Capital最近開催された2018年の「IDGキャピタル...

行動分析:誤解された人工知能がもたらすセキュリティリスク

誇大宣伝を信じるなら、人工知能 (AI) と機械学習 (ML) はすでに現代の IT インフラストラ...

報告書によると、プログラマーの70%がプログラミングにさまざまなAIツールを使用している。

6月14日、プログラミングに関する質問と回答のウェブサイト「Stack Overflow」が発表し...

AIイノベーションを奨励する100万ドルの賞金:2021 DIGIXグローバルキャンパスAIアルゴリズムエリートコンペティションが開幕

6月10日、江蘇省人工知能学会、ファーウェイ端末クラウドサービス、ファーウェイ南京研究所が共催する2...

人工知能:古典コンピュータから量子コンピュータまで、弱い AI は強い AI の時代へ進むのでしょうか?

人工知能(AI)は通常、通常のコンピュータ プログラムを通じて人間の知能を表現する技術を指します。コ...

マイクロソフトは言語モデルをより調和のとれたものにするために複数のツールとデータセットをオープンソース化

Microsoft は最近、AI 駆動型コンテンツ モデレーション システムを監査し、AI モデルの...

...

...

AI、機械学習、RPA業界への期待

毎年、IT 業界メディアの eWEEK では、新製品、革新的なサービス、開発動向など、IT 業界の今...