Microsoft が NaturalSpeech2 音声合成モデルを発表: 音声再構成は「より正確」になり、「行き詰まる」こともなくなる

Microsoft が NaturalSpeech2 音声合成モデルを発表: 音声再構成は「より正確」になり、「行き詰まる」こともなくなる

マイクロソフトは7月27日、NaturalSpeech2という音声モデルを発表しました。このモデルは「潜在拡散」設計を採用しており、ゼロサンプル音声合成において優れた結果を示しています。マイクロソフトは、このモデルが「商用グレード」の音声/歌唱ソリューションを提供し、ユーザーに高品質で多様な音声合成体験を提供できると主張しています。

Microsoft は NaturalSpeech2 の一連のデモンストレーションを実施し、ゼロショットの状況でさまざまな話者のアイデンティティ、韻律、スタイル (歌唱など) の音声を生成する能力を示しました。

▲ 画像出典: NaturalSpeech 2 論文

従来の音声テキスト変換 (TTS) システムとは異なり、Microsoft の NaturalSpeech2 は音声を表現するために「個別のタグ」ではなく「連続ベクトル」を使用するため、より完全な音声セグメントが生成され、 「感情の欠如」や「棒読み (単語ごとに話す)」現象が発生しないことが報告されています。

▲ 画像出典: NaturalSpeech 2 論文

実験結果によると、ゼロサンプル条件下でNaturalSpeech2によって生成された音声は、音声プロンプトや実際の音声のリズムとほぼ一致しており、LibriTTSおよびVCTKテストセットでの自然さ(CMOSで測定)は実際の人間の音声と区別するのが困難です

このプロジェクトの論文は GitHub で公開されています。興味のある IT Home の友人は、ここをクリックしてアクセスできます。

<<:  スマートフォンアプリケーションにおける人工知能の役割

>>:  アマゾンが新しいAIツールを発表、数千の企業がBedrockを試すよう呼びかけ

ブログ    

推薦する

将来、ロボットは手術を支援し、反復作業をより効率的に実行できるようになるかもしれない。

人々は人工知能の急速な発展と、さまざまな業界でのその応用事例を目撃してきました。ヘルスケアは、AI、...

最初の失業中の人工知能ロボット

デジタル化の大きな波の中で、一見些細な失敗が、深い疑問を浮かび上がらせます。それは、企業が業務に人工...

建設における AI: 人工知能はスマート建設への道をどのように切り開くのか?

確かに、人工知能はさまざまな面で人々の生活を楽にしてきました。 Google アシスタント、Siri...

...

AI がどのようにして人々に結婚や勉強をするように説得できるかを見てみましょう。

[[361065]]いたずら好きな老人の周伯同は、黄耀師によって桃花島に十数年閉じ込められていまし...

AI と機械学習: 大きなデマか、それとも大きな希望か?

ダニング=クルーガー効果は重大なバイアスです。これは、能力の低い人が自分の軽率な決断に基づいて誤った...

人工知能時代のセキュリティ専門職とは?

人工知能の時代におけるセキュリティ専門職は何かという問題は、徐々に人々が直面しなければならない問題に...

IoT、AI、ブロックチェーンがビジネス経済を変革する

ビジネスとテクノロジーの世界のつながりは非常に強いため、テクノロジーの発展が次の段階に進むたびに、ビ...

回帰問題に最適な機械学習アルゴリズムを選択する

あらゆる種類の機械学習 (ML) の問題に取り組む場合、選択できるさまざまなアルゴリズムがあります。...

...

認知知能の実装が加速し、新世代のインテリジェント検索が誕生

[51CTO.com からのオリジナル記事] インターネットは、間違いなく私たちの生活、学習、仕事に...

「今日の簡単な歴史」:今後 15 年間でほとんどの人が失業することになるのでしょうか?

ユヴァル・ノア・ハラリ氏(42歳)はもともとエルサレムでヘブライ語で歴史を教える大学教授だった。38...

ディープラーニングによる超解像画像技術の概要

SRは大きな進歩を遂げました。一般的に、既存の SR 技術研究は、教師あり SR、教師なし SR、特...