マイクロソフトは7月27日、NaturalSpeech2という音声モデルを発表しました。このモデルは「潜在拡散」設計を採用しており、ゼロサンプル音声合成において優れた結果を示しています。マイクロソフトは、このモデルが「商用グレード」の音声/歌唱ソリューションを提供し、ユーザーに高品質で多様な音声合成体験を提供できると主張しています。 Microsoft は NaturalSpeech2 の一連のデモンストレーションを実施し、ゼロショットの状況でさまざまな話者のアイデンティティ、韻律、スタイル (歌唱など) の音声を生成する能力を示しました。 ▲ 画像出典: NaturalSpeech 2 論文 従来の音声テキスト変換 (TTS) システムとは異なり、Microsoft の NaturalSpeech2 は音声を表現するために「個別のタグ」ではなく「連続ベクトル」を使用するため、より完全な音声セグメントが生成され、 「感情の欠如」や「棒読み (単語ごとに話す)」現象が発生しないことが報告されています。 ▲ 画像出典: NaturalSpeech 2 論文 実験結果によると、ゼロサンプル条件下でNaturalSpeech2によって生成された音声は、音声プロンプトや実際の音声のリズムとほぼ一致しており、LibriTTSおよびVCTKテストセットでの自然さ(CMOSで測定)は実際の人間の音声と区別するのが困難です。 このプロジェクトの論文は GitHub で公開されています。興味のある IT Home の友人は、ここをクリックしてアクセスできます。 |
<<: スマートフォンアプリケーションにおける人工知能の役割
>>: アマゾンが新しいAIツールを発表、数千の企業がBedrockを試すよう呼びかけ
人々は人工知能の急速な発展と、さまざまな業界でのその応用事例を目撃してきました。ヘルスケアは、AI、...
デジタル化の大きな波の中で、一見些細な失敗が、深い疑問を浮かび上がらせます。それは、企業が業務に人工...
確かに、人工知能はさまざまな面で人々の生活を楽にしてきました。 Google アシスタント、Siri...
[[361065]]いたずら好きな老人の周伯同は、黄耀師によって桃花島に十数年閉じ込められていまし...
重要:北京大学のチームとTuzhanは共同でSoraの再生計画「 Open Sora」を立ち上げまし...
ダニング=クルーガー効果は重大なバイアスです。これは、能力の低い人が自分の軽率な決断に基づいて誤った...
人工知能の時代におけるセキュリティ専門職は何かという問題は、徐々に人々が直面しなければならない問題に...
ビジネスとテクノロジーの世界のつながりは非常に強いため、テクノロジーの発展が次の段階に進むたびに、ビ...
あらゆる種類の機械学習 (ML) の問題に取り組む場合、選択できるさまざまなアルゴリズムがあります。...
[51CTO.com からのオリジナル記事] インターネットは、間違いなく私たちの生活、学習、仕事に...
AIGC のテキストからオーディオ (または音楽) を生成するトラックにおいて、Meta は最近新...
ユヴァル・ノア・ハラリ氏(42歳)はもともとエルサレムでヘブライ語で歴史を教える大学教授だった。38...
SRは大きな進歩を遂げました。一般的に、既存の SR 技術研究は、教師あり SR、教師なし SR、特...