マイクロソフトは7月27日、NaturalSpeech2という音声モデルを発表しました。このモデルは「潜在拡散」設計を採用しており、ゼロサンプル音声合成において優れた結果を示しています。マイクロソフトは、このモデルが「商用グレード」の音声/歌唱ソリューションを提供し、ユーザーに高品質で多様な音声合成体験を提供できると主張しています。 Microsoft は NaturalSpeech2 の一連のデモンストレーションを実施し、ゼロショットの状況でさまざまな話者のアイデンティティ、韻律、スタイル (歌唱など) の音声を生成する能力を示しました。 ▲ 画像出典: NaturalSpeech 2 論文 従来の音声テキスト変換 (TTS) システムとは異なり、Microsoft の NaturalSpeech2 は音声を表現するために「個別のタグ」ではなく「連続ベクトル」を使用するため、より完全な音声セグメントが生成され、 「感情の欠如」や「棒読み (単語ごとに話す)」現象が発生しないことが報告されています。 ▲ 画像出典: NaturalSpeech 2 論文 実験結果によると、ゼロサンプル条件下でNaturalSpeech2によって生成された音声は、音声プロンプトや実際の音声のリズムとほぼ一致しており、LibriTTSおよびVCTKテストセットでの自然さ(CMOSで測定)は実際の人間の音声と区別するのが困難です。 このプロジェクトの論文は GitHub で公開されています。興味のある IT Home の友人は、ここをクリックしてアクセスできます。 |
<<: スマートフォンアプリケーションにおける人工知能の役割
>>: アマゾンが新しいAIツールを発表、数千の企業がBedrockを試すよう呼びかけ
[[440946]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...
[[406821]]自然言語処理 (NLP) は、AI の最高傑作として知られています。従来の NL...
ディスプレイ ソリューションは、今日のセキュリティ オペレーション センター (SOC) で必要な複...
人間のような知能を実現するという永遠の夢を超えて、AI の将来は消費者市場と商業市場の両方で極めて重...
[[227618]]人工知能がどのレベルに到達したかという質問に答える前に、まず人工知能の概念が何で...
AI が生成した画像は非常にリアルなので、AI 自身も違いを区別できません。マスク氏とロボットのガ...
まったく知られていなかった状態から誰もが話題にする状態へと、大規模言語モデル (LLM) の状況はこ...
2016年7月12日から9月5日まで、北京TalkingData Technology Co., ...
ディープラーニングの歴史において、ニューラルネットワーク方式が有効になり始めたのは1980~1990...
線形回帰とロジスティック回帰は、現在人気のある 2 つの機械学習モデルです。 [[331887]]こ...