Microsoft が NaturalSpeech2 音声合成モデルを発表: 音声再構成は「より正確」になり、「行き詰まる」こともなくなる

Microsoft が NaturalSpeech2 音声合成モデルを発表: 音声再構成は「より正確」になり、「行き詰まる」こともなくなる

マイクロソフトは7月27日、NaturalSpeech2という音声モデルを発表しました。このモデルは「潜在拡散」設計を採用しており、ゼロサンプル音声合成において優れた結果を示しています。マイクロソフトは、このモデルが「商用グレード」の音声/歌唱ソリューションを提供し、ユーザーに高品質で多様な音声合成体験を提供できると主張しています。

Microsoft は NaturalSpeech2 の一連のデモンストレーションを実施し、ゼロショットの状況でさまざまな話者のアイデンティティ、韻律、スタイル (歌唱など) の音声を生成する能力を示しました。

▲ 画像出典: NaturalSpeech 2 論文

従来の音声テキスト変換 (TTS) システムとは異なり、Microsoft の NaturalSpeech2 は音声を表現するために「個別のタグ」ではなく「連続ベクトル」を使用するため、より完全な音声セグメントが生成され、「感情の欠如」や「棒読み (単語ごとに話す)」現象が発生しないことが報告されています。

▲ 画像出典: NaturalSpeech 2 論文

実験結果によると、ゼロサンプル条件下でNaturalSpeech2によって生成された音声は、音声プロンプトや実際の音声のリズムとほぼ一致しており、LibriTTSおよびVCTKテストセットでの自然さ（CMOSで測定）は実際の人間の音声と区別するのが困難です。

このプロジェクトの論文は GitHub で公開されています。興味のある IT Home の友人は、ここをクリックしてアクセスできます。

<<: スマートフォンアプリケーションにおける人工知能の役割

>>: アマゾンが新しいAIツールを発表、数千の企業がBedrockを試すよう呼びかけ

人工知能の現状を理解するための12枚の写真

人工知能の現状を理解するための12枚の写真

ブログ

Kingsoft WPS Office 2019 正式リリース: Word、Excel、PPT を 1 つのソフトウェアで操作

Kingsoft WPS Office 2019 正式リリース: Word、Excel、PPT を 1 つのソフトウェアで操作

ブログ

超音波チップが脳コンピューターインターフェースに革命をもたらす：非侵襲的インプラントに一歩近づく

超音波チップが脳コンピューターインターフェースに革命をもたらす：非侵襲的インプラントに一歩近づく

ブログ

人工知能がプログラマーに取って代わるまでにはどれくらい時間がかかるのでしょうか?

人工知能がプログラマーに取って代わるまでにはどれくらい時間がかかるのでしょうか?

ブログ

Adobe がインドのスタートアップ Rephrase.ai を買収、生成 AI 分野で初の買収となる

Adobe がインドのスタートアップ Rephrase.ai を買収、生成 AI 分野で初の買収となる

ブログ

チャットボットのテスト: フレームワーク、ツール、テクニックの詳細

チャットボットのテスト: フレームワーク、ツール、テクニックの詳細

ブログ

トレーニング速度は 3D CNN よりもはるかに速く、3 倍高速です。トランス

トレーニング速度は 3D CNN よりもはるかに速く、3 倍高速です。トランス

ブログ

ブログ

拡散モデルを使用してビデオを生成することもでき、その結果は非常に印象的です。新しいSOTAが達成されました。

拡散モデルを使用してビデオを生成することもでき、その結果は非常に印象的です。新しいSOTAが達成されました。

ブログ

人工知能シナリオにおける HBase の使用

人工知能シナリオにおける HBase の使用

ブログ

推薦する

DeepMindは、オートエンコーダに「自己修正」を教える「SUNDAE」と呼ばれる言語モデルを提案している。

[[440946]]この記事はAI新メディアQuantum Bit（公開アカウントID：QbitA...

6つの権威あるリストを制覇したDAMOアカデミー独自の深層言語モデルシステムAliceMindはオープンソースです

[[406821]]自然言語処理 (NLP) は、AI の最高傑作として知られています。従来の NL...

可視性プラットフォームがセキュリティオペレーションセンター (SOC) にとって重要な理由は何ですか?

ディスプレイソリューションは、今日のセキュリティオペレーションセンター (SOC) で必要な複...

...

...

...

AIの将来はどうなるのでしょうか?

人間のような知能を実現するという永遠の夢を超えて、AI の将来は消費者市場と商業市場の両方で極めて重...

人工知能の過去、現在、未来を包括的に解説

[[227618]]人工知能がどのレベルに到達したかという質問に答える前に、まず人工知能の概念が何で...

AIが自ら騙された！生成された写真詐欺はAI識別器の目を楽々と逃れ、マスクのロボットガールフレンドと3メートルの巨人は両方とも「実現」

AI が生成した画像は非常にリアルなので、AI 自身も違いを区別できません。マスク氏とロボットのガ...

この論文では、688件の大規模モデル論文を分析し、LLMの現在の課題と応用について検討する。

まったく知られていなかった状態から誰もが話題にする状態へと、大規模言語モデル (LLM) の状況はこ...

...

「最強の脳」に2万5000ドルの賞金 - TalkingDataグローバルアルゴリズムコンペティションがデータの未来を応援

2016年7月12日から9月5日まで、北京TalkingData Technology Co., ...

Google Brain のディープラーニングと TensorFlow の過去と現在を分析

ディープラーニングの歴史において、ニューラルネットワーク方式が有効になり始めたのは1980～1990...

Python で線形回帰機械学習モデルを作成する方法は? 「初心者ガイド」

線形回帰とロジスティック回帰は、現在人気のある 2 つの機械学習モデルです。 [[331887]]こ...

...