Baidu が DeepVoice の最終バージョンをリリース: 10,000 人の声を真似て 30 分でアクセントを習得

今年初め、検索大手の百度は、人気のディープラーニング技術を使用してテキスト読み上げ（TTS）変換を実現する「DeepVoice」という新しいAIシステムを立ち上げました。 DeepVoice の最初のバージョンでは、短い文章を生成できるため、注意深く聞かないと、実際の人間が話しているように思えるかもしれません。このシステムは一度に 1 つの音を学習し、わずか数時間で習得することができます。今年5月に発売されたDeepVoice 2は、1時間以内にアクセントを真似ることができ、単一のシステムで何百もの異なるアクセントを学習できる。

現在、百度はDeepVoiceの「最終バージョン」をリリースしており、30分ごとに1万の音声のデータ学習を完了できると主張している。多種多様なサウンドを効率的に生成するこの技術は、多くのユースケースへの扉を開きます。

たとえば、オーディオブックやビデオゲームでは、各キャラクターに独自の声を持たせることで、ユーザーエクスペリエンスを向上させることができます。しかし、実際の人物による吹き替えと比較すると、Baidu DeepVoice によって生成されたアクセントには、依然として非常に明らかな合成感が残っています。

これに対し、百度は、これは彼らの目標ではないと答えた。「1つか2つのアクセントしか生成されない場合、当社のシステムは、かなり自然で人間のアクセントに近いものを合成できることがずっと前から証明されており、デジタルアシスタントとして簡単に使用できます。」

Deep Voice 3 アーキテクチャ図

Baidu がやろうとしているのは、複数のアクセントや文字間の微妙な違いを把握できるシステムを構築することです。

これは、スケーリングによって何が可能かを示すための初期作業にすぎません。私たちのシステムは、これまで公開された TTS モデルでは達成できなかった規模までトレーニングをスケールアップすることに成功しました。
大規模で高品質なデータセットの使用と追加の機械学習エンジニアリングトレーニングにより、近い将来にその品質が大幅に向上すると考えています。

注目すべきは、Baidu がコンピューター音声合成に取り組んでいる唯一の検索大手ではないということだ。Google の DeepMind 部門も WaveNet と呼ばれる同様のプロジェクトに取り組んでいる。

最新バージョンの WaveNet では、アクセントの習得がさらに向上し、本物の人間のような「唇の音」も生成できるようになりました。現在、Google アシスタントの英語版と日本語版で使用されています。

[TheVergeより翻訳、出典：Baidu Research Institute]

<<: ロンドンの顔認識で誤った人物が逮捕される：合理的な使用が鍵

>>: 世界各国の人工知能の配置をご存知ですか？

AIセキュリティリスクの予防と管理を強化するには、技術統合と法的規制に重点を置く必要がある

Baidu が DeepVoice の最終バージョンをリリース: 10,000 人の声を真似て 30 分でアクセントを習得

AIセキュリティリスクの予防と管理を強化するには、技術統合と法的規制に重点を置く必要がある

あまり知られていないがプライバシーを保護するトレーニング方法：フェデレーテッドラーニング

DeepMindが乳がん診断AIをリリース：市場に投入するにはまだ多くの課題がある

360スマートブレインモデルが一般公開されました

OpenAIは低コストで開発者を引き付けるために大規模なアップデートを計画している

人工知能が買い物をより簡単にする

推薦する

今後5年間であなたの人生はどのように変わるでしょうか？人工知能は水力発電のようなさまざまな産業に参入する可能性がある

アリババの音声ロボットが李佳琦の生放送室に登場、その応答速度はSiriの20倍

データサイエンティストまたは AI エンジニアになるために独学するにはどうすればよいでしょうか?これらの9つのポイントを克服する必要があります

法律教育ロボット「ダニウ」が潼南で任務に就き、一般市民に無料の法律サービスを提供

中国でApp Storeのランキング操作を禁止しアルゴリズムを調整

AIと機械学習をサイバーセキュリティに組み込む方法

AIは小売市場の衰退を防ぐことができるか？

第4のパラダイム: AIによる意思決定が主要なビジネスシナリオを強化し、企業の質的変化の実現を支援

外国メディアが報じたところによると、EUはデータプライバシーを弱めるため、エンドツーエンドの暗号化にバックドアを検討している。