Baidu が DeepVoice の最終バージョンをリリース: 10,000 人の声を真似て 30 分でアクセントを習得

Baidu が DeepVoice の最終バージョンをリリース: 10,000 人の声を真似て 30 分でアクセントを習得

今年初め、検索大手の百度は、人気のディープラーニング技術を使用してテキスト読み上げ(TTS)変換を実現する「DeepVoice」という新しいAIシステムを立ち上げました。 DeepVoice の最初のバージョンでは、短い文章を生成できるため、注意深く聞かないと、実際の人間が話しているように思えるかもしれません。このシステムは一度に 1 つの音を学習し、わずか数時間で習得することができます。今年5月に発売されたDeepVoice 2は、1時間以内にアクセントを真似ることができ、単一のシステムで何百もの異なるアクセントを学習できる。

現在、百度はDeepVoiceの「最終バージョン」をリリースしており、30分ごとに1万の音声のデータ学習を完了できると主張している。多種多様なサウンドを効率的に生成するこの技術は、多くのユースケースへの扉を開きます。

たとえば、オーディオブックやビデオゲームでは、各キャラクターに独自の声を持たせることで、ユーザーエクスペリエンスを向上させることができます。しかし、実際の人物による吹き替えと比較すると、Baidu DeepVoice によって生成されたアクセントには、依然として非常に明らかな合成感が残っています。

これに対し、百度は、これは彼らの目標ではないと答えた。「1つか2つのアクセントしか生成されない場合、当社のシステムは、かなり自然で人間のアクセントに近いものを合成できることがずっと前から証明されており、デジタルアシスタントとして簡単に使用できます。」

Deep Voice 3 アーキテクチャ図

Baidu がやろうとしているのは、複数のアクセントや文字間の微妙な違いを把握できるシステムを構築することです。

これは、スケーリングによって何が可能かを示すための初期作業にすぎません。私たちのシステムは、これまで公開された TTS モデルでは達成できなかった規模までトレーニングをスケールアップすることに成功しました。

大規模で高品質なデータセットの使用と追加の機械学習エンジニアリングトレーニングにより、近い将来にその品質が大幅に向上すると考えています。

注目すべきは、Baidu がコンピューター音声合成に取り組んでいる唯一の検索大手ではないということだ。Google の DeepMind 部門も WaveNet と呼ばれる同様のプロジェクトに取り組んでいる。

最新バージョンの WaveNet では、アクセントの習得がさらに向上し、本物の人間のような「唇の音」も生成できるようになりました。現在、Google アシスタントの英語版と日本語版で使用されています。

[TheVergeより翻訳、出典:Baidu Research Institute]

<<:  ロンドンの顔認識で誤った人物が逮捕される:合理的な使用が鍵

>>:  世界各国の人工知能の配置をご存知ですか?

ブログ    
ブログ    

推薦する

アルゴリズム分析への正しいアプローチ

[この一連のブログ投稿では、一般的なデータ構造と対応するアルゴリズムを分析および要約し、各ブログ投稿...

人工知能:ニューノーマルにおける成長促進要因

SHRMのレポートによると、中小企業経営者の43%がパンデミック中に事業を生き残るための新たな方法を...

手術ロボットには依然としてリスクがあり、人工知能技術の応用は成熟する必要がある

外科用ロボット、人工知能心理学者、そして一連の「人工知能+」プロジェクト技術の統合が医療分野に急速に...

ゼロからヒーローへ、OpenAIが深層強化学習リソースをリリース

OpenAI は、誰でも深層強化学習に習熟できるように設計された教育リソース「Spinning Up...

GitHub のホット プロジェクト: 実稼働レベルのディープラーニング プロジェクトを構築するには?

ディープラーニング モデルを本番環境に導入することは、優れたパフォーマンスのモデルをトレーニングする...

リーダーシップの大幅刷新後、Google Cloud の断片化と成長の鈍化の責任は誰にあるのでしょうか?

[[250357]]フェイフェイ・リー氏は去り、グーグルAI中国センターのリー・ジア所長も去った。...

マスク氏の非嫡出双子が初めて暴露される!ニューラリンクの女性幹部に付き添われ、AIの終焉を憂いながら赤ちゃんを散歩させていた

マスク氏の非嫡出双子が初めて世間に公開される!最近、「スティーブ・ジョブズ」の著者であり伝記作家でも...

...

...

...

GPT-4 が人間のデータ専門家を引き継いでいます!事前の知識により、LLMは従来の方法に匹敵する精度で大胆な予測を行うことができます。

データ サイエンスでは、AI 研究者は不完全なデータセットを処理するという課題にしばしば直面します。...

なぜ人工知能は技術的な問題ではなく、社会的な研究の問題なのでしょうか?

[[252833]]無人スーパーで買い物をすることに慣れている人なら、ある日のある瞬間、他のスーパ...

心臓血管画像診断における人工知能の応用の進歩

人工知能(AI)は、人間の知能特性を備えたタスクを実行できるコンピューティングプログラムを指します。...

...

人工知能と遠隔監視:宇宙でのマッチング

データ センターが地球外の人々の長期的なコンピューティング ニーズを満たすことは避けられないと思われ...