今年初め、検索大手の百度は、人気のディープラーニング技術を使用してテキスト読み上げ(TTS)変換を実現する「DeepVoice」という新しいAIシステムを立ち上げました。 DeepVoice の最初のバージョンでは、短い文章を生成できるため、注意深く聞かないと、実際の人間が話しているように思えるかもしれません。このシステムは一度に 1 つの音を学習し、わずか数時間で習得することができます。今年5月に発売されたDeepVoice 2は、1時間以内にアクセントを真似ることができ、単一のシステムで何百もの異なるアクセントを学習できる。 現在、百度はDeepVoiceの「最終バージョン」をリリースしており、30分ごとに1万の音声のデータ学習を完了できると主張している。多種多様なサウンドを効率的に生成するこの技術は、多くのユースケースへの扉を開きます。 たとえば、オーディオブックやビデオゲームでは、各キャラクターに独自の声を持たせることで、ユーザーエクスペリエンスを向上させることができます。しかし、実際の人物による吹き替えと比較すると、Baidu DeepVoice によって生成されたアクセントには、依然として非常に明らかな合成感が残っています。 これに対し、百度は、これは彼らの目標ではないと答えた。「1つか2つのアクセントしか生成されない場合、当社のシステムは、かなり自然で人間のアクセントに近いものを合成できることがずっと前から証明されており、デジタルアシスタントとして簡単に使用できます。」 Deep Voice 3 アーキテクチャ図 Baidu がやろうとしているのは、複数のアクセントや文字間の微妙な違いを把握できるシステムを構築することです。
注目すべきは、Baidu がコンピューター音声合成に取り組んでいる唯一の検索大手ではないということだ。Google の DeepMind 部門も WaveNet と呼ばれる同様のプロジェクトに取り組んでいる。 最新バージョンの WaveNet では、アクセントの習得がさらに向上し、本物の人間のような「唇の音」も生成できるようになりました。現在、Google アシスタントの英語版と日本語版で使用されています。 [TheVergeより翻訳、出典:Baidu Research Institute] |
<<: ロンドンの顔認識で誤った人物が逮捕される:合理的な使用が鍵
[51CTO.comからのオリジナル記事]クラウドコンピューティング、ビッグデータ、5G、モノのイン...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
AIロボットとは?人工知能 (AI) ロボットは、現実世界の環境で動作する人工知能エンティティです...
革新的な建設技術により、大規模建設プロジェクトの安全性、効率性、生産性が大幅に向上します。建設業界に...
2世紀前に折りたたまれた手紙の内容を、開かずに読むにはどうすればよいでしょうか?アルゴリズムはそれを...
順序前回の記事「大規模 Web サイトのアルゴリズムとアーキテクチャに関する簡単な説明 (パート 1...
生成 AI は、トレーニングに使用されるデータに大きく依存します。ただし、データの制限により、望まし...
編集者 | ヤン・ジェン現地時間1月25日、OpenAIは新モデルをリリースし、GPT-3.5 Tu...