新しい「心を読む」システムにより、音声合成が実際の人間の声に近づく

新しい「心を読む」システムにより、音声合成が実際の人間の声に近づく

メディアCNETによると、新しい技術は脳の活動の大部分を合成音声に変換することができ、それによって話す能力を失った人々の才能を真に回復させることができるという。カリフォルニア大学サンフランシスコ校(UCSF)の神経科学者らは、脳の言語野からの信号を新しい2段階のプロセスで解釈する脳コンピューターインターフェースを開発した。

[[263483]]

研究者たちは、脳の活動を直接音に変換しようとするのではなく、神経信号を人間の発声器官が音をデジタル的に作り出すために使用する動きに変換している。

その結果、人工音声は実際の人間の声にさらに近づき、通常の会話速度に近づき始めます。

「被験者の声帯(唇、舌、顎、喉頭など)の動きをコンピューターシミュレーションで明確にシミュレートすることで、音声解読のための脳活動が得られることを実証した」と、カリフォルニア大学サンフランシスコ校の神経外科教授エドワード・チャン氏は火曜日、記者団に語った。

昨年、MITは、ヘッドフォンを使用して脳から口と顎に送られる信号を拾うという、これと関連したアプローチを採用した。

この新しいシステムはチャン氏の研究室で開発されており、チームの進捗状況は水曜日にネイチャー誌に掲載された新しい論文で概説されている。

研究者らは、脳神経外科手術に備えてすでに脳に一時的な電極を埋め込んでいる少数のボランティアを対象に研究を実施した。被験者は脳の活動を記録しながら、何百もの文章を声に出して読むように求められました。このデータと参加者の発声の録音により、科学者は仮想の声道を作成することができました。発話を作成するために使用される解剖学的構造の詳細なコンピューターシミュレーションは、脳の活動によって制御できるようになります。以下のビデオでは、結果の例をいくつか示します。

「この研究は、個人の脳活動に基づいて完全な音声文章を生成できることを示している」とチャン氏は声明で述べた。 「これは、すでに手の届く範囲にある技術を使って、言語障害を持つ患者に臨床的に実現可能なデバイスを構築できるはずであるという、エキサイティングな原理実証です。」

現在、重度の発話障害を持つ人向けの多くのデバイスでは、単語を一語一語考え、1分間に最大10語しか発音できないことが求められます。しかし、文章全体を翻訳できるシステムがあれば、人々はもっと速く、おそらく1分あたり100~150語の自然言語に近い速度でコミュニケーションできるようになるかもしれない。

「著者らの2段階アプローチにより、音響歪みが大幅に減少した」と、この研究には関与していないバイオメディカルエンジニアのチェサン・パンダリナス氏とヤヒア・H・アリ氏は述べた。 「しかし、多くの課題が残っています...再構成された音声の明瞭度は、自然な音声の明瞭度をはるかに下回っています。」

新しい研究の共著者であるジョシュ・シャルティエ氏は、彼らのシステムによって生み出される精度のレベルは既存の技術よりも優れていると主張しているが、話し言葉を模倣するにはまだ道のりが残っていることを認めている。

「私たちは『sh』や『z』のようなゆっくりした発音を合成したり、発音のリズムやイントネーション、話者の性別やアイデンティティを維持したりするのは得意ですが、『b』や『p』のようなより鋭い発音は、少し不明瞭になります。」

もう一つの有望な発見は、発声運動の神経コードは必ずしも各個人に固有のものではないということです。 「腕や足を動かすことができない人々は、脳を使ってロボットの手足を制御することを学んできた」とシャルティエ氏は語った。 「私たちは、いつの日か言語障害を持つ人々が、この脳制御の人工発声器官を使って再び話すことを学べるようになると期待しています。」

<<:  有名な文系大学が人工知能の分野に参入すると、何をもたらすことができるのでしょうか?

>>:  人工知能はどのようにして銀行をより「インテリジェント」にすることができるのでしょうか?

推薦する

AI専門家の李牧氏の「5年間の仕事の反省」が人気に、ネットユーザー「また感動した」

[[401713]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...

...

ASP.NET データ暗号化を実現する対称暗号化アルゴリズム

対称暗号化アルゴリズムはどのようにして ASP.NET データ暗号化を実装するのでしょうか?それでは...

不気味な人工知能はいつでもあなたが何を考え、何を見ているかをスパイできる

日本の科学者たちは、驚くほどの正確さで脳内を覗き込むことができる不気味な機械を開発した。この AI ...

毎日のアルゴリズム: 文字の繰り返しのない最長の部分文字列

[[421075]]この記事はWeChatの公開アカウント「3分でフロントエンドを学ぶ」から転載した...

Baidu Brainは、顔をスキャンしてWeChat Momentsで拡散できるAIベースの春節連句をサポート

大晦日、家族が集まる夜。 1月28日、オンライン春節祝賀会(略称オンライン春節祝賀会)が予定通り開催...

人工知能の65年の簡単な歴史:マッカーシーからヒントンまで、人類はどのようなAIを追求しているのでしょうか?

人工知能の発展は65年の歴史があり、厳しい冬も栄光も経験してきました。シンボリックエキスパートシステ...

LianjiaのFeng Yang氏:不動産業界でデータと機械学習が輝く

[51CTO.comより引用] 2017年12月1日~2日、51CTO主催のWOTDグローバルソフト...

1人当たり6万ドル:2024年NVIDIA奨学金リストが発表、中国人5名が選出

今週の金曜日、待望の NVIDIA 奨学金の受賞者リストが発表されました。 NVIDIA 大学院フェ...

衝撃的!AIはすでにゲームコードを書くことができます!将来プログラマーは失業するのでしょうか?

最近、AI関連の技術は業界でますます人気が高まっています。機械化されたゲームリソースの作成から開発者...

GNN の推奨システムとアプリケーション

1. GNN推奨システムの基礎となる計算能力の進化過去 20 年間にわたり、コンピューティングは進化...

Rosetta はプライバシー コンピューティングと AI をどのように結び付けるのでしょうか?

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

新素材の画期的な進歩、AIの医療への参入…2021年はどんな新しい技術トレンドを迎えるのでしょうか?

2020年も終わりに近づいていますが、疫病は科学技術の進歩を止めることはなく、量子コンピューティン...

OpenAIをターゲットに!元Google CEOがAI+サイエンスのムーンショット計画を発表

元 Google CEO のエリック・シュミット氏は、AI を活用して科学研究の課題に取り組むことを...