最先端技術の共有:脳の信号を音声に変換するAIアルゴリズムは、失語症の人が正常に話すことを助けることが期待されています

最先端技術の共有:脳の信号を音声に変換するAIアルゴリズムは、失語症の人が正常に話すことを助けることが期待されています

カリフォルニア大学サンフランシスコ校の神経科学者チームは、ネイチャー誌に最近発表した研究で、脳の活動に基づいて自然な音声を合成できるニューラルデコーダーを紹介した。

この研究は、チャン研究室の言語科学者ゴパラ・アヌマンチパリ氏と生物工学大学院生ジョシュ・シャルティエ氏が主導した。これは、カリフォルニア大学の脳神経外科教授エドワード・チャン氏の研究室で開発されている。

なぜこのニューラルデコーダーを導入するのでしょうか?

多くの人が、脳卒中、外傷性脳損傷、またはパーキンソン病、多発性硬化症、筋萎縮性側索硬化症などの神経変性疾患により、話す能力を失います。

現在、非常に微細な目や顔の筋肉の動きを追跡する補助装置により、重度の発話障害を持つ人々が自分の考えを一語一語表現することが可能になっています。しかし、このようなデバイスを使用してテキストや合成音声を生成するのは、時間がかかり、手間がかかり、エラーが発生しやすいことがよくあります。これらのデバイスのもう 1 つの制限は、1 分間に最大 10 語しか生成できないことです。

この研究は、脳の活動によって制御できる人の声の合成バージョンを生成することが可能であることを示しています。研究者たちは、将来この装置を使って重度の言語障害を持つ人々が流暢にコミュニケーションできるようになるかもしれないと考えている。人間の声の「音楽性」の一部を再現し、話者の感情や個性を表現することもできます。

「この研究は、個人の脳活動に基づいて完全な音声文章を生成できることを示している」とチャン氏は語った。 「これは、すでに手の届く範囲にある技術を使って、言語障害を持つ患者に臨床的に実現可能なデバイスを構築できるはずであるという、エキサイティングな原理実証です。」

システムはどのように機能しますか?

この研究は、ジョシュ・シャルティエとゴパラ・K・アヌマンチパリによる別の研究に基づいており、その研究では、脳内の発声中枢が唇、顎、舌、その他の発声器官の動きを調整して滑らかな発声を生み出す仕組みが示されています。

新しい研究では、アヌマンチパリ氏とシャルティエ氏は5人の患者にいくつかの文章を声に出して読むように依頼した。これらの患者は、脳神経外科手術に備えて発作の原因を特定するために脳に電極を埋め込まれます。同時に、研究者たちは言語生成に関与することが知られている脳領域の活動を記録しました。

研究者たちは、ボランティアの声の録音を使用して、これらの音を出すために必要な声道の動きを理解しました。科学者たちは、この詳細な発声解剖図を使って、脳の活動によって制御できる現実的な仮想発声器官を各ボランティアのために作成した。

このシステムは 2 つのニューラル ネットワークで構成されています。

  • 発話中に生成される脳活動のパターンを仮想声道の動きに変換するデコーダー。
  • シンセサイザーを使用して、これらの声道の動きをボランティアの声の合成近似値に変換します。

研究者たちは、このシステムがボランティアの脳活動から直接解読した音声よりも大幅に優れた合成音声を生成したことを観察した。

このシステムはまだ初期段階です。シャルティエ氏は、その限界について次のように説明しています。「話し言葉を完全に模倣するには、まだ道のりが長いです。『sh』や『z』のようなゆっくりした音声を合成したり、音声のリズムやイントネーション、話し手の性別やアイデンティティを維持したりするのは得意ですが、『b』や『p』のような急激な音声は、少し不明瞭になります。それでも、ここで実現した精度レベルは、現在利用可能なものと比較して、リアルタイム通信の驚くべき改善となるでしょう。」

<<:  もうひとつ:なぜ消費者向けロボット企業は失敗しているのか?

>>:  12倍に増加しました!香港バプティスト大学とMassGridが低帯域幅で効率的なAIトレーニングのための新しいアルゴリズムをリリース

ブログ    
ブログ    
ブログ    

推薦する

インタビュー必須:バックトラッキングアルゴリズムの詳細な説明

序文みなさんこんにちは。私はカタツムリを採っている小さな男の子です。 LeetCode を練習してい...

李嘉誠は率直に言った。「人工知能の時代には、これらのいくつかの業界だけが大きな成功を達成するのに役立ちます。」

李嘉誠氏はこう語った。「人工知能の時代には、世界がどう変化しても、経済サイクルがどう変動しても、常に...

Sitechi スマートオペレーションプラットフォームがスマートシティの求心力を生み出す

デジタル トレントは、さまざまな新興テクノロジーが成熟し、新しいビジネスや新しいアプリケーションが出...

ユーザーの旅行需要予測

1. 背景と課題1. 背景Fliggy アプリ、Alipay、Taobao では、航空券、鉄道チケッ...

レポート:AI脅威論は誇張されている:導入と保守のコストが高いため、影響はそれほど早く広範囲に及ぶことはない

MITコンピュータ科学・人工知能研究所(MIT CSAIL)は3月3日、現段階では人間はAIに仕事を...

...

ニューラルネットワークに基づくマルウェア検出分析

今日、あらゆる業界にとって、「マルウェアを効果的に検出する方法」は、ネットワーク セキュリティに関す...

AI の知覚を人間の知覚と直接比較できないのはなぜですか?

人間レベルのパフォーマンス、人間レベルの精度…顔認識、物体検出、問題解決など、AI システムを開発す...

ワイヤレス ネットワークと人工知能が出会うと何が起こるでしょうか?

人工知能(AI)は未来の技術ではなく、すでに存在している技術です。機械学習のイノベーションにより A...

...

第3回北京知源大会が開幕、世界最大のインテリジェントモデル「五道2.0」が発表

6月1日、北京知源人工知能研究所(以下、知源研究所)が主催する2021年北京知源会議が北京市中関村国...

今後3年間で、人工知能は全国の小売業界に影響を与える大きな嵐となるでしょう。排除されてしまうのでしょうか?

10 年前、ほとんどの人は、今日では現金やカードを持ち歩かずに携帯電話だけを持って街を歩き回り、買...

AIがタンパク質構造を予測し、サイエンス誌とネイチャー誌の年間技術革新として掲載され、無限の可能性を秘めている

2021 年に AI 分野で最も画期的な賞を授与するとしたら、誰を選びますか? 「サイエンス」と「ネ...

深い知識の 6 つの次元: 人工知能に世界を真に理解させるにはどうすればよいでしょうか?

どのような知識が私たちを賢くするのでしょうか?私たちが世界を理解し、新しい経験を解釈し、思慮深い選択...

中国気象局:2030年までに、人工知能気象アプリケーションの開発レベルは世界最高レベルに達する

中国気象局は最近、「人工知能気象応用作業計画(2023-2030年)」を発表し、国内の人工知能気象応...