科学者たちは、脳波を3%という低いエラー率で直接テキストに変換する「心を読む」方法を開発した。

科学者たちは、脳波を3%という低いエラー率で直接テキストに変換する「心を読む」方法を開発した。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

カリフォルニア大学サンフランシスコ校の科学者たちは、被験者の脳波をリアルタイムで直接文章に翻訳できるアルゴリズムを訓練し、そのエラー率はわずか3%だった。

ネイチャー・ニューロサイエンス誌に掲載されたこの研究では、4人のボランティアを募集し、電極で脳の活動を記録しながら、30~50の決まった文章を複数回読むように依頼した。 [1]

[[320752]]

[Leifeng.com 注: 人間は脳についてほとんど何も知りません。画像ソース: Pixabay所有者: Gerd Altmann 】

このデータは機械学習アルゴリズムに入力され、各文の脳活動データが数字と文字列の列に変換されました。

次に、システムはこの脳活動データから音を推測し、実際に録音された音声と比較します。その後、数字と文字列がシステムにフィードバックされ、単語のシーケンスに変換されます。

最初、システムは意味をなさない文章を吐き出します。しかし、システムが各単語の並びを実際に声に出して話された文章と比較するにつれて、数字の並びが単語とどのように関連しているか、どの単語が文脈上関連しているかを学習し、システムは向上していった。

アルゴリズムは、機械翻訳と同様に、発話中の脳の活動から書かれたテキストを生成できるようになるまでトレーニングされます。

新しいシステムは以前の方法よりもはるかに正確です。正確さは人によって異なりましたが、あるボランティアの場合、平均して各文のわずか 3% に訂正が必要でした。これは速記者の 5% の単語誤り率よりも高い値です。

もちろん、このシステムには依然として大きな制限があり、アルゴリズムは少数の文しか処理できません。このシステムは、文章を声に出して話す人の脳の活動を記録することに依存しているため、話す能力を失った重度の障害を持つ患者には使用できません。

しかし、各ボランティアのトレーニングには 40 分もかからず、限られた小さなデータセットにもかかわらず、これまでで最高の精度を達成しました。

脳コンピューターインターフェース

人間の脳信号から外部デバイスへの接続経路を確立することは新しいことではなく、脳コンピューターインターフェースの研究は 30 年にわたって行われてきました。

[[320753]]

[Leifeng.com 注記: 脳コンピューターインターフェースは、30 年近くにわたって研究のホットスポットとなっています。画像ソース: Pixabay所有者: aytuguluturk 】

過去 10 年間、音声信号の解読は可能でしたが、分離された音素または単音節のみであり、100 語の連続音声の場合、正しく解読される語は 40% 未満でした。

今回、科学者たちは、機械翻訳に似たアルゴリズムを採用するという、より直接的な方法を発見しました。機械翻訳は、ある言語から別の言語へのテキストのアルゴリズム翻訳ですが、今回は入力テキストが脳波信号になる点が異なります。今回発表された論文「エンコーダー・デコーダーフレームワークを使用した皮質活動のテキストへの機械翻訳」では、このプロセスについて詳しく説明しています。

システムをあるボランティアで訓練した後、別のボランティアで訓練したところ、解読結果が向上した。これは、この技術が人々の間で移転可能であることを示唆している。

論文に対応するコードは GitHub に置かれています。

ニューラルデータから音声をテキストにデコードするための ecog2txt モジュール。トピック間の転移学習の高度な機能を Python コードで実装します。 [2]

[Leifeng.com 注記: ecog2txt は、この論文に対応するオープンソース実装モジュールです]

トレーニング自体は、TensorFlow でシーケンス間ネットワークを実装する別の machine_learning パッケージを介して実行されます。 [3]

ソフトウェア パッケージは、現在 UCSF 統合神経科学センターの研究科学者である共著者の Joseph Makin 博士によって作成されました。彼の専攻は電気工学とコンピュータサイエンスで、脳コンピュータインターフェースのアルゴリズム開発を含む制御理論を専門としています。 [4]

[[320754]]

[Leifeng.com 注記: 上の写真は張愛徳博士です]

この論文のもう一人の共著者は、てんかん、脳腫瘍、三叉神経痛、片側顔面けいれん、運動障害を患う成人の治療を専門とする脳神経外科医のエドワード・チャン医学博士である。彼は現在、UCSF ワイル神経科学研究所の脳神経外科教授であり、麻痺や言語障害などの神経疾患患者の機能を回復させるための神経工学および補綴センターも指揮しています。 [5]

ユーザーコメント

科学者たちはかつて、脳の信号を理解可能な音声に変換するには数十年かかると考えていたが、現在ではその期間は数年単位で測定できる。 Redditの科学セクションでは、このニュースに3万件以上の「いいね!」と数千件のコメントが寄せられた。 [6]

ネットユーザーのderlumpenhundは、これは思考読み取りマシンが発明されたことを意味するものではないとコメントした。これは、口と舌の動きに対応する大脳皮質の活動を解読することに大きく依存しており、特定のトピックに関するデータの収集と事前のトレーニングが必要です。思考活動を直接解読するものではありません。そうは言っても、この発展は注目に値する。

ネットユーザーのboointhehouseさんは、この技術がもっと早くスティーブン・ホーキング博士に使われていれば、彼は生涯でもっと多くの研究を成し遂げることができただろうと語った。

<<:  もう学べないの? MIT CSおよびEEオンラインコースが利用可能になりました

>>:  5Gが普及しつつある中、人工知能は「取り残される」ことになるのか?

ブログ    
ブログ    
ブログ    

推薦する

ビッグデータの3つの柱:データ、ブロックチェーン、アルゴリズム

[[180308]]環境は常に変化し、新しいテクノロジーが登場し、新しい組織が絶えず構築されており、...

Java プログラミング スキル - データ構造とアルゴリズム「非再帰的バイナリ検索」

[[396063]]基本的な紹介1. バイナリ検索は、順序付けられたシリーズ(数字や文字など)の検...

最新レポート: 従業員の 25% が ChatGPT などの AI ツールに機密データをアップロードしている

新たな調査によると、従業員の15%がChatGPTに会社のデータを頻繁にアップロードしており、そのデ...

1 つの文で 10 万以上のコンテキストを持つ大規模モデルの真のパワーが発揮され、スコアが 27 から 98 に増加し、GPT-4 と Claude2.1 に適用可能

大きなモデルはすべてコンテキスト ウィンドウをロールアップしました。Llama -1 のときは、標準...

PyTorch を使用したノイズ除去拡散モデルの実装

ノイズ除去拡散確率モデル (DDPM) の仕組みを詳しく検討する前に、生成 AI の進歩、具体的には...

ロボット革命はビジネス環境を変えている

今世紀の前半には、巨大な片腕の巨人のような産業用ロボットがロボット工学の分野を支配していました。産業...

不確実な環境で自動運転を実現するにはどうすればよいでしょうか?

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

AIがプログラマーの仕事を奪う:2040年にはAIがプログラマーに取って代わる可能性

米国のオークリッジ国立研究所の一部専門家は、2040年までにAI技術がプログラマーに取って代わるほど...

K8S向け機械学習ツール「Kubeflow」の詳しい解説

[51CTO.com オリジナル記事] Kubeflowには多くのコンポーネントがあり、各コンポーネ...

Microsoft と Meta が提携し、Bing 検索を Meta AI チャットボットに統合

9月28日早朝、Meta Connect 2023において、MetaはMeta AIという新しいチャ...

2019年、人工知能業界は再び冬を迎えたのでしょうか?ここで3つの話をしたいと思います。

ストーリー1:「予測モデル」から「データ可視化」、回帰?私たちのチームは、データサイエンスコンサルテ...

AIの未来はエッジにある

モノのインターネット (IoT) は、絶えず複製されるエンティティのネットワークのようなもので、これ...

2020 年の AI チャットボット技術予測

2020 年に入り、さまざまな業界で人工知能技術の導入が進み続けています。この二次微分効果は、ビジネ...

コンパクトなBEVインスタンス予測フレームワーク: PowerBEV

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...