未来が到来: 脳コンピューターインターフェースの新たなブレークスルー: 人間の脳信号をテキストに変換する精度は 97%

4月23日、海外メディアの報道によると、カリフォルニア大学サンフランシスコ校の研究チームが開発した新しい人工知能システムは、人間の脳信号に基づいて最大97％の精度でテキストを生成できるという。 AmazonやGoogleなどのテクノロジー企業が開発した仮想アシスタントは非常に先進的で、音声認識機能は数年前と比べて劇的に向上していますが、人々がその威力を理解し始めたのはここ数年のことです。

しかし実際には、さらに驚くべき、奇妙な技術的マイルストーンが近づいているかもしれない。人間の脳の活動に基づいて単語を一語も聞かずに完全なテキストを生成できる強力な人工知能 (AI) システムにより、音声認識技術ははるかに上回ります。

これはまさにSFから出てきた概念ではありません。ここ数十年で、動物モデルから人間の被験者に至るまで、脳コンピューターインターフェース技術の発展は急速に進んでいます。実際、この種のテクノロジーはすでにこの概念を空想から現実に変えようとしています。

[[323428]]

カリフォルニア大学サンフランシスコ校の研究者らは新たな研究で、現時点ではこの技術を使って人間の脳の信号をテキストに変換した結果はあまり正確ではないと説明した。

これを改善できるかどうかを調べるために、UCSFの神経外科医エドワード・チャンの研究室の神経外科教授エドワード・チャンが率いるチームは、脳に埋め込まれた電極を通じて得られる皮質活動によって生成される電気インパルスの記録である皮質電気図（ECG）を解読する新しいアプローチを使用しました。

この研究では、てんかん患者4人がインプラントを使用して、てんかんによる発作を監視した。研究チームは副次的な実験も行った。参加者に事前に用意した文章を声に出して繰り返し読んでもらい、その間に電極を使って脳の活動を記録した。

このデータはニューラルネットワークに送られ、実験の音声録音に基づいて、母音、子音、口の形などの特定の発話特徴に対応する脳活動のパターンが分析されました。

次に、別のニューラルネットワークがこれらの脳表現 (被験者が 30 ～ 50 の文章を繰り返し声に出して読む際の脳活動データ) を解読し、単語を読んだときに生成される皮質信号に基づいて被験者が何を言ったかを予測しようとしました。

最良のケースでは、システムは参加者の脳信号を単語誤り率（WER）わずか3％でテキストに変換しました。これは、少なくともこれらの厳しく制限された実験条件下では、人間の思考を読み取るAIのこれまでの最高のパフォーマンスに近い可能性があります。

研究論文の中で、研究チームは、参加者が読んだ参照文とニューラルネットワークによって生成された「予測」の多くの例を詳しく示した。それらの予測は時々間違っていましたが、常にそうだったわけではありません。しかし、非常に明白なエラーから判断すると、それらは人間の耳が音声を聞くときに犯すエラーとは大きく異なるようです（これは、AI に導入されたデータセットが限られていることが原因である可能性があります）。

ニューラルネットワークによって発生したエラーの例には、次のようなものがあります。「博物館は毎晩ミュージシャンを雇っています」が「博物館は毎朝高価なミュージシャンを雇っています」と予測されたこと、「ケーキの一部は犬に食べられました」が「ケーキの一部はクッキーでした」と予測されたこと、「ティナターナーはポップシンガーです」が「ダイドターナーはポップシンガーです」と予測されたことなどです。

最悪の例では、ニューラルネットワークのエラーは完全に説明がつかず、音声的にも意味的にも実際の文と何の関係もありませんでした。「彼女は暖かいウールのオーバーオールを着ていた」が「オアシスは蜃気楼だった」と予測されました。

しかし、研究チームは、これらの明らかな誤りにもかかわらず、このシステムは、単語誤り率が最高でわずか5％であり、専門家による人間の音声書き起こしに匹敵する、AIベースの脳活動解読における新たな最先端技術を確立する可能性があると述べている。

もちろん、日常会話に対応するプロの文字起こし担当者は、数万語の語彙を持っていなければなりません。対照的に、このシステムは限られた数の短い文章から約 250 語の皮質特徴しか学習できないため、両者を比較するのは公平ではありません。

克服すべきハードルはまだ多くあるが、研究チームはこのシステムにより、話す能力を失った人々がいつか再び話せるようになるかもしれないと信じている。もしこのようなことが可能であれば、一部の人々に周囲の世界とコミュニケーションをとる手段を提供することになり、大きな影響を与える可能性があり、その影響は現在人々が想像しているよりもはるかに大きくなる可能性があります。

研究論文の著者らは、「慢性的にインプラントを使用している被験者の場合、利用可能なトレーニングデータの量は、この研究で使用された約30分間の音声よりも数桁多いため、入力言語の語彙と表現の柔軟性が大幅に向上することになる」と説明している。

この研究の結果はNature Neuroscience誌に掲載された。

<<: AIは新型コロナウイルスという「ブラックスワン」をいかにして「飼いならす」ことができるのか？

>>: Baidu PaddlePaddle EasyDL リテール版シェルフステッチングサービスのアーキテクチャとアルゴリズムの詳細な説明