マインドタイピングがネイチャーの表紙に登場！ 99%以上の正確さで1分間に90文字を書く

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

脳コンピューターインターフェースにおいてこれほど早く大きな進歩が起こるとは思ってもいませんでした。

『ネイチャー』の表紙にもなりました。

下半身麻痺の患者は「心」を使って文章を入力し、約0.5秒で文字を出力することができます。

精度も驚異的で、 99.1%にも達します。

彼がしなければならないのは、頭の中で文字を「手書き」することだけです。すると、システムが自動的に文字を認識して生成し、彼は 1 分間に 90 文字を書くことができます。

書道はそれほど上手ではありませんが、少なくとも自然に「恵まれて」います。

注目すべきは、この前に患者は別のテストプロジェクトで入力するために「心」でカーソルを移動しようとしたが、1 分間に正しく入力できた文字は 13.4 文字だけだったということです。

この研究は発表されるとすぐに、学界やネットユーザーから大きな注目を集めました。

ワシントン大学の教授は祝福の言葉に加えて、「私のタイピングはそれよりも遅いです」とさえ言いました。

RNNは変化をもたらした

コードネームT5のこの老人の脳には、それぞれ96個の電極を含むブレインゲート社の電極アレイが2つ埋め込まれている。

最初の困難は、実験の開始直後に遭遇しました。それは、ユーザーがいつ手紙を書き始めたかを認識する方法でした。

最終的に、もともと音声認識に使用されていたモデルがこのタスクを完了できることが発見されました。

この疑問に取り組んだ後、研究者たちは、1つの文字を書くときに観察される脳の活動は比較的固定されており、常に集中していることを発見しました。

また、「b」や「p」のような似た形の文字を書くときに使用する領域は近いです。

何年も麻痺が続いた後でも、運動皮質における手書きの神経表現は消えないようです。

手動で注釈を付けた後、これらのデータは元のデータセットとして使用できます。

次はアルゴリズムです。研究者はリカレントニューラルネットワーク(RNN) を選択しました。

一般的なフィードフォワードニューラルネットワークと比較すると、RNN はデータシーケンス内の各要素に対して同じタスクを実行し、計算結果は以前のすべての結果に依存するため、ループにちなんで名付けられています。

RNN は連続データの予測に優れているため、この研究では文章を連続的に記述するのに適しています。

RNN は強力ですが、大量のデータが必要で、そうでないと過剰適合が発生する可能性があるという欠点があります。

この研究に参加した唯一の被験者は老人であり、彼はデータを提供するために毎日数時間かけて大量の反復的な書き込みを行うことを望まなかった。

しかし、それは問題ではありません。データ拡張もあります。各画像データに回転、拡大縮小、反転などのわずかな変更を加え、データの多様性を高めることです。

26文字の他に、英語を入力するときに必要な句読点がいくつかあります。例えば、研究者は老人にスペースを>に置き換えるように依頼しましたが、英語のピリオドにはドットが1つしかなく、区別がつきにくいため、老人は代わりに~を使用しました。カンマ、セミコロン、疑問符もあります。

しかし、この研究には数字が含まれていませんでした。おそらく研究者たちはzと2を区別するのが少し難しいと感じたため、次回の解決に残したのでしょう。

トレーニングデータは当初 242 文でしたが、毎日増加し、合計 572 文、31,472 文字になりました。

最後に、一部の英語の文字があまりにも似ているという問題を解決するために、研究者はテスト用の脳コンピューターインターフェース専用のアルファベットのセットも設計しました。精度ははるかに高くなりますが、学習コストがかかります。

文字精度は最大99.1%

次は、ボランティアによるテスト段階です。

画面上の指示に従って、ボランティアは脳内で文字を一文字ずつ書き写し、文字が認識されて画面上に生成されました。

テスト結果によると、脳が文字を「書く」時間と文字が画面に表示される時間の間に約 0.4 ～ 0.7 秒の遅延があることがわかりました。

全体として、ボランティアは 1 分間に平均 18 語、90 文字を入力でき、文字エラー率はわずか 5.9% です。

携帯電話の自動修正機能に似た予測言語モデルに通した後、文字の精度がさらに99.1％まで向上しました。

単語エラー率も 25.1% から 3.4% に低下しました。

さらに、ボランティアたちは自分で文章を「書き写す」という創作も行い、その結果、1分間に73.8文字を入力することができました。予測言語モデルによる修正後、正確率は97％を超えました。

最後に、限界に挑戦するために、研究者たちは、ユーザーの文章全体を中央で処理する前に処理する新しい RNN もトレーニングしました。この方法の精度は最大 99.83% ですが、ユーザーはリアルタイムのフィードバックを得ることができません。

実際のところ、これはBrainGateプロジェクトの一部です。これは、ブラウン大学やアメリカのバイオテクノロジー企業サイバーキネティクスを含む複数の機関によるコンソーシアムのプロジェクトであり、脳コンピューターインターフェース技術に焦点を当て、神経疾患、負傷、または四肢切断を患う人々のコミュニケーション、運動、自立の回復に取り組んでいます。

これまで、このプロジェクトでは、脳コンピューターインターフェース信号の無線伝送を実現し、患者が実験室環境を離れ、自宅で簡単にオンラインビデオを視聴できるようにしました。

スタンフォード大学ハワード・ヒューズ医学研究所（HHMI）の研究者で論文の著者の一人であるクリシュナ・シェノイ氏は、この研究の最大の革新は手書きのメモに関連する脳信号を解読し、下半身麻痺の患者が迅速かつ正確にタイピングできるようにしたことだと述べた。

論文の筆頭著者であるスタンフォード大学のフランク・ウィレット博士は、研究全体のコードと神経データをオープンソースにすると述べた。

現時点では、これは完全な臨床商用システムではなく、1 人の人間に対してのみテストされています。

今後は、テストグループの拡大、入力機能の拡張（編集、削除）、文字セットの拡張（大文字や他の言語など）などの領域で改善を行っていきます。

中国語を夢見ることは可能でしょうか？

それ以外にも、コストやリスクなど、議論する価値のある要素が他にもあります。

ワシントン大学バイオエンジニアリング学部のパヴィトラ・ラジェスワラン研究員と電気・コンピュータエンジニアリング学部のエイミー・オーズボーン研究員は、脳に電極を埋め込むコストとリスクが妥当であるかどうかを証明するには、この研究はまだテストする必要があると述べた。