人間の脳の神経信号も言語であると考えられるなら、機械翻訳アーキテクチャを神経信号の解釈に適用する実現可能性は驚くべきことではないようです。 『ネイチャー・ニューロサイエンス』誌に掲載された論文の中で、カリフォルニア大学サンフランシスコ校の研究者らがこのアイデアを実践した。彼らはエンコーダー/デコーダーフレームワークを使用して脳の神経信号をテキストに変換し、250語のクローズドセンテンスのセットでエラー率を3%に削減しました。 論文リンク: https://www.nature.com/articles/s41593-020-0608-8 過去 10 年間で、脳コンピューター インターフェイス (BMI) は動物実験から人間実験へと移行し、代表的な結果では、四肢麻痺患者が特定の運動能力を取り戻し、空間次元で 2 自由度の連続動作を実現できるようになりました。このタイプのコントロールは、仮想キーボードと組み合わせて使用してテキストを生成することもできますが、理想的なカーソル コントロール (現在は不可能) を使用した場合でも、入力速度は依然として 1 本の指による入力に制限されます。もう一つの選択肢は、話し言葉を直接デコードすることですが、これまでのところ、そのような BMI は、孤立した音素または単一の音節をデコードすること、または中程度に大きい語彙 (約 100 語) からの連続した音声の 40% 未満の語を正しくデコードすることに限られています。 より高い精度を実現するために、カリフォルニア大学サンフランシスコ校の研究者らは、「神経活動から音声を解読する」というタスクと「機械翻訳」というタスクの概念的な類似性を活用した。両方のタスクの目標は、同じ基礎となる分析単位の 2 つの異なる表現間のマッピングを確立することです。より正確には、どちらも任意の長さのシーケンスを別の任意の長さのシーケンスに変換します (任意とは、入力シーケンスと出力シーケンスの長さが異なり、それらの間に決定論的な接続がないことを意味します)。 この研究では、研究者らは、現在のほとんどの機械翻訳アルゴリズムと同様に、一度に 1 つの文をデコードしようとしたため、両方のタスクは実際には同じタイプの出力、つまり文に対応する単語のシーケンスにマッピングされます。一方、これら 2 つのタスクの入力は、それぞれ神経信号とテキストと非常に異なります。しかし、現在の機械翻訳アーキテクチャは、人工ニューラル ネットワークを使用してデータから直接機能を学習できるため、機械翻訳のエンドツーエンドの学習アルゴリズムを音声デコードにほぼ直接適用できると考えられます。 この仮説を検証するために、研究者らは音声生成中に、脳波 (ECoG) から取得した神経信号と対応する音声言語の転写を使用して、シーケンスツーシーケンス アーキテクチャをトレーニングしました。さらに、このタスクと機械翻訳の決定的な違いは、後者のデータセットには 100 万を超える文を含めることができるのに対し、この研究の基礎となった EEG 研究の個々の参加者が提供しているのは通常、数千の文だけであるということです。 比較的少ないトレーニングデータでエンドツーエンドの学習の利点を活用するために、研究者は30〜50の異なる文章のみで構成される制限された「言語」を使用し、場合によっては他の参加者や他の音声タスクのデータからの転移学習を採用しました。 この研究の参加者は、通常 1 回のセッションで説明される一連の絵の説明 (30 文、約 125 の異なる単語) と、研究者が MOCHA-1、MOCHA-2 などと呼んでいる 50 文のセッションにグループ化された (最終セットは 60 文) MOCHATIMIT14 (460 文、約 1,800 の異なる単語) の 2 つのデータセットのいずれかから文章を音読しました。時間の許す限りグループセッションを繰り返します。テストでは、少なくとも 3 回繰り返される文のセット (つまり、テスト用に 1 セット、トレーニング用に少なくとも 2 セット) のみを考慮しました。これにより、実際には MOCHA-TIMIT セットは MOCHA-1 (50 文、約 250 個の異なる単語) に制限されます。 方法 ここではまず、次の図に示すように、デコード プロセスについて簡単に説明します。 研究者らは、参加者に文章を声に出して読むよう依頼し、高密度ECoGグリッドを使用してシルビウス周囲皮質の神経活動を記録しました。 各電極では、ECoG 信号の高周波成分 (70~150 Hz、つまり「高 γ」) のエンベロープ (つまり、この範囲での分析信号の振幅) が約 200 Hz で抽出されました。結果として得られたシーケンス(それぞれが文に対応)は、入力データとして「エンコーダー-デコーダー」スタイルの人工ニューラル ネットワークに渡されます。 ネットワークはシーケンスを 3 つの段階で処理します。
ネットワークアーキテクチャ ネットワーク全体が同時にトレーニングされるため、エンコーダーはターゲット MFCC に近い値を生成し、デコーダーは各ターゲット単語に高い確率を割り当てます。 MFCC の目的は「補助損失」を提供することに留意してください。これは、語順デコード問題に対する十分な解決策を見つけるためにネットワークを導くことを目的とする、マルチタスク学習の一形態です。テスト中、MFCC 予測は破棄され、デコーダー RNN の出力のみに基づいてデコードが行われます。すべてのトレーニングは、バックプロパゲーションによる確率的勾配降下法によって実行され、ドロップアウトがすべてのレイヤーに適用されます。 実験結果 実験全体を通して、研究者は平均単語誤り率(WER、すべてのテスト文で計算)を使用してパフォーマンスを定量化し、完璧なデコードでは WER が 0% になるようにしました。参考までに、音声文字起こしでは、5% WER はプロフェッショナルレベルと見なされ、20~25% は許容できるパフォーマンスと見なされます。これは、参照語彙がはるかに大きいにもかかわらず、音声認識テクノロジで広く採用されている標準でもあります。 まず、MOCHA-1 から 50 の文 (約 250 の異なる単語) を話す参加者の例に対するエンコーダー/デコーダー フレームワークのパフォーマンスを検討します (下の図を参照)。下の図の参加者の平均 WER は約 3% です。これまでの最先端の方法では、音声デコード WER が 60% に達し、実験にはより小さな語彙サイズ (100 語) が使用されました。 デコードされた文章の WER。 エンコーダー/デコーダー ネットワークの優れたパフォーマンスの理由は何ですか?さまざまな要因の寄与を定量化するために、研究者らはそれらを体系的に削除または弱め、ネットワークを最初からトレーニングしました。上の図の 2 番目のボックスは、データを空間的にダウンサンプリングして、より低密度の ECoG グリッドをシミュレートするパフォーマンスを示しています。具体的には、グリッドの両方の次元のチャネルの 4 分の 1 のみが残ります (つまり、実際には 256 チャネルではなく 64 チャネル)。 WER は約 4 倍高くなっていますが、これはまだ使用可能な範囲内であり、アルゴリズムにとって高密度グリッド以外の要素が重要であることを示しています。 3 番目のボックスは、トレーニング中に MFCC がロックされていない場合のパフォーマンスを示しています。WER は低密度グリッド データを使用してトレーニングされたモデルの WER に近いですが、それでも以前の音声デコード方法よりも大幅に優れています。 次に研究者らは、入力層が畳み込みではなく完全に接続されたネットワーク(4 番目のボックス)を検討したところ、WER は元のネットワークよりも 8 倍高くなりました。 次に、高いパフォーマンスを実現するために必要なデータの量を検討します。下の図は、ニューラル ネットワーク トレーニングの繰り返し回数の関数として 4 人の参加者の WER を示しています。合計で 40 分を超えるトレーニング データを持つ参加者はおらず、トレーニングの繰り返しが 15 回以上ある場合、WER は 25% を下回ることがあります。 下の図には、MOCHA 文のトレーニングをほとんど行わなかった 2 人の参加者 (参加者 A/緑の実線、参加者 D/茶色の実線) がおり、そのためデコード パフォーマンスが低かったです。 |
<<: AI が Sogou 入力方式の新バージョンを強化: 音声認識は 9 つの言語をサポート
[51CTO.com からのオリジナル記事] 顔認識技術は新しいものではありません。多くの人が携帯...
IoT カメラは、小売環境をより効率的かつ顧客に優しく、そして何よりもセキュリティと安全性を高めるこ...
8月8日夜、第32回夏季オリンピック競技大会(以下、東京オリンピック)が閉幕した。選手たちの俊敏な姿...
海外メディアの報道によると、IBMは人工知能システム「プロジェクト・ディベーター」をリリースし、経験...
4年待ちに待ったワールドカップがついにやって来ました。業界に数十億ドルの資金が投入され、世界人口の...
報道によると、ウクライナが使用している顔データベースは、米国に本社を置くテクノロジー企業の「Clea...
Google は最近、検索ページの新しい機能である Google ナレッジグラフをリリースしました。...
音声は本質的に即時の信号です。音声で伝えられる情報要素は、複数の時間スケールで進化します。空気圧の影...
長い間、感情があるかどうかは、人間と機械を区別する重要な基準の一つでした。つまり、機械が感情を持って...
データサイエンスと人工知能がスポーツ分析に導入されることは当たり前のことになりました。そして、テクノ...
導入CART は C4.5 に似ており、決定木アルゴリズムの一種です。さらに、一般的な決定木アルゴリ...
人工知能は、人間による情報の統合、データの分析、機械の助けを借りた洞察の獲得のプロセスを再構築し、人...