科学者たちは、歌詞付きの歌を聞くと読書の妨げになりやすいのと同じように、音声信号とテキスト信号が脳に入るときにいくつかの処理経路を共有することに長い間気づいていました。関連する探検は、100年以上前にある若者の偶然の発見にまで遡ることができます。
1874年、カール・ウェルニッケは有名な神経病理学者セオドア・マイナートのもとで学んでいました。彼は2人の奇妙な患者を記録した。彼らは何らかの言語障害を抱えているようでしたが、症状は典型的な表現性失語症とはまったく異なっていました。彼らは流暢に話したり書いたりすることができましたが、言葉はすべて意味不明でした。ウェルニッケは最終的に、現在では感覚失語症と呼ばれているこの症状が、側頭葉の後部と上部の脳損傷に起因すると結論付けた。患者の言語理解能力が破壊されるため、患者は自分が言ったことや書いたことを忘れてしまうことがよくあります。「何を言おうとしていたのだろう?」現代の科学者は、脳の活動を観察する過程で、ついに脳内に音声とテキストの「収束領域」が存在することを確認しました。これらの領域は、音声とテキストの両方の理解を担っています。 外国語の映画を見るとき、字幕を見ればスムーズに映画を見ることができます。ここでの字幕は音声翻訳技術を利用しており、ソース言語の音声をターゲット言語(母国語など)のテキストに翻訳します。 しかし、コンピューターにとって、音声とテキストは非常に異なる方法で表現されます。テキストは通常、数十個の記号で構成されているだけですが、音声は数百万個にも及ぶ連続した音の波形で構成されています。同じ言葉を発しても、誰が、どのような環境で、どのような状況で発するかによって、まったく違って聞こえることがあります。さらに、音声とテキストは異なる方法でエンコードされます。テキストの単語は語根と接辞で構成されています。スピーチは一連の形態素で構成され、強調とイントネーションによって補完されます。 人間にとって簡単なことでも、人工知能にとっては非常に難しい場合があります。テキストと音声の違いは非常に大きいため、テキスト処理の研究は実りある成果を上げている一方で、音声のパフォーマンスは大きく遅れをとっています。このギャップを埋めるには、私たちの脳と同じように、音声とテキストを均一に理解する必要があります。 現在、人工知能を研究する際には、解剖学や神経学からインスピレーションを得てモデルを最適化するようになり、人工知能はますます私たちに近づいてきています。 |
>>: 人工知能の時代では、女の子よりも男の子の方が失業する可能性が高いです!
[[260878]] 「当社は、個人データへのアクセスを必要としないマルチパーティデータコンピューテ...
2024 年が始まると、多くのテクノロジートレンドが形成され始めます。今年は、セキュリティとガバナン...
人工知能 (AI) と機械学習は、テクノロジーの意思決定者、業界の専門家、投資家にとって引き続き注目...
じっとしていられないアンドレイ・カルパティに新しいプロジェクトが! OpenAIはここ数日、非常に忙...
セルフメディアの時代において、すべてのパブリックアカウントは、自分の記事をより多くの人に見てもらえる...
2019 年、OpenAI は、特定の「安全制約」に準拠した AI モデルを開発するためのツール ...
ビッグデータダイジェスト制作著者: カレブトンガ火山の噴火により、洪水や地震などの自然災害に見舞われ...
[51CTO.comより引用] 2017年12月1日~2日、51CTO主催のWOTDグローバルソフト...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
[51CTO.com クイック翻訳] 現在、機械学習(ML)と人工知能(AI)に関連するアルゴリズム...
SQL Server 2008 データ マイニング決定木アルゴリズム決定木は判断木とも呼ばれ、バイナ...
10月12日、ブルームバーグは昨夜、グーグルとDiscordが共同で自社のAIチャットボット「Bar...
大規模な事前トレーニング済み言語モデルと画像拡散モデル (Satble Diffusion など) ...
AI の取り組みが失敗すると、その責任はスキルのギャップにあるとされることが多いです。しかし、それだ...
少し前、あるニュースが大きな衝撃を与えた。3年前の母親殺害事件の容疑者、呉謝宇が重慶江北空港で逮捕さ...