ディープラーニングでは音声認識の問題を解決できない

ディープラーニングでは音声認識の問題を解決できない

[[212222]]

音声認識にディープラーニングが導入されて以来、単語の誤り率は急速に低下しました。しかし、あなたが読んだことにもかかわらず、音声認識はまだ人間のレベルに達していません。音声認識にはすでに多くの失敗モードがあります。 ASR (自動音声認識) を、一部の人々にとってほとんどの場合機能するものから、すべての人にとって常に機能するものに移行させる唯一の方法は、これらの失敗を認識し、それらに対処するための措置を講じることです。

交換機会話音声認識の標準テストにおける単語誤り率の進歩。このデータセットは 2000 年に収集され、ランダムに選ばれた 2 人の英語ネイティブ スピーカー間の 40 回の電話通話で構成されています。

交換機での通話結果のみに基づいて人間レベルの音声認識を実現したと主張することは、交通量のない晴れた日に小さな町で自動運転のテストに成功したことに基づいて人間レベルの運転を実現したと主張するようなものです。音声認識の分野における最近の進歩は本当に驚くべきものでした。しかし、人間のパフォーマンスに関する主張は範囲が広すぎます。ここに改善の余地がある領域がいくつかあります。

アクセントと騒音

音声認識における最も明らかな欠陥の1つは、アクセント[1]と背景ノイズの処理です。最も直接的な理由は、トレーニング データのほとんどが信号対雑音比の高いアメリカ英語であることです。たとえば、交換機通話のトレーニング データセットとテスト データセットには、ネイティブの英語話者 (ほとんどがアメリカ人) のみが含まれ、バックグラウンド ノイズはほとんどありません。

トレーニングデータだけではこの問題を解決できません。言語は非常に多く、方言やアクセントも非常に多いため、あらゆる状況で十分な注釈データを収集することは不可能です。アメリカ英語のアクセントの高品質な音声認識システムを構築するだけでも、5,000 時間を超える音声の書き起こしが必要になります。

様々な音声タイプにおける手動文字起こしとBaiduのDeep Speech 2モデルの比較[2]。人間はアメリカ以外のアクセントを書き起こす場合、一貫して成績が悪くなることに注意してください。これは、書き起こし担当者の集団におけるアメリカ人偏りに起因する可能性があります。地域アクセントの誤り率を減らすために、各地域に現地の筆記者を配置することを希望します。

背景ノイズに関しては、走行中の車内などでは信号対雑音比 (SRN) が -5dB まで低くなることも珍しくありません。このような環境では、人々がコミュニケーションをとることは難しくありませんが、一方で、騒音環境下では音声認識能力が急激に低下します。上の図から、高い信号対雑音比から低い信号対雑音比にかけて、人間とモデル間のエラー率の差が劇的に広がることがわかります。

意味エラー

通常、音声認識システムの実際の目標は単語の誤り率ではありません。私たちがより懸念しているのは、意味エラー率、つまり誤解されるスピーチの部分です。

意味エラーの例としては、誰かが「火曜日に会いましょう」と言ったのに、音声認識が「今日会いましょう」と予測することが挙げられます。また、音声認識機能が「up」を聞き逃して「let's meet Tuesday」と予測するなど、単語が間違っていても意味を正しいままにできるため、発話の意味は変更されません。

単語エラー率を指標として使用する場合は注意が必要です。最悪の例として、エラー率が 5% の場合、20 語のうち 1 語が欠落していることになります。各文が 20 語 (英語の文の平均程度) で構成されている場合、文のエラー率は 100% に達する可能性があります。うまくいけば、間違った単語によって文の意味が変わることはありませんが、誤り率が 5% でもすべての文が誤って読まれる可能性があります。

モデルを人間と比較する際の焦点は、エラー率という言葉を決定的な数字として捉えるのではなく、エラーの性質を見つけることです。私の経験では、人間による書き起こしでは音声認識よりも極端な意味エラーが少なくなります。

最近、マイクロソフトの研究者は、人間レベルの音声認識装置のエラーを人間のものと比較しました[3]。彼らが発見した一つの違いは、モデルは人間よりも「えー」と「うーん」を混同する頻度が高いということだ。これら 2 つの用語の意味は大きく異なります。「uh」は単なるつなぎ言葉ですが、「uh huh」は逆の確認です。モデルは人間と同じような間違いを多く犯します。

単一チャネルおよび複数人セッション

各発信者は別々のマイクで録音されるため、デスク通話を切り替える作業も容易になります。同じオーディオ ストリーム内で複数の話者が重複することはありません。一方、人間は複数の話者の話を理解することができ、時には同時に話すこともあります。

優れた会話型音声認識装置は、誰が話しているかに応じて音声をセグメント化 (ダイアライゼーション) でき、重複する会話を整理 (ソース分離) できる必要があります。各話者の口の横にマイクがある場合だけでなく、どこで会話をしてもうまく機能します。

フィールドの変更

アクセントと背景ノイズは、音声認識に改善の余地がある 2 つの領域にすぎません。他にもいくつかあります:

  • 音響環境の変化による残響
  • ハードウェアに起因するアーティファクト
  • オーディオコーデックと圧縮アーティファクト
  • サンプリングレート
  • 話者の年齢

ほとんどの人は、mp3 ファイルと wav ファイルの違いに気づきません。しかし、音声認識が人間レベルのパフォーマンスを発揮できると主張するには、多様なドキュメント ソースを処理できるようにさらに機能強化する必要があります。

コンテクスト

Switchboard などの人間レベルのエラー率ベンチマークは、実際にはかなり高いことがわかります。友人とコミュニケーションを取っているときに、友人が 20 語のうち 1 語を誤解すると、コミュニケーションは難しくなります。

理由の 1 つは、そのような評価は文脈に依存しないことです。実生活では、他の人が言っていることを理解するために、他の多くの手がかりを利用します。人間がコンテキストを使用し、音声認識エンジンが使用しない状況の例をいくつか示します。

  • 会話の履歴と議論されたトピック
  • 話し手からの視覚的な手がかり(表情や唇の動きなど)
  • 対話相手に関する事前知識

現在、Androidの音声認識機能はすでに連絡先リストを記憶しており、友人の名前を認識することができます[4]。地図製品の音声検索では、地理位置情報を利用して、ナビゲートしたい興味のある場所を絞り込みます[5]。

これらの信号が追加されると、ASR システムは確実に改善されます。ただし、ここでは、利用可能なコンテキストの種類とその使用方法について、ほんの少し触れたにすぎません。

展開する

会話音声の最新の進歩はまだ導入できる状態ではありません。新しい音声アルゴリズムの導入を解決するには、レイテンシと計算の複雑さという 2 つの側面を考慮する必要があります。両者の間には相関関係があり、アルゴリズムの計算量が増加すると、通常はレイテンシも増加します。しかし、わかりやすくするために、個別に説明します。

レイテンシー: レイテンシーとは、ユーザーが話し終えてから文字起こしが完了するまでの時間を指します。低レイテンシは ASR における一般的な製品制約であり、ユーザー エクスペリエンスに大きな影響を与えます。 ASR システムの場合、10 ミリ秒の遅延要件は珍しくありません。これは極端に聞こえるかもしれませんが、転写は多くの場合、複雑な一連の計算の最初のステップにすぎないことを覚えておいてください。たとえば、音声検索では、実際の Web 検索は音声認識後にのみ実行できます。

レイテンシを改善するのが難しい例としては、双方向再帰層が挙げられます。現在の最先端の会話型音声認識はすべてこれを使用しています。問題は、最初のレベルでは何も計算できず、ユーザーが話し終えるまで待たなければならないことです。したがって、ここでの遅延はスピーチの長さに関係しています。

上記: 転記中に計算を実行できる順方向ループは 1 つだけです。

下記: 双方向ループの場合、トランスクリプションを計算する前に発話全体が話されるまで待つ必要があります。

音声認識に将来の情報を効果的に組み込む方法は、未解決の問題として残っています。

コンピューティング: 音声を書き起こすために必要なコンピューティング能力は経済的な制約となります。音声認識装置の精度を向上させるごとに、コスト効率を考慮する必要があります。改善が経済的基準を満たさない場合、導入することはできません。

決して展開されない継続的改善の典型的な例は統合です。エラーを 1% または 2% 削減しても、計算労力が 2 ~ 8 倍増加するほどの価値はほとんどありません。新世代の RNN 言語モデルも、ビーム検索で使用するにはコストがかかることからこのカテゴリに分類されますが、これは将来変更されると予想されます。

誤解のないように言っておきますが、私は、多大な計算コストをかけて精度を向上させる方法を研究することが無駄だとは思いません。 「最初はゆっくり正確に始め、その後スピードを上げる」というモデルの成功を私たちは見てきました。一つ言及しておきたいのは、十分な速さで改善されるまでは使用できないということです。

今後5年間

音声認識の分野には、未解決で困難な問題がまだ数多くあります。

  • 新しい地域、アクセント、遠距離、低信号対雑音比の音声に対応する拡張機能
  • 認識プロセスにさらなるコンテキストを導入する
  • ダイアライゼーションとソース分離
  • 音声認識における意味的誤り率と革新的な手法の評価
  • 超低レイテンシと効率的な推論

今後 5 年間で、こうした分野やその他の分野で進歩が見られることを期待しています。

<<:  「機械学習」CNNを徹底理解

>>:  Ele.meにおける人工知能の応用

ブログ    

推薦する

Apple、新しいGPUアクセラレーションツールCreate MLをリリース

Appleは本日、カリフォルニア州サンノゼで2018年ワールドワイド開発者会議を開催し、4つの主要な...

予測分析: 組織内の時間とデータの再考

[[278064]]時系列は標準的な分析手法ですが、より高度な機械学習ツールでは、より正確な予測モデ...

人工知能は祝福か、それとも呪いなのか?

ますますペースが速まるこの時代において、私たちは効率性を高め、ブレークスルーを追求し続けています。多...

住宅価格予測のための機械学習

序文Python は機械学習において当然の利点を持っているので、今日から機械学習技術に取り組んでみま...

...

MIT、ビデオ遅延防止に新たなAI技術を採用

動画の途切れや解像度の低さは視聴者の視聴体験を著しく低下させ、広告主の利益にも悪影響を及ぼします。現...

持続可能な都市計画とスマートシティに人工知能を活用する方法

21 世紀の急速な都市化は、交通渋滞や汚染から住宅不足や公共サービスの逼迫まで、数多くの課題をもたら...

大手各社が相次いで「敗北を認める」。自動運転の実用化に目途は立つのか?

[[263741]]自動運転は短期間で実現できるのか?数年前なら、大手各社はおそらく肯定的な答えを...

...

グーグルは複数の病院と協力し、AI医療の可能性を探る実験を行っているという

7月11日、ウォール・ストリート・ジャーナルによると、Googleは最近、いくつかの病院と協力し、M...

RAG か微調整か?マイクロソフトは特定分野における大規模モデルアプリケーションの構築プロセスガイドを公開した

大規模な言語モデル アプリケーションを構築するときに、独自のデータとドメイン固有のデータを組み込む一...

AIが材料科学に革命を起こす! Google DeepMindの新しい研究がNatureに掲載され、一度に220万の新素材を予測した。

たった 1 つの AI を使って、人類が生み出すのに 800 年近くかかった知識を獲得しました。これ...

ディープラーニングの父が懸念:データ漏洩、AI兵器、批判の欠如

[[254553]]マーティン・フォードは2015年に出版した『ロボットの台頭』で大きな話題を呼びま...

3分レビュー! 2021年5月の人工知能分野における重要な進展の概要

近年、社会経済の発展に伴い、人工知能技術は科学技術の最前線に立っています。テクノロジーが成熟するにつ...

最先端技術の共有:脳の信号を音声に変換するAIアルゴリズムは、失語症の人が正常に話すことを助けることが期待されています

カリフォルニア大学サンフランシスコ校の神経科学者チームは、ネイチャー誌に最近発表した研究で、脳の活動...