音声認識の次のピークは「人間の領域」でしょうか?

[[208154]]

ディープラーニングが普及し、音声認識に広く使用されるようになって以来、字幕の単語エラー率は劇的に低下しました。それでも、音声認識は人間のレベルには達しておらず、まだいくつかの不具合があります。これらを認識し、対処するための措置を講じることが、音声認識の進歩にとって重要です。これは、一部の人を認識できる ASR から、いつでも誰でも認識できる ASR に移行する唯一の方法です。

最近の Switchboard 音声認識ベンチマークテストでは、単語エラー率が改善されました。 Switchboard セットは実際には 2000 年に収集されたもので、ランダムに選ばれた 2 人の英語ネイティブスピーカーによる 40 件の電話会話で構成されています。

会話音声認識は「人間」レベルに到達したと言えますが、それは Switchboard においてのみです。その結果は、晴れた日に街中で 1 人だけがハンドルを握って自動運転車をテストしているようなものになります。この分野における最近の進歩は驚くべきものですが、「人間レベル」のパフォーマンスについて話すのは範囲が広すぎるため、まだ改善が必要な領域がいくつかあります。

アクセントと騒音

音声認識における最も顕著な欠陥の 1 つは、アクセントと背景ノイズへの対応です。最も直接的な理由は、トレーニングデータのほとんどが、信号対雑音比の高いアメリカ英語で構成されていることです。

ただし、トレーニングデータを増やすだけでは、この問題は解決されない可能性があります。現実の生活でも、方言やアクセントはたくさんあります。したがって、ラベル付けされたデータを使用してすべての状況に対処することは現実的ではありません。英語を母国語とする人だけを対象に、5,000 時間以上の音声を書き起こす高品質の音声認識装置を構築することは可能でしょうか?

この文字起こしツールを Baidu の Deep Speech 2 システムと比較すると、アメリカ英語以外のアクセントの文字起こしではパフォーマンスがさらに悪くなることがわかりました。おそらく転写時のアメリカ人の偏見によるものでしょう。

走行中の車がバックグラウンドノイズにより 5 dB まで信号対雑音比が低くなることは珍しくありません。この環境では、人々はお互いの声を非常によく聞き取ることができます。一方、音声認識機能はノイズによって急速に劣化します。上の図では、人間のエラー率とモデルのエラー率の差がはっきりとわかります。低い信号対雑音比から高い信号対雑音比にかけて、この差は急激に増加します。

意味エラー

音声認識システムでは、単語のエラー率が実際の目標になることは通常なく、意味のエラー率が焦点となります。意味の正確さは他人の言葉の理解度に関係するからです。

意味エラーの例としては、誰かが「火曜日に会いましょう」と言ったのに、音声認識エンジンがそれを「今日会いましょう」と認識した場合などが挙げられます。これは意味上の誤りがない単語の誤りの例ですが、もちろんその逆も当てはまります。

エラー率を代理として使用する場合は注意が必要です。その理由を説明するために、最悪の例を挙げてみましょう。 5% の回答は、20 語のうち 1 語が抜けているのと同等になる可能性があります。したがって、文に 20 語しかない場合、この文のエラー率は 100% になる可能性があります。

モデルと人間を比較する場合、答えを単なる確定的な数値として見るのではなく、エラーの性質を調べることが重要です。経験則として、人間による書き起こしでは音声認識よりも意味上の誤りが少なくなります。

Microsoft の研究者は最近、人間による書き起こしと人間の音声認識システムが犯した間違いを比較したところ、モデルが「uh」を「uh huh」と混同していたという矛盾を発見した。これら 2 つの単語は意味がまったく異なります。モデルも人間も、同じ種類の間違いを多く犯します。

単一チャンネル、複数スピーカー

各話者が録音に個別のマイクを使用するため、交換台の会話タスクも簡単になります。同じオーディオストリーム内の複数のスピーカー間で重複はありません。一方、人間は、複数の話者が同時に話している会話でも、何が起こっているのかをかなりよく理解することができます。

優れた会話型音声認識システムは、誰が話しているかに基づいて音声をセグメント化できる必要があります (ダイアライゼーション)。また、重複したスピーカーを使用してオーディオを理解できる必要があります (ソース分離)。これは、各スピーカーにマイクを必要とせずに実行できるため、会話の音声はあらゆる場所で機能します。

ドメインの変更

アクセントと背景ノイズは、音声認識装置にとって重要な要素です。以下にいくつか例を挙げます。

残響音環境の変化
ハードウェアからのアーティファクト
オーディオと圧縮のアーティファクト
サンプリングレート
話者の年齢

ほとんどの人は、mp3 ファイルと通常の wav ファイルの違いに気付かないでしょう。音声認識装置も、人間レベルのパフォーマンスを主張する前に、これらの変動源を強力にサポートする必要があります。

コンテクスト

「switch board」のような単語のエラー率は実際には非常に高いため、友人と話しているときに 20 語のうち 1 語を誤解すると、コミュニケーションが困難になることがわかります。

その理由の 1 つは、評価が文脈に応じて行われることです。実生活では、私たちは文脈と組み合わせて他の多くの手がかりを使って、誰かが言っていることを理解します。しかし、音声認識機能はこれらを認識しません:

会話の履歴と議論されたトピック
誰と話しているかの視覚的な手がかりには、表情や唇の動きなどがある
講演者の経歴

現在、Android の音声認識機能にはすでに連絡先リストが保存されているため、友達の名前を認識できます。マッピング製品の音声検索では、地理位置情報を使用して、閲覧したい興味のある場所を絞り込むことができます。このタイプの信号を使用すると、ASR システムの精度が確実に向上します。

展開する

新しいアルゴリズムを導入する場合、計算量を増やすアルゴリズムはレイテンシを増やすことが多いため、レイテンシとアルゴリズムの両方を考慮することができますが、ここでは簡単にするために、これらを別々に説明します。

レイテンシ: 転写が完了した後は、レイテンシが低くなるのが一般的であり、ユーザーエクスペリエンスに大きな影響を与える可能性があります。したがって、ASR システムでは数十ミリ秒以内の遅延要件は珍しくありません。これは極端に聞こえるかもしれませんが、多くの場合、一連の高価な計算の最初のステップであるため、慎重に取り組む必要があります。

将来の情報を音声認識に効果的に組み込むための適切な方法は未解決の問題であり、現在も議論されています。

計算: 談話を記録するために必要な計算能力は経済的な制約となります。音声認識装置の精度のあらゆる改善を考慮する必要があります。改善が経済的基準を満たさない場合、導入することはできません。

決して展開されなかった継続的改善の典型的な例は統合です。エラーが 1% または 2% 改善されると、計算量は 2 ～ 8 倍増加する可能性があり、最新の RNN 言語モデルは多くの場合このカテゴリに分類されます。

実際、大きな計算コストをかけて精度を向上させることは推奨されておらず、「最初は遅いが正確、その後速度を上げる」という動作モードがすでに存在しています。しかし、問題は、十分な速さで改善されない限り、使用できないままになるということです。

今後5年間

音声認識には、未解決かつ困難な問題がまだ数多く残っています。これらには以下が含まれます:

新しい分野、アクセント、遠距離分野に拡張され、信号対雑音比が低い

認識プロセスにより多くのコンテキストを組み込む

ダイアライゼーションとソース分離

超低レイテンシと効率的な推論

今後 5 年間でこれらの分野で進歩を遂げることを期待しています。

<<: 現在のディープニューラルネットワークモデルの圧縮と加速方法の概要

>>: Analysys OLAP アルゴリズムコンペティションの結果が発表され、オープンソースグループのダークホースがその腕前を披露しました。

ブログ

ブログ

知能の哲学: 人工知能の倫理的問題 (有益な AI)

ブログ

音声認識の次のピークは「人間の領域」でしょうか?

機械学習が難しいのはなぜでしょうか?

0 コードで GPT-5 をトレーニングしますか? MIT と Microsoft は、GPT-4 がエラーを自己修正する機能を持ち、インテリジェントボディがフィードバックに基づいてコードをループして反復することを確認しました。

人工知能の65年の簡単な歴史：マッカーシーからヒントンまで、人類はどのようなAIを追求しているのでしょうか？

ハイパーオートメーションはビジネスの未来か？企業にとって何ができるのでしょうか?

機械に「忘却の呪文」をかける？ Google、初の機械忘却チャレンジを開始

ベクトルデータベースが生成AIを強化する方法

知能の哲学: 人工知能の倫理的問題 (有益な AI)

推薦する

人工知能に関する国家3カ年戦略が発表されました。この8種類の製品が流行るでしょう！

AIが日常のエンターテインメントを向上させるためにどのように活用されているか

Titanium Technology CEO、Li Shuhao氏：ツールの輸出からブランドの輸出まで、Martechはどのような新たな機会に直面していますか？

Linux カーネルのメモリ管理アルゴリズム Buddy と Slab

機械学習のための数学をどのように学ぶのでしょうか?

IDC: 企業の人工知能プロジェクトの半数が完全に失敗し、AI導入の道のりは困難

Google DeepMind、どのDNA変異が遺伝性疾患を引き起こすかを予測できる新しいモデルを開発

脚付きロボットの新たなスキル：ANYmalは山登りを学んでいる

アリババが自然言語理解の世界記録を更新、AIの常識的推論は人間のそれに近づいている