ディープラーニングが普及し、音声認識に広く使用されるようになって以来、字幕の単語エラー率は劇的に低下しました。それでも、音声認識は人間のレベルには達しておらず、まだいくつかの不具合があります。これらを認識し、対処するための措置を講じることが、音声認識の進歩にとって重要です。これは、一部の人を認識できる ASR から、いつでも誰でも認識できる ASR に移行する唯一の方法です。 最近の Switchboard 音声認識ベンチマーク テストでは、単語エラー率が改善されました。 Switchboard セットは実際には 2000 年に収集されたもので、ランダムに選ばれた 2 人の英語ネイティブ スピーカーによる 40 件の電話会話で構成されています。 会話音声認識は「人間」レベルに到達したと言えますが、それは Switchboard においてのみです。その結果は、晴れた日に街中で 1 人だけがハンドルを握って自動運転車をテストしているようなものになります。この分野における最近の進歩は驚くべきものですが、「人間レベル」のパフォーマンスについて話すのは範囲が広すぎるため、まだ改善が必要な領域がいくつかあります。 アクセントと騒音 音声認識における最も顕著な欠陥の 1 つは、アクセントと背景ノイズへの対応です。最も直接的な理由は、トレーニング データのほとんどが、信号対雑音比の高いアメリカ英語で構成されていることです。 ただし、トレーニング データを増やすだけでは、この問題は解決されない可能性があります。現実の生活でも、方言やアクセントはたくさんあります。したがって、ラベル付けされたデータを使用してすべての状況に対処することは現実的ではありません。英語を母国語とする人だけを対象に、5,000 時間以上の音声を書き起こす高品質の音声認識装置を構築することは可能でしょうか? この文字起こしツールを Baidu の Deep Speech 2 システムと比較すると、アメリカ英語以外のアクセントの文字起こしではパフォーマンスがさらに悪くなることがわかりました。おそらく転写時のアメリカ人の偏見によるものでしょう。 走行中の車がバックグラウンドノイズにより 5 dB まで信号対雑音比が低くなることは珍しくありません。この環境では、人々はお互いの声を非常によく聞き取ることができます。一方、音声認識機能はノイズによって急速に劣化します。上の図では、人間のエラー率とモデルのエラー率の差がはっきりとわかります。低い信号対雑音比から高い信号対雑音比にかけて、この差は急激に増加します。 意味エラー 音声認識システムでは、単語のエラー率が実際の目標になることは通常なく、意味のエラー率が焦点となります。意味の正確さは他人の言葉の理解度に関係するからです。 意味エラーの例としては、誰かが「火曜日に会いましょう」と言ったのに、音声認識エンジンがそれを「今日会いましょう」と認識した場合などが挙げられます。これは意味上の誤りがない単語の誤りの例ですが、もちろんその逆も当てはまります。 エラー率を代理として使用する場合は注意が必要です。その理由を説明するために、最悪の例を挙げてみましょう。 5% の回答は、20 語のうち 1 語が抜けているのと同等になる可能性があります。したがって、文に 20 語しかない場合、この文のエラー率は 100% になる可能性があります。 モデルと人間を比較する場合、答えを単なる確定的な数値として見るのではなく、エラーの性質を調べることが重要です。経験則として、人間による書き起こしでは音声認識よりも意味上の誤りが少なくなります。 Microsoft の研究者は最近、人間による書き起こしと人間の音声認識システムが犯した間違いを比較したところ、モデルが「uh」を「uh huh」と混同していたという矛盾を発見した。これら 2 つの単語は意味がまったく異なります。モデルも人間も、同じ種類の間違いを多く犯します。 単一チャンネル、複数スピーカー 各話者が録音に個別のマイクを使用するため、交換台の会話タスクも簡単になります。同じオーディオ ストリーム内の複数のスピーカー間で重複はありません。一方、人間は、複数の話者が同時に話している会話でも、何が起こっているのかをかなりよく理解することができます。 優れた会話型音声認識システムは、誰が話しているかに基づいて音声をセグメント化できる必要があります (ダイアライゼーション)。また、重複したスピーカーを使用してオーディオを理解できる必要があります (ソース分離)。これは、各スピーカーにマイクを必要とせずに実行できるため、会話の音声はあらゆる場所で機能します。 ドメインの変更 アクセントと背景ノイズは、音声認識装置にとって重要な要素です。以下にいくつか例を挙げます。
ほとんどの人は、mp3 ファイルと通常の wav ファイルの違いに気付かないでしょう。音声認識装置も、人間レベルのパフォーマンスを主張する前に、これらの変動源を強力にサポートする必要があります。 コンテクスト 「switch board」のような単語のエラー率は実際には非常に高いため、友人と話しているときに 20 語のうち 1 語を誤解すると、コミュニケーションが困難になることがわかります。 その理由の 1 つは、評価が文脈に応じて行われることです。実生活では、私たちは文脈と組み合わせて他の多くの手がかりを使って、誰かが言っていることを理解します。しかし、音声認識機能はこれらを認識しません:
現在、Android の音声認識機能にはすでに連絡先リストが保存されているため、友達の名前を認識できます。マッピング製品の音声検索では、地理位置情報を使用して、閲覧したい興味のある場所を絞り込むことができます。このタイプの信号を使用すると、ASR システムの精度が確実に向上します。 展開する 新しいアルゴリズムを導入する場合、計算量を増やすアルゴリズムはレイテンシを増やすことが多いため、レイテンシとアルゴリズムの両方を考慮することができますが、ここでは簡単にするために、これらを別々に説明します。 レイテンシ: 転写が完了した後は、レイテンシが低くなるのが一般的であり、ユーザー エクスペリエンスに大きな影響を与える可能性があります。したがって、ASR システムでは数十ミリ秒以内の遅延要件は珍しくありません。これは極端に聞こえるかもしれませんが、多くの場合、一連の高価な計算の最初のステップであるため、慎重に取り組む必要があります。 将来の情報を音声認識に効果的に組み込むための適切な方法は未解決の問題であり、現在も議論されています。 計算: 談話を記録するために必要な計算能力は経済的な制約となります。音声認識装置の精度のあらゆる改善を考慮する必要があります。改善が経済的基準を満たさない場合、導入することはできません。 決して展開されなかった継続的改善の典型的な例は統合です。エラーが 1% または 2% 改善されると、計算量は 2 ~ 8 倍増加する可能性があり、最新の RNN 言語モデルは多くの場合このカテゴリに分類されます。 実際、大きな計算コストをかけて精度を向上させることは推奨されておらず、「最初は遅いが正確、その後速度を上げる」という動作モードがすでに存在しています。しかし、問題は、十分な速さで改善されない限り、使用できないままになるということです。 今後5年間 音声認識には、未解決かつ困難な問題がまだ数多く残っています。これらには以下が含まれます: 新しい分野、アクセント、遠距離分野に拡張され、信号対雑音比が低い 認識プロセスにより多くのコンテキストを組み込む ダイアライゼーションとソース分離 超低レイテンシと効率的な推論 今後 5 年間でこれらの分野で進歩を遂げることを期待しています。 |
<<: 現在のディープニューラルネットワークモデルの圧縮と加速方法の概要
>>: Analysys OLAP アルゴリズム コンペティションの結果が発表され、オープン ソース グループのダーク ホースがその腕前を披露しました。
2月18日に火星への着陸に成功したNASAの火星探査車パーサヴィアランスは、火星での2年間の探査ミッ...
[[399011]]飛行機に搭乗するための「顔スキャン」、歩行者を積極的に識別して回避する自動運転車...
最近、BOSS直接採用キャリア科学実験室とBOSS直接採用研究所は、毎年恒例の大ヒット作「変異の時代...
[[389058]]ヒープソートの基本ヒープソートは、ヒープデータ構造を使用して設計されたソートア...
近年、人工知能技術は飛躍的な進歩を遂げており、各国は人工知能技術の戦略的意義を認識し、国家戦略レベル...
Hugging Faceのオープンソース大型モデルのランキングがまた更新されました。今回のランキング...
[[441702]]時は経つのが早く、2021年も過ぎ去りつつあります。今年を振り返ると、疫病の影響...
業界の専門家は、人工知能(AI)の強力なサポートにより、医薬品の研究開発分野は大きな変化の波に見舞わ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
「中国の人工知能の応用と商業化の探究は世界と同レベルだが、コンピューティングパワー、アルゴリズム技術...
CISO は、日常的なタスクを排除し、従業員がより価値の高い仕事に集中できるようにするために、ロボ...