音声認識技術はどのように発展したのでしょうか?

音声認識技術は 1950 年代に開発され始めました。それでは、このテクノロジーが長年にわたってどのように進化してきたか、そしてテクノロジーの進化に伴って音声認識と音声テキスト変換機能の使用方法がどのように進化してきたかを見てみましょう。

[[435457]]

1950年代～1980年代: 音を聞くことができる最初のコンピューターが誕生

自動音声認識 (ASR) の威力により、その開発は多くの場合大企業と結び付けられています。

1952 年、ベル研究所は音声数字認識システムである AUDERY の開発に先駆けました。厳密に管理された条件下では、AUDERY システムは 97 ～ 99% の精度で音声番号を認識できます。しかし、科学者で元ベル研究所の電気技師であるジェームズ・フラナガン氏によると、AUDERY は「高さ 6 フィートのリレーラックに設置され、膨大な電力を消費し、複雑な真空管回路に伴う無数のメンテナンス問題を引き起こした」とのことです。本来の目的からしても、AUDERY は高価すぎて不便でした。

1962 年、IBM は数字と簡単な数学用語を認識できる Shoebox を発表しました。一方、日本の研究室では母音と音素を認識する装置や、最初の音声単語分割装置を開発していました。コンピューターが0～9のような小さな数字の集合を理解するのは一つのことだが、京都大学の画期的な成果は、音声の断片を「セグメント化」して、その技術を音声の範囲に使用できるようにしたことだ。

1970 年代に、米国国防総省 (DARPA) は音声理解研究 (SUR) プログラムに資金を提供しました。この研究の成果には、カーネギーメロン大学の HARPY 音声認識システムが含まれています。 HARPY は 1,011 語の語彙から文章を認識し、システムの発話能力は平均的な 3 歳児の発話能力と同等になります。

HARPY は、HMM を使用した最も初期の音声認識モデルの 1 つです。この確率的アプローチは 1980 年代の ASR の開発を推進しました。実際、音声テキスト変換ツールの最初の実用的な使用例は、1980 年代に IBM の実験的な文字起こしシステム Tangora で登場しました。適切なトレーニングを行えば、Tangora は 20,000 語の英語の単語を認識して入力できるようになります。しかし、このシステムは商用利用にはまだ大きすぎます。

1990年代から2010年代: 消費者ASR

「機械に人間の真似をさせるのは間違っていると考えていました」とIBMの音声認識技術の革新者であるフレッド・ジェリネック氏は回想する。「結局のところ、機械が移動しなければならない場合、それは徒歩ではなく車輪で移動します。人間がどのように音声を聞き理解するかを徹底的に研究するのではなく、機械がそれを自然に行う方法を見つけたいのです。」

1990 年に、Dragon Dictate が最初の商用音声認識ソフトウェアとして発売されました。当時の価格は約9,000ドルでした。 1997 年に Dragon Naturally Speaking が導入される前は、ユーザーは各単語の間に一時停止する必要がありました。

1992 年、AT&T はベル研究所の音声認識通話処理 (VRCP) サービスを開始しました。 VRCP は現在、年間約 12 億件の音声トランザクションを処理しています。

しかし、1990 年代には、音声認識に関する作業のほとんどは舞台裏で行われていました。パーソナルコンピュータとユビキタスネットワークはイノベーションの新たな展望を生み出しました。マイク・コーエン氏が2004年にGoogleに入社し、同社の音声技術開発を開始したときに見出したチャンスはまさにこれでした。 Google 音声検索 (2007) により、音声認識技術が一般大衆に普及しました。しかし、何百万ものウェブユーザーの音声データも機械学習のトレーニング教材として再利用されています。

Apple (Siri) と Microsoft (Cortana) がそれに続きました。 2010 年代初頭、ディープラーニング、リカレントニューラルネットワーク (RNN)、長短期記憶 (LSTM) の出現により、ASR テクノロジーの機能が飛躍的に向上しました。この前進の推進力は、低コストのコンピューティングと大規模なアルゴリズムの進歩の出現と利用可能性によっても大きく推進されています。

ASRの現状

音声認識技術は、数十年にわたる開発を経て、ユーザーの期待の高まりに応えて、過去 5 年間でさらに飛躍的な進歩を遂げました。さまざまなオーディオ忠実度と厳しいハードウェア要件に合わせてソリューションを最適化し、音声検索と IoT を通じて音声認識を日常的に便利に使用できます。

たとえば、スマートスピーカーはホットワード検出機能を使用して、組み込みソフトウェアを通じて即座に結果を提供します。一方、残りの文は処理のためにクラウドに送信されます。 Google の VoiceFilter-Lite は、トランザクションのデバイス側で個人の音声を最適化します。これにより、消費者は自分の声でデバイスを「トレーニング」できるようになります。このトレーニングにより、ソース歪み比 (SDR) が低減し、音声起動アシスタントアプリケーションの使いやすさが向上します。

単語エラー率（WER – 音声からテキストへの変換中に生成される誤った単語の割合）が大幅に減少しています。研究者たちは、2020年代後半までに文字起こし作業の99％が自動化されると考えています。人間が介入するのは品質管理と修正のためだけです。

2020 年代の ASR ユースケース

インターネット時代の発展に伴い、ASR 機能も共生的に発展しています。ここでは、自動音声認識の魅力的な使用例を 3 つ紹介します。

2021年、ポッドキャスト業界は10億ドルのマークを超えるでしょう。視聴者数は急増しており、語彙も増えています。

ポッドキャストプラットフォームでは、ポッドキャストをより簡単に作成し、コンテンツの価値を最大化できるように、高精度で単語ごとのタイムスタンプを備えた ASR プロバイダーを求めています。「Description」のようなアプリは、音声をすぐに編集できるテキストに変換できます。

さらに、各単語にタイムスタンプを付けることで時間を節約し、編集者は完成したポッドキャストを粘土のように形作ることができます。これらのテキストにより、すべての視聴者がコンテンツにアクセスしやすくなり、クリエイターは SEO を通じて番組の検索性と発見性を向上させることができます。

COVID-19パンデミックの影響で、オンラインで開催される会議が増えています。議事録の作成には時間がかかりますが、参加者にとっては非常に実用的なツールです。議事録があれば、参加者は会議の概要を理解し、詳細を追跡することができるからです。ストリーミング ASR は、音声をリアルタイムでテキストに変換できるため、会議やセミナーでより便利な字幕やオンサイト文字起こしを提供できます。

法廷証言や採用などのプロセスも仮想化されつつあります。 ASR を使用すると、ビデオコンテンツのアクセシビリティが向上します。しかし、さらに重要なのは、エンドツーエンド (E2E) 機械学習 (ML) モデルによって音声セグメンテーション技術がさらに向上し、誰が出席し、誰が何を言ったかが記録されるようになったことです。

<<: 視覚化と人工知能の強力な組み合わせ!

>>: 人工知能があなたの好きな家を見つけるお手伝いをします