音声認識：市場の見通しは有望だが、コア技術にはまだブレークスルーが必要

人工知能製品が私たちの生活の中でますます普及するにつれて、テクノロジーの発展は社会の関心の焦点となっています。自然な人間とコンピュータのインタラクションの基本的な方法の 1 つとして、音声認識は近年急速に発展しています。

現在、iFlytekやBaiduなど多くの企業が、自社が開発した音声認識技術が97%の精度を達成したと主張している。最近、Google の研究者は、音声認識のエラー率 (音声から単語をテキストに書き起こす際のエラー率) が 2012 年以降 30% 以上減少したと公表しました... 2016 年を通じて、Google、Apple、Microsoft などの多くのテクノロジー大手が音声認識の進歩と進歩を発表しており、今後、音声認識は 2017 年の開発焦点の 1 つにもなります。

[[185799]]

新興産業市場は広大で、音声認識技術の開発を促進している

先日終了したCES 2017展示会では、多くの人工知能製品が見られました。競争があるとすれば、自動運転とスマートホームが間違いなく主役になるでしょう。しかし、さらに深く掘り下げてみると、音声認識技術こそが今回の展示会の人工知能部門の「目玉」であることがわかります。

[[185800]]

スマートホーム

スマートホームでは、スマート家電であれロボットであれ、音声認識技術は欠かせない基本機能の一つです。著名な市場調査会社「Markets And Markets」が発表した調査レポートによると、世界のスマートホーム市場規模は2016年から2022年まで年平均14％の成長率で、2022年には1,220億米ドルに達する見込みです。ロボットに関しては、調査会社IDCは、ロボットと関連サービスの世界市場規模が2020年までに2016年の915億ドルから1,880億ドルに増加すると予測している。これら 2 つのデータから判断すると、スマートホーム市場が将来どれほど大きくなるかが想像できます。

制御方法の面では、一部のスマート家電を除き、音声制御が市場の主流となっており、これが音声認識市場におけるビジネスチャンスとなっています。将来、音声認識は自然な人間とコンピュータのインタラクションの前提条件の 1 つとして、スマートホームの開発トレンドになることは避けられません。音声認識の精度が完璧に近づいた場合にのみ、自然な人間とコンピュータのインタラクションが継続できます。スマートホーム市場の牽引により、音声認識技術は必然的に重要な開発目標となるでしょう。

[[185801]]

スマートカー

CES 2017では、大手従来型自動車メーカーが自動運転車に関する最新の成果を発表しました。同時に、展示会では、多くのメーカーが自社の成果を展示するほか、日産、BMWとCortana、フォードとAlexaの協力など、仮想アシスタントプラットフォームを車に搭載して人間と車の相互作用を促進し、ユーザーエクスペリエンスをさらに向上させるなど、独自の一連の計画も発表した。

米国の市場調査機関ラックスによる調査報告によると、自動運転車は2030年までに870億ドル規模の市場を生み出すだろう。さらに、他の調査によると、2030年までに世界中で約1億2000万台の自動運転車が販売されると予想されています。データから判断すると、自動運転車の市場は非常に有望です。

自動運転市場の牽引により、人間と車両の相互作用も自動運転企業の焦点となり、自動車インテリジェンスの一部となっています。また、自動運転支援技術に比べ、音声認識などの対話型技術は実装がはるかに容易であり、現在多くの車種に音声認識技術が搭載されています。スマートカーでは音声認識が基本的なサービスとなっており、インテリジェント時代の到来とともに、人々の音声認識に対する要求はさらに高まるでしょう。

[[185802]]

将来の市場は有望だが、音声認識はまだ必要

新興産業の市場需要に牽引され、音声認識市場も非常に有望です。一部の研究機関は、世界の音声認識市場規模は2015年の61億9,000万米ドルから2020年までに200億米ドルに成長すると予想されていると指摘しています。しかし、市場規模の拡大という素晴らしい予測に直面して、私たちは直面しなければならないいくつかの問題を無視することはできません。それらを解決することによってのみ、音声認識を改善し、ユーザーに究極のサービスを提供することができます。

[[185803]]

1つ目は物体認識の精度です。現在、応用面では、音声認識はスマート家電やサービスロボットを含むスマートホームの分野に多く使われていることがわかります。ここで、1 つの疑問について考えなければなりません。複数の家族が同時に話す場合、スマート家電やサービスロボットは誰のコマンドを実行すればよいのでしょうか。あらゆる声の中から、彼らはどうやって主人の命令を見つけるのでしょうか?これらは、現在の音声認識が解決しなければならない問題です。結局のところ、私たちが通常音声認識と呼んでいるものは、単に音声の内容を認識するだけではありません。

この問題の解決策として、声紋認識も発見されました。一般的に言えば、声紋は固有のものであり、話者の身元を確認するのに非常に役立ちます。音声認識は声紋認識の助けを借りて、話者の位置と身元を正確に特定できるため、音声の内容を正確に識別し、その中で発行された指示を実行できます。しかし、データに大きなギャップがあることやその他の問題を考慮すると、声紋認識技術はまだ改善の余地がある。

2つ目は、周囲の環境からの干渉を減らすことです。人間にとって、騒がしい環境で他人が話しているのを聞いたり、たくさんの声の中から聞きたいことを見つけ出すことは比較的簡単な作業です。しかし、機械にとってはこれはそれほど簡単なことではありません。

音声認識に対する周囲環境の干渉を減らすために、AmazonとGoogleはどちらもスマートスピーカーにマイクアレイ技術を採用しており、一定の「ノイズ低減」の役割を果たして音声認識の精度を高めています。しかし、現在まで、環境干渉は十分に解決されておらず、特に複数の音声セグメントで特定の話者を正確に見つけるという状況では、音声認識の進歩における障害となっています。

[[185804]]

インタビューの中で、人工知能と機械学習の権威で百度の主任科学者であるアンドリュー・ン氏は、2017年は「会話型コンピューター」にとって急速な発展の年だったと語った。チャットボットや人工知能仮想アシスタントなどの会話型コンピューターも、会話を開始するための第一歩としてこの急速な発展の一部であり、音声認識もこの急速な発展の一部です。

スマートホーム、スマートカーなどのさまざまな業界、チャットボットやバーチャルアシスタントなどの製品市場によって音声認識の市場は拡大していますが、その精度には課題もあります。

2016年、さまざまなテクノロジー企業やチームが音声認識コンテンツの精度において相応の進歩を遂げました。今後1年間、周囲の環境からの干渉をいかに減らし、音声認識の精度をいかに向上させるかが、音声認識が解決しなければならない課題となるでしょう。

<<: 2016年の音声認識の発展を技術的な観点から振り返る

>>: 人工ニューラルネットワークは、体型を崩すことなく、一瞬で老けたり若返ったりすることができる

NVIDIA H100の覇権に挑戦！ IBMは人間の脳をシミュレートしてニューラルネットワークチップを作成し、効率を14倍向上させ、AIモデルの電力消費問題を解決しました

音声認識：市場の見通しは有望だが、コア技術にはまだブレークスルーが必要

NVIDIA H100の覇権に挑戦！ IBMは人間の脳をシミュレートしてニューラルネットワークチップを作成し、効率を14倍向上させ、AIモデルの電力消費問題を解決しました

機械学習を実装するには？

サイバーセキュリティを変える、最もホットなハッカーツール：武器化された人工知能FraudGPT

毎日のアルゴリズム: バランスのとれた二分木

わかりやすい言葉で解説：人工知能（AI）とは何か？小学生でもわかる

製造業におけるロボット：脅威か、それともチャンスか？

新型コロナウイルスによりスマートシティがさらにスマート化

OpenAI の「地震」の中心人物である Ilya を見てみましょう。彼は AI についてどう考えているのでしょうか?

2022年に注目すべき6つのAIトレンド

推薦する

AI支援プログラミングの現状：AIツールは速度を向上させるが、エラーコードも大幅に増加

クラウドベースの生成 AI システムを実行するためのベストプラクティス

2457億のパラメータ！世界最大のAIモデル「Source 1.0」がリリース、中国が独自のGPT-3を製作

AIチップのスタートアップ企業が実装の道を探り、開発が成熟

XML暗号化アルゴリズムが解読され、W3C標準が改訂される

AIはセルオートマトンを通じてMinecraftで家を建てることを学ぶ

李開復：将来、名ばかりの職業10種

データサイエンスと機械学習のための珍しいPythonライブラリ

ニューヨーク州が顔認識を「禁止」する法律を制定。なぜキャンパス内で AI が頻繁に「失敗」するのか?

150億のパラメータを持つ、史上最大のビジュアルモデル「V-MoE」の全コードをGoogleがオープンソース化

TinyML を理解する: エッジでの超低消費電力機械学習