音声認識を開発する方法

音声認識を開発する方法

ディープラーニング技術を用いた自然言語の深い理解は、常に注目されてきました。自分で音楽を調べる必要がなく、照明をつける必要がなく、エアコンがあなたの考えを理解してくれる...これらのシーンは多くの映画やテレビ作品で紹介されており、多くの人々の心の中の「スマートライフ」の概念も表しています。これを踏まえて、人工知能開発のブームの中で、自然言語処理は大手企業や研究機関が競い合う戦場となっている。

現在、音声インタラクショントラックには、インターネット大手、有名なハードウェア企業、電子商取引プラットフォーム、伝統的な家電メーカー、さまざまな人工知能の新興企業が集まっています。特に、近年のスマートスピーカーに代表される音声インタラクション製品の国内外での人気は、音声インタラクション技術の応用と発展を大きく刺激しています。

複数の分野での応用

最近、最も人気のあるスマートホーム ハードウェアは、間違いなく Xiaomi AI スピーカーです。この製品は発売されるとすぐに市場で大きな反響を呼び、多くのメディアから「最高のインタラクティブ体験を提供するスピーカー」、「スマートスピーカー業界のリーダー」、「現在最もホットなスマートハードウェア」などと呼ばれました...私の意見では、Xiaomi AIスピーカーは確かに優れていますが、彼らが賞賛するほどではありません。エディターの周囲の人々の具体的な使用経験から判断すると、その音声認識能力は特に優れているわけではなく、市場で主流の同様の製品とそれほど違いはありません。その最大の利点はエコチェーンにあります。Xiaomi AIスピーカーを通じて、Xiaomiデスクランプ、Xiaomi掃除ロボット、Xiaomiフロアファン、その他のサポート家具機器を制御できます。これによって人々がスマートライフに一歩近づくことは間違いありません。

自動車やスマートモバイルデバイスの分野では、音声対話機能はすでに非常に普及しています。運転中は両手が空いていないことが多く、携帯電話を操作するために両手を空ける必要もありません。このとき、車載音声機能は必需品となり、車両のインターネットの標準機能となります。スマートコネクティビティや自動運転車が大流行しているこの時代に、ハイテクな音声認識機能のない新車を発売するのは恥ずかしいことのように思える。フォードのSYNCシステムは、携帯電話やデジタルメディアプレーヤー向けに設計されたフォードの車載マルチメディア通信およびエンターテイメントシステムです。車載システムでの音声対話技術の使用の成功例であり、複数のフォード車シリーズで広く使用されています。インターネット大手のAppleがiPhone 4Sでインテリジェント音声アシスタントアプリケーションSiriをリリースした後、GoogleもAndroidスマートフォンオペレーティングシステムでGoogle Nowのインテリジェント音声検索および質問応答サービスを開始しました。Microsoftも音声技術をWindows Phoneに適用し、SamsungもタイムリーにBixbyをリリースしました。

金融分野で。音声認識技術にも役割があります。最近、中国建設銀行は上海市黄埔区にロボットが顧客にサービスを提供する自動化サービス支店を開設した。このロボットには顔スキャンおよび認識ソフトウェアが搭載されており、顧客のほとんどの質問に答え、一般的な街の銀行のほとんどの業務ニーズを解決できます。また、個人のニーズを満たすために、人間支援サービスやその他の専門サービスも搭載されています。ロボットは音声認識機能を使って人間とコミュニケーションを取り、顧客の質問に答えることで顧客にサービスを提供します。また、口座開設、送金、投資など、手動サービスで実行できるほとんどの作業も実行できます。

さらに、新しい小売分野では、インテリジェント音声技術の応用も拡大しています。例えば、2017年12月18日、iFLYTEKとRed Star Macallineは戦略的な協力計画を発表しました。今後、iFLYTEKが開発したインテリジェントショッピングガイドロボット「Meimei」が全国のRed Star Macalline店舗で利用できるようになります。

音声によるインタラクションに加えて、音声テキスト変換も現在の音声認識技術のホットな話題です。以前、この機能はジャーナリストのお気に入りでした。この機能を使用してインタビュー原稿やスピーチ原稿を整理すると、作業効率が大幅に向上します。現在、この機能は一般の人々にも受け入れられています。高齢者や怠け者の若者は、タイピングの代わりにこの機能を使用できます。

現在、資本の流入、政策支援、度重なる市場拡大により、音声技術はますます成熟し、世界の音声市場もアプリケーション実装の黄金期を迎えています。関連統計によると、スマート音声産業の規模は2016年に60億人民元に近づき、2017年には100億人民元を超え、前年比約69%の増加となる見込みです。

現在の技術水準は満足できるものではない

音声認識がさまざまな分野で普及しているのとは対照的に、音声認識技術の発展は非常に遅く、このような状況下で、音声認識技術は実際の応用において多くの問題に直面しています。

現在、多くの企業が音声認識率が 97% または 98% に達したと主張していますが、実際のアプリケーションでは満足できる結果は得られていません。もっと説得力のある例を挙げると、IBM T.J.ワトソン研究所が開発した中国語音声認識システムは、米国DARPA主催のコンテストで3年連続1位を獲得している。このシステムは、CCTVの「ニュース放送」番組を認識する際のエラー率が5%未満であるが、他のコンテンツを認識する際のギャップは非常に大きい。実際のアプリケーションでは、認識率は主に次の要因によって影響を受けます。

中国語の音声認識では、方言やアクセントによって認識率が低下します。

公共の場での強い騒音は認識結果に大きな影響を与えます。実験室環境であっても、キーボードを打ったりマイクを動かしたりするとバックグラウンドノイズになります。

中断による質問: 人が話している途中で一時停止すると、機械は文脈をうまく結び付けることができず、意味をスムーズに伝えることができません。

ここでも「口頭言語」の問題があります。自然言語理解と音響の両方が関係します。音声認識技術の究極の目標は、人間同士の対話と同じくらい自然な「人間とコンピュータの対話」を可能にすることです。しかし、人間同士の会話と同じように音声を入力すると、話し言葉の不規則な文法や異常な語順により、意味の分析や理解が難しくなります。

音声認識の技術的反復

これまで、音声認識技術の実用化においては、アクセントや新しい語彙などの問題はデータ収集を通じて解決できると指摘する人もいました。データ量が増えると、この問題は解決できます。

「中断」などのその他の問題には、DNN、CNN、BLSTM(双方向長短期記憶ニューラルネットワーク)などのさまざまなディープラーニングモデルと、新しいアルゴリズムが徐々に解決される必要があります。

テクノロジーの使用には、多くの場合、反復的なプロセスが必要です。まずテクノロジーをオンラインにし、その後シナリオ内でデータを収集して、モデルを評価、最適化し、ユーザー エクスペリエンスを改善する必要があります。数回の反復を経て、最良の効果が得られます。他の AI テクノロジーも同様です。今日、AI テクノロジーのユーザーの多くは、テクノロジーの機能を理想化し、導入したらすぐに結果が見られるはずだと考える傾向があります。実際の結果が満足のいくものではないと分かったとき、あなたは大きなギャップを感じ、失望し、諦めてしまうでしょう。インテリジェント音声技術が広く応用されるレベルに達しているのは事実だが、実際に導入される際には、遭遇する可能性のある困難を十分に認識し、長期戦を覚悟しなければならない。

要約する

今後 5 ~ 10 年で、音声認識システムの応用がさらに広まると予測されます。さまざまな音声認識システム製品が市場に登場するでしょう。人々はさまざまな認識システムに合わせて話し方を調整するようになります。人間に匹敵する音声認識システムを短期間で構築することは不可能です。そのようなシステムを構築することは、依然として人類が直面している大きな課題です。音声認識システムの改善に向けて一歩ずつ前進することしかできません。人間と同じくらい完璧な音声認識システムがいつ確立されるかを予測することは困難です。 1960 年代と同じように、今日の VLSI 技術が私たちの社会にこれほど大きな影響を与えると誰が予想したでしょうか。

<<:  人工知能技術が英語学習にどのように役立つかについての簡単な議論

>>:  ディープラーニングの「記憶喪失」に応えて、科学者たちは類似性に基づく重み付けインターリーブ学習を提案し、PNASに掲載された。

ブログ    
ブログ    
ブログ    

推薦する

...

TOP50 人工知能のケーススタディ: AI は単なる誇大宣伝ではなく、努力によって実現される

AIは自慢するだけでなく、実践を通じて達成されます。コンセプトがどんなに優れていても、結果が重要です...

人工知能はますます急速に発展しています。将来、人工知能は人間に取って代わるのでしょうか?

人工知能の発展は人類の進化に似ていますが、そのプロセスはより短いものです。人間は自らの知恵を駆使して...

...

回帰、分類、クラスタリング: 機械学習アルゴリズムの長所と短所を分析する 3 つの主要な方向

このチュートリアルでは、著者が最新の機械学習アルゴリズムについて簡単に実践的なレビューを行います。同...

RAG 上級スキル - ウィンドウ コンテキスト取得の実装方法

この記事では、RAG (Retrieval-Augmented Generation) モデルの検索...

AIの民主化:ローコードおよびノー​​コードソリューションの台頭

今年初め、イノベーション、リサーチ、インキュベーションのグローバルディレクターであるルネ・シュルテ氏...

中国科学院、中国初のクラウドベースの人工知能チップを発表

5月3日、上海国際会議センターで行われた記者会見で、カンブリアン・テクノロジーズのCEO、陳天石氏が...

AIは観光業を良いビジネスにするでしょうか?

[[245713]]黄金の9月と銀の10月、観光業界は好景気の日々を待ち望んでいました。一方では、...

これらのよく知られた VR 音声テクノロジー ソリューションをご存知ですか?

最近、Oculus は、VR デバイスを使用する際にユーザーがよりインタラクションできるようにするこ...

数十人の国内NLP専門家が協力し、事前学習済みモデルの過去、現在、未来を検討した。

[[422361]] BERT や GPT などの大規模な事前トレーニング済みモデル (PTM) ...

...

最強のやつでもGPT-4Vに合格できないの?大学入試をベースとしたテストベンチマーク「MMMU」が誕生

GPT-4V と大学生のどちらが良いでしょうか?まだ分​​かりませんが、新しいベンチマーク データセ...

物理学界に嵐を巻き起こした室温超伝導の論文は、8人の共著者によって報告された後、ネイチャー誌によって撤回された。第一著者は調査中である。

多くの紆余曲折を経て、室温超伝導に関する熱狂は2023年末にようやく終焉を迎えた。 11月7日、ネイ...

...