将来、音声認識はどのような商業シナリオに適用される可能性がありますか?

将来、音声認識はどのような商業シナリオに適用される可能性がありますか?

Companies and Markets の評価レポートでは、世界の音声認識市場は今後さらに多様化し、ソフトウェアの精度も大幅に向上すると述べられています。 2017 年までにこの市場は 1,330 億米ドルに達すると予測されています。

Companies and Markets の評価レポートでは、世界の音声認識市場は今後さらに多様化し、ソフトウェアの精度も大幅に向上すると述べられています。 2017 年までにこの市場は 1,330 億米ドルに達すると予測されています。映画「Her」を見た友人は、音声認識と制御のストーリーに間違いなく感銘を受けるでしょう。この技術を実現する難しさについては以前詳しく紹介しましたが、近い将来、音声認識技術はどのようなシナリオで使用されるのでしょうか。

音声認識に関して、まず頭に浮かぶのは、おそらくジョークを言うことができない Siri でしょう。 Siri の技術は、世界初の上場音声認識企業である Nuance 社が開発したものだ。数週間前、Baidu が音声アシスタント アプリケーションを強化するために Nuance を買収したいとの噂があったが、Baidu Deep Learning Laboratory (IDL) のディレクターである Yu Kai 氏はこれを否定した。昨年11月、サムスンがニュアンスとの買収交渉を行ったが、6カ月連続の赤字に怯んで断念したとの報道があった。一方、AppleはNuanceの技術に依存し続けることを望まず、一連の自主的な取り組みを実施し、これもNuanceに新たな販路を模索するきっかけとなった。

[[186259]]

直接的なキャッシュフローをほとんど生み出さない事業である音声認識は、Nuance に多大な問題を引き起こしました。同社の全体的な状況は楽観的ではありませんが、Nuance がさまざまな分野で事業化に取り組んでいることがわかります。

医療分野

少し前に、Nuance は公式ブログで医療分野に注力すると発表しました。スマートウォッチを通じて運動状況や心拍数を追跡するだけの単純なものではなく、適切なレストランや食事など、その人の身体状況に応じて対応するサービスを直接マッチングさせるものでもあります。もちろん、これらのほとんどはウェアラブルデバイスに基づいています。さらに、緊急時の音声支援、医師と患者の会話のアーカイブ化、コールセンターの会話のディクテーションなど、さらに多くのシナリオも検討しました。

医療分野の語彙データベースは専門性が高く、進化も少ないため、完全なデータベースが構築されていれば、病名や薬品名の比較的正確な識別が可能になります。 Medical Record FolderやZhenlipaiなどの既存の国内アプリケーションは、医療記録を安全に保存し、症例検索を容易にし、音声検索機能をサポートするクラウドスペースを医師に提供します。

スマートカー

運転の安全性の問題は常に大きな注目を集めています。昨年、タッチスクリーンを操作する際にドライバーが過度に気を取られる問題を解決するために、簡単な複数指のジェスチャーを使用できる車のスクリーンを設計した人がいました。実際、Nuance はすでに Dragon Drive と呼ばれるカスタマイズされた自動車グレードの音声プラットフォームを持っており、2015 CES イノベーション アワードを受賞しています。 Nuance は車載プラットフォームを携帯電話に接続することで、ユーザーが GPS ナビゲーション、メッセージの送受信、通話の発信と受信、ソーシャル ネットワークの更新などの音声制御を実現できるよう支援します。

スマートウェアラブル

北京の冬はますます寒くなってきました。携帯電話を使う必要があるのに、手に取りたくないと思うことが何度もあります。電話をかけたり、WeChatメッセージを送信したり、ルートを確認したり、タクシーを呼んだりすることが、すべてウェアラブルデバイスの音声制御によって可能になれば素晴らしいでしょう。現在、Mobvoiチームは、音声でDidiタクシーを直接制御できるMoto 360用のスマートウォッチオペレーティングシステムであるTicwearを開発しました。

[[186260]]

インテルは1年前に、耳に装着して携帯電話に接続し、所有者の指示を理解して音声フィードバックを返す、Siriに似たパーソナル音声アシスタントとして機能するウェアラブルデバイスのプロトタイプJarvisを開発しました。これは「her」のシーンではないでしょうか?

スマートホーム

以前、当社はさまざまなスマートホームを統合しながら、新たな方法でより多くの人体データを収集することを目指したスマートベッドカバー「Luna」を紹介しました。特にベッドに横になっていて画面をまったく見たくないときには、音声認識が最も適した統合方法かもしれません。さらに、Nuance はすでにテレビや携帯電話を音声で制御できる技術を開発しています。

「インターネットの考え方を使って自宅のバスルームを変革できる人はいますか? 毎回スピーカーを持ち歩くのは非常に面倒です。それに、曲を変えたり緊急電話に出たりするのは、単に非人道的です。」スマートホームバスルームはまだ聞いたことがありませんが、音声で制御できるスマートスピーカーはすでに利用可能です。

教育

先ほど、音声認識の難しさの 1 つは、多くの言語や方言の多様性にあると述べました。これは、教育の分野にも応用できます。データベースに標準を提供させることで、口頭評価をよりシンプルかつ効率的に行うことができます。

[[186261]]

学習支援という点では、1年前の「紫東通訳」というクラウド認識に基づく中国語と英語の同時翻訳アプリケーションを思い出します。音声翻訳、音声認識、音声合成の技術を統合しています。翻訳したい文章を携帯電話に話すだけで、中国語と英語の音声読み上げ結果と視覚的なテキスト結果が表示されます。連続音声入力をサポートし、声のトーンに基づいて句読点を自動的に追加することもできます。

つまり、話すことは人間にとって最も自然なコミュニケーション方法です。人工知能は疑似知能であり、機械が人間のように生きることは決してありませんが、機械はますます理解力を高めることができると言えます。

<<:  ディープラーニングにも欠陥があり、同質のAIスタートアップ間の競争は熾烈になるだろう

>>:  将来、仮想現実、人工知能、そして人体はどのように融合するのでしょうか?

ブログ    

推薦する

C# でのジョセフ リング アルゴリズムの簡単な分析

C# アルゴリズムを勉強しているときに、C# ジョセフ リング アルゴリズムに出会いました。ジョセフ...

機械学習が失敗したらどうするか: 計算学習理論

導入顔認識モデルを構築し、検証セットを使用してテスト セットでの実験のパラメータを調整しているとしま...

人工ニューラルネットワーク分類器に基づくドメイン適応(DA)技術

DA テクノロジーは、まず自己組織化特徴マッピングに基づくクラスタリング テクノロジーを適用します。...

...

魅力的な勾配フリーニューラルネットワーク最適化手法

[[336078]]勾配降下法は、機械学習における最も重要なアイデアの 1 つです。最小化すべきコス...

2023年の人工知能の進歩を、大きなモデルだけでなく考察する記事

2023年には、ビッグモデル間の激しい競争が繰り広げられるでしょう。これ以外に、AI分野ではどのよう...

BAIRの最新のRLアルゴリズムはGoogle Dreamerを上回り、パフォーマンスが2.8倍向上しました。

ピクセルベースの RL アルゴリズムが復活しました。BAIR は対照学習と RL を組み合わせたアル...

GitHub Copilot の盗作が確認されました! GitHub: 私たちの AI はコードを「暗唱」しません

[[409261]] GitHub Copilot は、コードを自動生成するという強力な機能により、...

ブリッジで人間の世界チャンピオン8人が全員AIに負ける

最近、人工知能(AI)が再び人間に勝利しました。今回、人工知能はチェッカーやチェス、囲碁をプレイせず...

人工ニューラル ネットワークのドライバー: 活性化関数とは何ですか?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

快手とインテルが提携し、KGNN プラットフォームでの大規模リアルタイム動的グラフトレーニングの効率を向上

ショートビデオの推奨やソーシャル推奨などのアプリケーションシナリオでは、推奨システムは大量の急速に変...

AIは数分間の記録に基づいて、人がCOVID-19に感染したかどうかを判断できますか?

今日の若者は、「エモ」という言葉をキャッチフレーズとして使うことに慣れているが、本当の「うつ病」が何...

より優れた LLM ベースのアプリケーションを構築するための 4 つの秘訣

アドリアン・トゥルイユ翻訳者 | ブガッティ校正 | Chonglou制作:51CTO テクノロジー...

ディープラーニングと従来の機械学習のメリットとデメリット!

過去数年間、ディープラーニングは、従来の機械学習を凌駕し、ほとんどの AI 型の問題に対する頼りにな...

...