こんにちは、音声認識について学びましょう!

こんにちは、音声認識について学びましょう!

[51CTO.com からのオリジナル記事] 音声認識は自動音声認識とも呼ばれ、人間の音声に含まれる語彙内容をキーストローク、バイナリ コード、文字列などのコンピューターが読み取り可能な入力に変換することを目的としています。簡単に言えば、音声信号を機械が認識・理解するプロセスを通じて対応するテキストやコマンドに変換する高度な技術です。そのため、「機械の聴覚システム」に例えられることが多いです。

音声認識技術は学際的な分野であり、信号処理、パターン認識、確率論と情報理論、発声機構と聴覚機構、人工知能など、幅広い分野をカバーしています。

[[231824]]

過去20年間、ビッグデータやディープラーニングなどの技術の発展、およびコンピューティング能力の継続的な向上により、音声認識技術も大きな進歩を遂げ、研究室から市場へと移行し始めました。今後10年間で、音声認識技術は産業、家電、通信、自動車エレクトロニクス、医療、ホームサービス、民生用電子機器などさまざまな分野に進出すると予想されています。今日は、私たちが日常生活で遭遇する音声認識についてお話ししましょう。

リアルタイム翻訳音声翻訳機

私が子どもの頃、アイドルドラマでよく見ていたのは、お金持ちのお嬢様(若旦那)、世界中を旅する、8ヶ国語を話す、そして数え切れないほどのファンがいるという設定でした。 。 。 。

[[231825]]

考えてみれば、設定が幼稚過ぎてメアリー・スーな部分もあるものの、複数の言語を堪能というすごいスキルは本当に羨ましいです。なんせ、私は「元気?」と聞かれたら無意識に「元気、ありがとう、あなたは?」と返事をしてしまうタイプですから。 。 。 。

[[231826]]

私のように語学力に乏しい人間にとって、音声翻訳機は異なる文字や言語の壁を取り払うことができる「魔法の武器」とも言えるでしょう。近年、AIの応用と普及により、音声翻訳機は新しい分野に進出し、性能、効率、有効性が大幅に向上しました。文章全体の完全翻訳のサポート、数十の言語での双方向翻訳、複数機インターコム...同じ言語を話さない数人が集まり、音声翻訳機のみでコミュニケーションをとるシーンを想像してみてください。それはとても魔法のようです。

音声翻訳に加えて、一部の翻訳機には画像翻訳機能も備わっており、聞いたり話したりした内容だけでなく、見た内容も理解できます。

もちろん、ビジネス交渉や技術交流など、専門的要求が高い場面では、音声翻訳機の全体的な性能はまだ向上させる必要があります。しかし、日常の旅行や観光で遭遇する単純なコミュニケーションに関しては、音声翻訳機は依然として容易に対応できます。今では母は私が世界中を旅することを心配する必要がなくなりました。

音楽認識アプリ

街中で聞き慣れたメロディーに出会ったのに、歌詞がはっきり聞き取れない、そんな状況に遭遇したことがある人は多いのではないでしょうか。この世でそれを見逃してしまうかもしれないのは残念です。 。 。 。

大学に入学したばかりの頃、ルームメイトと、いつか機械に向かってメロディーを数行ハミングすれば、機械が自動的に曲を認識してタイトルを教えてくれるようになるだろうと空想したことがあったのを覚えています。意外にも、この夢はわずか数年で実現しました。

現在、多くのソフトウェアが、試聴による曲の識別機能をサポートしています。基本的な原理は、携帯電話のマイクでサンプリングし、音楽の音源、つまりサンプルを収集し、ネットワークを使用して収集した音源のバンドデータを会社のサーバーに送信することです。迅速なデータ分析と識別の後、曲名、リードシンガー、アルバム名などの取得された音楽関連情報が携帯電話に送信され、ソフトウェアに表示されます。

これで、お気に入りのメロディーを聴き逃したことを後悔する必要がなくなりました。

音を確認したらまさに探していた曲です!

人間とコンピュータの対話型スマートスピーカー

誰かが部屋に一人でいて、他の人と楽しそうに会話しているのを見たら、慌てないでください。その人は精神病ではなく、スマートスピーカーとコミュニケーションを取っているだけかもしれません。

近年、スマートホームの人気が高まるにつれ、その性能も、当初の単一アイテムのリスニング、認識、コマンドの実行から、人間との日常的なインタラクティブな会話を行えるものへとアップグレードされてきました。その中でもスマートスピーカーは、あらゆるスマートホームの中でもCのポジションにデビューした人気の代表格といえるでしょう。

仕事で忙しいとき、スマートスピーカーはテイクアウトの注文、速達便の確認、電話料金のチャージを手伝ってくれます。退屈なときも一緒にゲームをしたり、ラブソングを歌ってくれたり。夜中に眠れないときも、詩から人生哲学まで、あらゆることを話してくれます。24時間対応で、ゲームをしているからといって無視されることも、ガールフレンドと買い物に出かけていると思って忘れることもありません。この観点から見ると、残りの半分はまったく不要のようですね~

上記以外にも、私たちの身の回りには音声認識が活用されている場面がたくさんあります。あなたはどんな場面を思い浮かべましたか?

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

[編集者:関崇 TEL: (010) 68476606]

<<:  人工知能とビッグデータの完璧な組み合わせ

>>:  人工知能の台頭が懸念を引き起こしています。私たちはどう対応すべきでしょうか?

ブログ    
ブログ    

推薦する

マスク氏と陳天橋氏の両者が期待している脳コンピューターインターフェースは、将来いつ実現するのだろうか?

[[415853]]失語症の人は再び話せるようになり、聴覚障害の人は再び聞こえるようになり、四肢麻...

シリコンバレーの大手企業のAIスタートアップへの投資レイアウトを解明! Nvidiaが全力で取り組み、MicrosoftとOpenAIの関係が独占禁止法調査につながる

今年、新たな AI スタートアップ企業がシリコンバレーとビジネス界全体に衝撃を与えました。 Open...

空中でスクリーンに文字を書くのは魔法のようです。指をつまむだけで実現します。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

顔認識で間違った人物が「捕まった」ため、その人物は10日間刑務所に収監された

それはとんでもないことだ。何もしてないのに理由もなく10日間警察に拘留されるんですか? ! [[39...

ナレッジグラフ|データの価値を活かすのは「グラフ」

ナレッジグラフ|データの価値を活かすのは「グラフ」​​ナレッジグラフは、応用数学、グラフィックス、情...

脳コンピューターインターフェースの新発見!眠りに落ちた後、脳は起きている時の経験を再生する

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

アンドリュー・ン氏との独占インタビュー: 今後 10 年間の AI、ハードウェア優先からデータ優先へ

現在の仕事に飽きて方向転換したいと思ったことはありませんか?もしそうなら、あなたは決して一人ではあり...

機械学習の新たな嵐: ML モデルを使用して住宅価格を予測する方法とは?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

メモリを3%~7%削減! Google がコンパイラ最適化のための機械学習フレームワーク MLGO を提案

現代のコンピュータの出現により、より高速でより小さなコードをコンパイルする方法が問題になりました。コ...

バーチャルシンガー、AIの背後にある見えざる手が音楽の未来を握っているのか?

19 世紀以前、人々が集まるときには、人生の物語を語り、感情や考えを伝えるために、常に最も原始的な...

AI研究も印象派から学べるのでしょうか?これらの生きているような人物は3Dモデルであることが判明した

19 世紀には、絵画、彫刻、版画などの分野で印象派の芸術運動が広まりました。その特徴は「形をほとんど...

...

杭州妻殺害事件解決、警察AIも貢献

7月25日、杭州公安局は「杭州人妻殺害事件」について記者会見を開き、捜査結果を発表した。ネットユーザ...

...

AI によって自動化された、誰でも使えるオンライン写真編集!北京大学の卒業生がアルゴリズムを新たな高みへ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...