AI インテリジェント音声認識アルゴリズム パート 2

AI インテリジェント音声認識アルゴリズム パート 2

[[397599]]

1. ニューラルネットワーク

現在一般的に使用されている音声認識フレームワークは以下のとおりです。

この背後にある論理は

特徴抽出に使用されるニューラルネットワークのDNN技術

DNN テクノロジーは、CNN モデルと RNN モデルの 2 種類に分けられます。

2. デコーダー

デコーダー情報は、音響モデル、辞書、言語モデルから取得されます。ブロック図は次のとおりです。

2.1 音響モデル

一般的に使用される音響モデルは、ガウスモデルと隠れマルコフモデルの混合モデルである GMM-HMM です。

HMM モデルは時系列情報をモデル化します。HMM の状態が与えられた後、GMM はその状態に属する音声特徴ベクトルの確率分布をモデル化します。

2.2 辞書

辞書:発音辞書です。中国語ではピンインと漢字の対応、英語では発音記号と単語の対応です。

使用:

音響モデルによって認識された音素に基づいて、辞書内で対応する漢字(単語)または単語が検索され、音響モデルと言語モデルの間に橋渡しが行われ、両者が接続されます。

たとえば、次の単語マッピング テーブル:

2.3 言語モデル

言語モデルは、特定の言語用に構築された確率モデルであり、文の確率を計算するために使用されます。

次の2つのタイプに分けます。

2.3.1 N-gram統計言語モデル: N-gramモデル、スムージング

2.3.2 ニューラルネットワーク言語モデル:

ニューラルネットワーク言語モデルは、統計言語モデルとは異なり、n 要素の条件付き確率をカウントによって推定するのではなく、ニューラルネットワークを通じて直接モデル化して解決します。

使用:

1. どちらの単語の並びがより可能性が高いかを判断する

2. いくつかの単語が与えられたら、次の単語を予測する

例:

1.私はパーティーに行きました。

目は2つのバーティーに行きました。

2. 今何をしていますか?

<<:  映画品質の CG レンダリングを作成しましょう!スタンフォード大学の研究者がニューラル光学レンダリングを提案

>>:  AI インテリジェント音声認識アルゴリズム パート 1

ブログ    
ブログ    
ブログ    

推薦する

...

...

役立つ情報 | 115 行のコードで数独パーサーを作成する方法を段階的に説明します。

あなたも数独愛好家ですか? Aakash Jhawar さんは、多くの人と同じように、新しい困難な課...

人工知能はパーキンソン病の初期段階を治療できるかもしれない

おそらく多くの友人は、パーキンソン病が世界中で 1,000 万人以上の人々を悩ませている神経変性疾患...

AIが「迷惑メール」をフィルタリングし、ユーザーが価値あるメールを素早く見つけられるようにする

現在、世界中で毎日送信される 3,000 億通の電子メールのうち、少なくとも半分はスパムです。電子メ...

AGI を理解する: 知能の未来?

病気の診断から交響曲の作曲、車の運転から道徳的な判断に至るまで、人間が行えるあらゆる作業を機械が実行...

それでおしまい? Gptsのプロンプト単語をランダムにクロールします

11月7日のOpenAI開発者会議でサム・アルトマンがGptsを正式に発表しリリースして以来、Gpt...

LIDAR ポイント クラウドの自己教師あり事前トレーニング用 SOTA!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

画像も感情を伝えることができるのでしょうか?ロチェスター大学のチームが新しいコンピュータービジョンのタスクを提案

画像スタイルの転送?声の感情移入?いいえ、それはイメージの感情的な伝達です。コンピュータビジョンの分...

初心者にも優しい!楽しくて簡単に始められる AI プロジェクト 10 選 (Python ソース コード付き)

ビッグデータダイジェスト制作出典: piprogramming編纂者:清寧人工知能は私たちの生活の一...

来年のビジネス インテリジェンスの見通しはどうでしょうか?

インテリジェント テクノロジーの使用が拡大するにつれて、ビジネス インテリジェンスの最新動向を常に把...

Titanium Technology CEO、Li Shuhao氏:ツールの輸出からブランドの輸出まで、Martechはどのような新たな機会に直面していますか?

2020年、国内の新たな消費が活況を呈する一方で、海外市場も急速な成長機会の新たな波を迎えています...

AIがクラウドコンピューティングを再定義し、ビジネス効率を向上させる方法

長年にわたり、クラウド コンピューティングは現代のビジネスに欠かせないツールとなり、2020 年には...

AI検出器は復活するのか?成功率は98%と高く、OpenAIを上回っている。

現在の AI テキスト検出器には、AI が生成したテキストと人間が作成したテキストを効果的に区別する...

なぜ2G/3GとAIは火花を散らすことができないのでしょうか?この論文で答えが分かります

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...