1. ニューラルネットワーク 現在一般的に使用されている音声認識フレームワークは以下のとおりです。 この背後にある論理は 特徴抽出に使用されるニューラルネットワークのDNN技術 DNN テクノロジーは、CNN モデルと RNN モデルの 2 種類に分けられます。 2. デコーダー デコーダー情報は、音響モデル、辞書、言語モデルから取得されます。ブロック図は次のとおりです。 2.1 音響モデル 一般的に使用される音響モデルは、ガウスモデルと隠れマルコフモデルの混合モデルである GMM-HMM です。 HMM モデルは時系列情報をモデル化します。HMM の状態が与えられた後、GMM はその状態に属する音声特徴ベクトルの確率分布をモデル化します。 2.2 辞書 辞書:発音辞書です。中国語ではピンインと漢字の対応、英語では発音記号と単語の対応です。 使用: 音響モデルによって認識された音素に基づいて、辞書内で対応する漢字(単語)または単語が検索され、音響モデルと言語モデルの間に橋渡しが行われ、両者が接続されます。 たとえば、次の単語マッピング テーブル: 2.3 言語モデル 言語モデルは、特定の言語用に構築された確率モデルであり、文の確率を計算するために使用されます。 次の2つのタイプに分けます。 2.3.1 N-gram統計言語モデル: N-gramモデル、スムージング 2.3.2 ニューラルネットワーク言語モデル: ニューラルネットワーク言語モデルは、統計言語モデルとは異なり、n 要素の条件付き確率をカウントによって推定するのではなく、ニューラルネットワークを通じて直接モデル化して解決します。 使用: 1. どちらの単語の並びがより可能性が高いかを判断する 2. いくつかの単語が与えられたら、次の単語を予測する 例: 1.私はパーティーに行きました。 目は2つのバーティーに行きました。 2. 今何をしていますか? |
<<: 映画品質の CG レンダリングを作成しましょう!スタンフォード大学の研究者がニューラル光学レンダリングを提案
>>: AI インテリジェント音声認識アルゴリズム パート 1
現在、顔認識などの個人情報の所有権と保護に関する権威ある解釈や体系的な政策や法的規範は存在せず、商業...
10年越しの自動車製造の夢は完全に打ち砕かれ、タイタン計画は終了!言い換えれば、過去10年間にApp...
[[319182]] 3月19日、Google BrainとAIチームは今週、EfficientDe...
ボストン コンサルティング グループ (BCG) によると、米国と日本のサイバーセキュリティ専門家の...
ニューラルネットワークの威力を示す証拠文字通り、普遍近似定理はニューラル ネットワークがどのように機...
スイスアーミーナイフについて聞いたことがあるかもしれません。そうでない場合は、下の図をご覧ください。...
海外メディアの報道によると、人工知能(AI)は医療とヘルスケアを根本的に変えるだろう。心電図、脳波、...
1. クイックソート導入:クイックソートは、Tony Hall によって開発されたソートアルゴリズム...
AI 業界の人なら、OpenAI が先進的な技術と高い給与で AI 業界のリーダーであることは知って...
犯罪現場の足跡が貴重な証拠となるのと同様に、野生動物の足跡も野生生物保護活動家にとって同様に貴重なも...
Marzyeh Ghassemi 助教授は、医療データに隠れたバイアスが人工知能のアプローチにどのよ...
私たちはなぜ眠るのでしょうか? 明らかな理由の一つは、体と手足の力を回復することです。しかし、睡眠の...