AI インテリジェント音声認識アルゴリズム パート 1

AI インテリジェント音声認識アルゴリズム パート 1

[[397592]]

1. 音源定位

1. 電子走査アレイ

システムが出力信号のパワーが最大となる点までスキャンすると、対応するビーム方向が音源の DOA 方向であると見なされ、音源の位置が特定されます。電子走査アレイ方式には一定の制限があり、単一の音源にのみ適用できます。アレイパターンの同じメインビーム内に複数の音源がある場合、それらを区別することはできません。

2. 超解像スペクトル推定

例えば、MUSIC アルゴリズムや ESPRIT アルゴリズムでは、共分散行列(相関行列)を固有値分解して空間スペクトルを構築します。方向スペクトルに関しては、スペクトルのピークに対応する方向が音源の方向になります。これは複数の音源がある状況に適しており、音源の解像度はアレイのサイズに依存せず、物理的な制限を打ち破り、超解像度分光ソリューションになります。

3. TDOA

TDOA は、音源が異なるマイクに次々に到達するまでの時間遅延差を推定し、時間遅延を通じて距離差を計算し、その距離差とマイクアレイの空間幾何学的位置を使用して音源の位置を決定します。これは、TDOA 推定と TDOA 位置決めの 2 つのステップに分かれています。

2. ビームフォーミング

1. CBF - 従来のビームフォーミング

CBF は最も単純な非適応型ビームフォーミングです。ビームは各マイクの出力を加重加算することで得られます。CBF では、各チャネルの重みは固定されています。その機能は、アレイ パターンのサイドローブ レベルを抑制して、サイドローブ領域の干渉とノイズを除去することです。

2. CBF + 適応フィルタ強化ビームフォーミング

CBF+適応フィルタは、Weinerフィルタリングと組み合わせて、音声強調の効果を高めます。ノイズの多い音声はWeinerフィルタリングによってフィルタリングされ、LMS基準に基づいて純粋な音声信号が得られます。フィルタ係数は継続的に更新および反復できるため、従来の CBF と比較して非定常ノイズをより効果的に除去できます。

3. ABF適応ビームフォーミング

ABF は CBF に基づいて、干渉とノイズに対して空間適応フィルタリングを実行します。 ABF では、異なるアルゴリズムを取得するために異なるフィルターが使用されます。つまり、異なるチャネルの振幅加重値は、いくつかの最適な基準に従って調整および最適化されます。

3. 音声強化

音声強調とは、音声信号がさまざまなノイズ(音声を含む)によって妨害されたり、かき消されたりする場合に、ノイズの多い音声信号から純粋な音声を抽出するプロセスを指します。

4. 残響抑制

マイクロフォンアレイを使用して残響を除去する主な方法はいくつかあります。

(1)ブラインド信号強調アプローチに基づいて、残響信号は通常の加法性ノイズ信号として扱われ、それに音声強調アルゴリズムが適用されます。

(2)ビームフォーミングに基づくアプローチ:複数のマイクで収集された信号を加重加算することにより、目的の信号の方向にピックアップビームを形成し、他の方向からの反射音を減衰させる。

(3)逆フィルタリング手法を用いて、マイクロホンアレイを通して室内の室内インパルス応答(RIR)を推定し、再構成フィルタを用いて残響を補正・除去する。

5. ノイズ抑制

音声認識では完全なノイズ除去は必要ありませんが、対照的に、通信システムではノイズを完全に除去する必要があります。ここで言う騒音とは、一般的には空調騒音などの環境騒音を指します。このタイプの騒音は通常、空間的な方向性を持たず、エネルギーもそれほど大きくありません。通常の会話を覆い隠すことはありませんが、会話の明瞭度や了解度に影響を与えます。この方法は、強いノイズ環境での処理には適していませんが、日常的なシナリオでの音声対話には十分です。

6. エコーキャンセル

エコーキャンセルは、マイクが音を収集した後、マイクが収集したサウンドデータからローカルスピーカーが再生した音を除去し、マイクによって記録される音はローカルユーザーが話している音声のみになるようにします。

<<:  AI インテリジェント音声認識アルゴリズム パート 2

>>:  3つのステップで声紋システムを構築する方法

ブログ    

推薦する

AI投資から利益を得るための3つの鍵

人工知能 (AI) の専門家や機械学習 (ML) サービスの利用可能性が高まるにつれて、AI は多く...

人工知能、VR、音声検索、従来のマーケティングモデルを変える「三銃士」

人工知能と関連技術はマーケティングの未来を変えつつあり、仮想現実 (VR)、音声検索、人工知能はマー...

...

アルトマン氏の地位は再び危険にさらされているのか? ! OpenAIの取締役会が競合他社の参加を呼びかけ、Google Geminiの幹部を引き抜いた

アルトマン氏の地位は再び危険にさらされているのか?事情に詳しい人物によると、オープンAIの取締役であ...

AIとデート:機械はどうやって私たちを出会わせてくれるのか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

人工知能が登場して60年になります。人工知能について私たちはどんな誤解をしているのでしょうか?

8月23日、百度のCEOであるロビン・リー氏は中国国際知能産業博覧会で講演し、一般の人々は人工知能...

...

このレビューでは、5年間にわたる89の研究を数え、ディープラーニングにおけるコードデータ拡張がどのように進んでいるかを示しています。

今日のディープラーニングと大規模モデルの急速な発展により、革新的なテクノロジーの絶え間ない追求がもた...

...

世界的なIT大手はAIを活用してデータセンターのエネルギー節約と排出量削減に取り組んでいる

データ センターは、世界中の何十億もの人々が毎日使用するアプリケーション、Web サイト、サービスに...

マイクロソフト、Windows 10を開発者向けAIプラットフォームに

人工知能の人気が高まるにつれ、あらゆるテクノロジーメーカーが自社の製品やサービスに人工知能というラベ...

デジタルワールドが未来を予見するファバルタ製品・ユーザーカンファレンスが大盛況のうちに開催

9月19日、大手AIインフラ企業であるFabartaは、北京で初の製品およびユーザーカンファレンスを...

とても驚きました! GPT-4V錯視チャレンジ記録: 間違っているはずのものは間違っていない、間違っているはずのないものも間違っている

GPT-4V は視覚エラーマップに挑戦し、その結果は「衝撃的」でした。 「どちらの側が明るいですか」...