AI インテリジェント音声認識アルゴリズム パート 1

AI インテリジェント音声認識アルゴリズム パート 1

[[397592]]

1. 音源定位

1. 電子走査アレイ

システムが出力信号のパワーが最大となる点までスキャンすると、対応するビーム方向が音源の DOA 方向であると見なされ、音源の位置が特定されます。電子走査アレイ方式には一定の制限があり、単一の音源にのみ適用できます。アレイパターンの同じメインビーム内に複数の音源がある場合、それらを区別することはできません。

2. 超解像スペクトル推定

例えば、MUSIC アルゴリズムや ESPRIT アルゴリズムでは、共分散行列(相関行列)を固有値分解して空間スペクトルを構築します。方向スペクトルに関しては、スペクトルのピークに対応する方向が音源の方向になります。これは複数の音源がある状況に適しており、音源の解像度はアレイのサイズに依存せず、物理的な制限を打ち破り、超解像度分光ソリューションになります。

3. TDOA

TDOA は、音源が異なるマイクに次々に到達するまでの時間遅延差を推定し、時間遅延を通じて距離差を計算し、その距離差とマイクアレイの空間幾何学的位置を使用して音源の位置を決定します。これは、TDOA 推定と TDOA 位置決めの 2 つのステップに分かれています。

2. ビームフォーミング

1. CBF - 従来のビームフォーミング

CBF は最も単純な非適応型ビームフォーミングです。ビームは各マイクの出力を加重加算することで得られます。CBF では、各チャネルの重みは固定されています。その機能は、アレイ パターンのサイドローブ レベルを抑制して、サイドローブ領域の干渉とノイズを除去することです。

2. CBF + 適応フィルタ強化ビームフォーミング

CBF+適応フィルタは、Weinerフィルタリングと組み合わせて、音声強調の効果を高めます。ノイズの多い音声はWeinerフィルタリングによってフィルタリングされ、LMS基準に基づいて純粋な音声信号が得られます。フィルタ係数は継続的に更新および反復できるため、従来の CBF と比較して非定常ノイズをより効果的に除去できます。

3. ABF適応ビームフォーミング

ABF は CBF に基づいて、干渉とノイズに対して空間適応フィルタリングを実行します。 ABF では、異なるアルゴリズムを取得するために異なるフィルターが使用されます。つまり、異なるチャネルの振幅加重値は、いくつかの最適な基準に従って調整および最適化されます。

3. 音声強化

音声強調とは、音声信号がさまざまなノイズ(音声を含む)によって妨害されたり、かき消されたりする場合に、ノイズの多い音声信号から純粋な音声を抽出するプロセスを指します。

4. 残響抑制

マイクロフォンアレイを使用して残響を除去する主な方法はいくつかあります。

(1)ブラインド信号強調アプローチに基づいて、残響信号は通常の加法性ノイズ信号として扱われ、それに音声強調アルゴリズムが適用されます。

(2)ビームフォーミングに基づくアプローチ:複数のマイクで収集された信号を加重加算することにより、目的の信号の方向にピックアップビームを形成し、他の方向からの反射音を減衰させる。

(3)逆フィルタリング手法を用いて、マイクロホンアレイを通して室内の室内インパルス応答(RIR)を推定し、再構成フィルタを用いて残響を補正・除去する。

5. ノイズ抑制

音声認識では完全なノイズ除去は必要ありませんが、対照的に、通信システムではノイズを完全に除去する必要があります。ここで言う騒音とは、一般的には空調騒音などの環境騒音を指します。このタイプの騒音は通常、空間的な方向性を持たず、エネルギーもそれほど大きくありません。通常の会話を覆い隠すことはありませんが、会話の明瞭度や了解度に影響を与えます。この方法は、強いノイズ環境での処理には適していませんが、日常的なシナリオでの音声対話には十分です。

6. エコーキャンセル

エコーキャンセルは、マイクが音を収集した後、マイクが収集したサウンドデータからローカルスピーカーが再生した音を除去し、マイクによって記録される音はローカルユーザーが話している音声のみになるようにします。

<<:  AI インテリジェント音声認識アルゴリズム パート 2

>>:  3つのステップで声紋システムを構築する方法

ブログ    
ブログ    

推薦する

機械学習: Python による分類

子供にリンゴとオレンジの区別を教えたいとします。これを行うには複数の方法があります。お子様にこの 2...

...

アリババクラウド南京雲奇カンファレンス:スマート製造モデルの共有と最先端技術の発表

[51CTO.comより引用] 本日、アリババクラウドカンファレンス南京サミットが正式に開催され、ま...

2頭のアルパカが頭と尻尾を切り落とし、それをくっつけてハギングフェイスリストのトップに

HuggingFace が再びオープンソースの大規模モデルのリストのトップに躍り出ました。最前列は、...

数人のアメリカ人作家が共同で書簡を書き、AIが著作権のあるコンテンツを使って作品を生み出す場合、著者に補償を与えるよう求めた。

アクションネットワークによると、7月19日、約8,000人の作家がニューヨーク作家組合宛ての公開書簡...

...

エッジコンピューティング、人工知能、サーマルイメージング - スマートセキュリティの未来

スマート セキュリティ業界は急速に進化しており、AI と 4K がスマート カメラで普及するにつれて...

IBMは「キーポイント分析」技術でProject Debaterの機能をさらに向上

[51CTO.com 速訳] IBMは、人工知能技術を使って人々の意見を要約することを目指すProj...

PaddlePaddle をベースに構築された産業グレードの ICNET アプリケーションの予測速度は、TensorFlow を 20% 上回ります。

導入ICNET について話すとき、リアルタイム アプリケーションにおける画像セマンティック セグメン...

明らかにした! BBC は 365 の職業を分析し、これが機械によって排除される可能性が最も低い職業であると判明しました。

この写真を見ると怖いと感じますか? [[211553]]これは、将来人間がロボットに物乞いをするよう...

最先端技術の共有:脳の信号を音声に変換するAIアルゴリズムは、失語症の人が正常に話すことを助けることが期待されています

カリフォルニア大学サンフランシスコ校の神経科学者チームは、ネイチャー誌に最近発表した研究で、脳の活動...

OpenAIはトップチームを再構築し、多額の投資でコアメンバーを採用し、4年以内にスーパーAIを担う計画!

著者: 徐潔成校正:Yun Zhao 「AIは確かに人間を殺すかもしれない」これは注目を集めるために...

人工知能について知っておくべき12の秘密

人類は、自分たちの仕事を担ってくれる全知全能のエルフを持つことを常に夢見てきました。現在、研究室のコ...

...

Googleのジェフ・ディーンが単独著者として執筆: ディープラーニング研究の黄金の10年

コンピュータの出現以来、人類は思考できる機械を創ることを夢見てきました。 1956 年、ジョン マッ...