AI インテリジェント音声認識アルゴリズム パート 1

AI インテリジェント音声認識アルゴリズム パート 1

[[397592]]

1. 音源定位

1. 電子走査アレイ

システムが出力信号のパワーが最大となる点までスキャンすると、対応するビーム方向が音源の DOA 方向であると見なされ、音源の位置が特定されます。電子走査アレイ方式には一定の制限があり、単一の音源にのみ適用できます。アレイパターンの同じメインビーム内に複数の音源がある場合、それらを区別することはできません。

2. 超解像スペクトル推定

例えば、MUSIC アルゴリズムや ESPRIT アルゴリズムでは、共分散行列(相関行列)を固有値分解して空間スペクトルを構築します。方向スペクトルに関しては、スペクトルのピークに対応する方向が音源の方向になります。これは複数の音源がある状況に適しており、音源の解像度はアレイのサイズに依存せず、物理的な制限を打ち破り、超解像度分光ソリューションになります。

3. TDOA

TDOA は、音源が異なるマイクに次々に到達するまでの時間遅延差を推定し、時間遅延を通じて距離差を計算し、その距離差とマイクアレイの空間幾何学的位置を使用して音源の位置を決定します。これは、TDOA 推定と TDOA 位置決めの 2 つのステップに分かれています。

2. ビームフォーミング

1. CBF - 従来のビームフォーミング

CBF は最も単純な非適応型ビームフォーミングです。ビームは各マイクの出力を加重加算することで得られます。CBF では、各チャネルの重みは固定されています。その機能は、アレイ パターンのサイドローブ レベルを抑制して、サイドローブ領域の干渉とノイズを除去することです。

2. CBF + 適応フィルタ強化ビームフォーミング

CBF+適応フィルタは、Weinerフィルタリングと組み合わせて、音声強調の効果を高めます。ノイズの多い音声はWeinerフィルタリングによってフィルタリングされ、LMS基準に基づいて純粋な音声信号が得られます。フィルタ係数は継続的に更新および反復できるため、従来の CBF と比較して非定常ノイズをより効果的に除去できます。

3. ABF適応ビームフォーミング

ABF は CBF に基づいて、干渉とノイズに対して空間適応フィルタリングを実行します。 ABF では、異なるアルゴリズムを取得するために異なるフィルターが使用されます。つまり、異なるチャネルの振幅加重値は、いくつかの最適な基準に従って調整および最適化されます。

3. 音声強化

音声強調とは、音声信号がさまざまなノイズ(音声を含む)によって妨害されたり、かき消されたりする場合に、ノイズの多い音声信号から純粋な音声を抽出するプロセスを指します。

4. 残響抑制

マイクロフォンアレイを使用して残響を除去する主な方法はいくつかあります。

(1)ブラインド信号強調アプローチに基づいて、残響信号は通常の加法性ノイズ信号として扱われ、それに音声強調アルゴリズムが適用されます。

(2)ビームフォーミングに基づくアプローチ:複数のマイクで収集された信号を加重加算することにより、目的の信号の方向にピックアップビームを形成し、他の方向からの反射音を減衰させる。

(3)逆フィルタリング手法を用いて、マイクロホンアレイを通して室内の室内インパルス応答(RIR)を推定し、再構成フィルタを用いて残響を補正・除去する。

5. ノイズ抑制

音声認識では完全なノイズ除去は必要ありませんが、対照的に、通信システムではノイズを完全に除去する必要があります。ここで言う騒音とは、一般的には空調騒音などの環境騒音を指します。このタイプの騒音は通常、空間的な方向性を持たず、エネルギーもそれほど大きくありません。通常の会話を覆い隠すことはありませんが、会話の明瞭度や了解度に影響を与えます。この方法は、強いノイズ環境での処理には適していませんが、日常的なシナリオでの音声対話には十分です。

6. エコーキャンセル

エコーキャンセルは、マイクが音を収集した後、マイクが収集したサウンドデータからローカルスピーカーが再生した音を除去し、マイクによって記録される音はローカルユーザーが話している音声のみになるようにします。

<<:  AI インテリジェント音声認識アルゴリズム パート 2

>>:  3つのステップで声紋システムを構築する方法

ブログ    
ブログ    

推薦する

最高人民検察院は、虚偽訴訟の監視に人工知能とビッグデータを活用することを検討している。

虚偽の訴訟は、他人の正当な権利と利益を侵害するだけでなく、社会の健全性を著しく損ない、司法の公平性、...

嫌がらせ電話をかけてきた相手は実はAIロボットだった?

「ネットワークの向こう側に犬がいるかどうかは分からない」 - テクノロジーの発展により、同じ原理が...

百度の最新アルゴリズム調整対応戦略

Baiduの最新アルゴリズム調整対応戦略、4つの対策でBaiduの最新アルゴリズム調整に対応します。...

新たな突破口!商用ドローン配送がさらに一歩前進

ドローンはすでに、医療製品の配送、インフラの検査、監視、メンテナンス、人間の労働力へのリスクの軽減、...

ディープラーニング + OpenCV、Python でリアルタイムのビデオ オブジェクト検出を実現

OpenCV と Python を使用してライブ ビデオ ストリームでディープラーニング オブジェク...

人工知能を扱うなら必ず知っておくべき音声認識技術の原理

人工知能の急速な発展に伴い、音声認識は多くのデバイスの標準機能になり始めています。音声認識はますます...

2023 年のエンタープライズ AI トレンド トップ 10

2022 年の AI に関する大きな話題は、研究室や概念実証から生まれ、ビジネス価値を獲得するため...

お金は人を幸せにできるのでしょうか?機械学習を使って答えを見つける方法を教えます

機械学習システムを分類する 1 つの方法は、一般化の程度によって分類することです。ほとんどの機械学習...

予測分析: 組織内の時間とデータの再考

[[278064]]時系列は標準的な分析手法ですが、より高度な機械学習ツールでは、より正確な予測モデ...

ディープラーニングの次に来るものは何でしょうか?

[[343995]]ビッグデータダイジェスト制作出典: datasciencecentral編集者...

人工知能の時代では、機械学習とAIアルゴリズムが「80/20ルール」を変えるだろう

[[186517]]ハーバード・ビジネス・レビューは、機械学習と AI アルゴリズムの進歩により、私...

...

ドローンの将来の用途

ドローンは、1960年代以降、政府と軍隊によるインテリジェントな戦闘装備の需要から生まれました。米軍...

Junhao Real EstateはIBM MaximoとTRIRIGAを使用して標準化されたインテリジェントデジタルビジネスシステムを構築しました

IBM は、IBM Maximo インテリジェント資産管理プラットフォームや TRIRIGA スマー...

国内初の大規模模造品対策訴訟:アリババクラウドが偽造同義千聞アプリを提訴、一審で勝訴

1月16日、中国における大型モデルの偽造品撲滅活動で初の成功事例が発表された。アリババクラウドとアリ...