ディープフィードフォワードシーケンスメモリニューラルネットワークに基づく大語彙連続音声認識

ディープフィードフォワードシーケンスメモリニューラルネットワークに基づく大語彙連続音声認識

【51CTO.comオリジナル記事】

まとめ

本研究では、ディープフィードフォワードシーケンスメモリニューラルネットワーク(DFSMN)と呼ばれる改良されたフィードフォワードシーケンスメモリニューラルネットワーク構造を提案しました。さらに、ディープフィードフォワードシーケンスメモリニューラルネットワークと低フレームレート(LFR)技術を組み合わせて、LFR-DFSMN音声認識音響モデルを構築しました。このモデルは、長短期記憶ユニットに基づく現在の最先端の双方向リカレントニューラルネットワーク (BLSTM) と比較して、大規模な語彙を使用した英語と中国語の両方の認識タスクで大幅なパフォーマンスの向上を実現できます。さらに、LFR-DFSMN は、トレーニング速度、モデル パラメータの数、デコード速度、モデル遅延の点で BLSTM よりも明らかな利点があります。

背景

近年、ディープニューラルネットワークは、大語彙連続音声認識システムにおける主流の音響モデルとなっています。音声信号は長期相関が強いため、LSTM やその変形構造など、長期相関をモデル化する機能を持つリカレントニューラルネットワーク (RNN) を使用することが現在一般的です。リカレントニューラルネットワークは強力なモデリング機能を備えていますが、そのトレーニングでは通常 BPTT アルゴリズムが使用され、トレーニング速度が遅い、勾配が消失するなどの問題があります。以前の研究では、信号の長期相関を効果的にモデル化できる、フィードフォワード順次メモリネットワーク (FSMN) と呼ばれる新しい非再帰ネットワーク構造を提案しました。リカレント ニューラル ネットワークと比較して、FSMN トレーニングはより効率的で、より優れたパフォーマンスを実現できます。

本論文では、これまでの FSMN 関連の研究に基づいて、Deep-FSMN (DFSMN) と呼ばれる改良された FSMN 構造をさらに提案しました。 FSMN 内の隣接するメモリ モジュール間にスキップ接続を追加して、高レベル ネットワークの勾配が低レベル レイヤーに適切に伝達されるようにし、深層ネットワークが勾配消失の問題に直面しないようにします。さらに、DFSMN を実際の音声認識モデリング タスクに適用するには、モデルのパフォーマンスだけでなく、計算の複雑さとモデルのリアルタイム パフォーマンスも考慮する必要があります。この問題に対処するために、DFSMN と低フレーム レート (LFR) を組み合わせてモデルのトレーニングとテストを高速化することを提案します。同時に、DFSMNの構造を設計し、DFSMNのメモリモジュールの順序を調整することで遅延制御を実現し、LFR-DFSMNに基づく音響モデルをリアルタイム音声認識システムに適用できるようになりました。

英語や中国語を含むいくつかの大語彙連続音声認識タスクで DFSMN のパフォーマンスを検証します。一般的な 2,000 時間の英語 FSH タスクでは、DFSMN は現在主流の BLSTM と比較して 1.5% の絶対改善を達成でき、モデル パラメータも少なくなります。 20,000 時間の中国語データベースでは、LFR-DFSMN は LFR-LCBLSTM と比較して 20% 以上の相対パフォーマンスの向上を達成できます。さらに、LFR-DFSMN は遅延を柔軟に制御できます。遅延を音声の 5 フレームに制御すると、遅延が 40 フレームの LFR-LCBLSTM よりも優れたパフォーマンスが得られることがわかりました。

FSMNレビュー

最も初期に提案された FSMN のモデル構造を図 1 (a) に示します。これは本質的にはフィードフォワード型の完全接続ニューラル ネットワークです。周囲のコンテキスト情報をモデル化するために、隠れ層の隣にいくつかのメモリ ブロックを追加することで、モデルは時系列信号の長期的な相関関係をモデル化できます。 FSMN の提案は、デジタル信号処理におけるフィルタ設計理論にヒントを得たものです。つまり、任意の無限インパルス応答 (IIR) フィルタは、高次有限インパルス応答 (FIR) フィルタで近似できます。フィルタの観点から見ると、図 1 (c) に示す RNN モデルの再帰層は、図 1 (d) に示すように 1 次 IIR フィルタとみなすことができます。 FSMNが使用するメモリモジュールは、図1(b)に示すように、高次FIRフィルタとみなすことができます。したがって、FSMN は RNN と同様に信号の長期相関を効果的にモデル化することもできます。同時に、FIR フィルターは IIR フィルターよりも安定しているため、FSMN は RNN よりもトレーニングが簡単で安定しています。

図1. FSMNモデル構造とRNNとの比較

メモリモジュールのエンコード係数の選択に応じて、1) スカラー FSMN (sFSMN)、2) ベクトル FSMN (vFSMN) に分類できます。名前が示すように、sFSMN と vFSMN は、メモリ モジュールのエンコード係数としてそれぞれスカラーとベクトルを使用します。 sFSMN と vFSMN のメモリ モジュールの表現は次のとおりです。

上記の FSMN は、履歴情報が現在の瞬間に与える影響のみを考慮しており、一方向の FSMN と言えます。過去の情報と将来の情報が現在の瞬間に与える影響を同時に考慮すると、単方向 FSMN を拡張して双方向 FSMN を取得できます。双方向 sFSMN および vFSMN メモリ モジュールのエンコード式は次のとおりです。

図2. cFSMN構造図

FNN と比較すると、FSMN ではメモリ モジュールの出力を次の隠し層への追加入力として使用する必要があり、これにより追加のモデル パラメータが導入されます。隠し層に含まれるノードの数が増えるほど、導入されるパラメータの数も増えます。私たちは、低ランク行列分解の考え方を組み合わせて改良された FSMN 構造を提案し、これをコンパクト FSMN (cFSMN) と呼んでいます。図2は、l番目の隠れ層にメモリモジュールが含まれるcFSMNの構造ブロック図です。

cFSMN では、ネットワークの隠れ層の後に低次元の線形投影層が追加され、線形投影層にメモリ モジュールが追加されます。さらに、cFSMN ではメモリ モジュールのエンコード式にいくつかの変更が加えられ、現時点での出力をメモリ モジュールの式に明示的に追加することで、次のレイヤーの入力としてメモリ モジュールの式のみを使用すればよいようになりました。これにより、モデルパラメータの数を効果的に削減し、ネットワークのトレーニングを高速化できます。具体的には、単方向および双方向 cFSMN メモリ モジュールの式は次のとおりです。

DFSMN の紹介

図3. Deep-FSMN (DFSMN) モデル構造図

図 3 は、私たちがさらに提案した Deep-FSMN (DFSMN) のネットワーク構造図です。左側の最初のボックスは入力層を表し、右側の最初のボックスは出力層を表します。 cFSMN のメモリ モジュール (赤いボックスで示されています) 間にスキップ接続を追加して、下位レベルのメモリ モジュールの出力を上位レベルのメモリ モジュールに直接蓄積できるようにします。このように、トレーニングプロセス中に、高レベルメモリモジュールの勾配が低レベルメモリモジュールに直接割り当てられるため、ネットワークの深さによって発生する勾配消失の問題を克服し、安定したディープネットワークのトレーニングが可能になります。また、メモリモジュールの表現にもいくつかの変更を加えました。膨張畳み込み[3]の考え方を借用して、メモリモジュールにいくつかのストライド係数を導入しました。具体的な計算式は次のとおりです。

LFR-DFSMN音響モデル

現在の音響モデルは、音声信号の各フレームから抽出された音響特徴を入力します。音声の各フレームの持続時間は通常 10 ミリ秒で、入力された音声フレーム信号ごとに対応する出力ターゲットがあります。最近、ある研究では、低フレーム レート (LFR) モデリング スキームが提案されました。これは、隣接する瞬間の音声フレームを入力としてまとめることで、これらの音声フレームのターゲット出力が予測され、平均出力ターゲットが得られるというものです。特定の実験では、モデルのパフォーマンスを損なうことなく、3 つのフレーム (またはそれ以上のフレーム) を結合できます。これにより、入力と出力を元の量の 3 分の 1 以上に削減できるため、音声認識システムに提供する際の音響スコアの計算とデコードの効率が大幅に向上します。上記で提案したDFSMNとLFRを組み合わせて、図4に示すようにLFR-DFSMNに基づく音声認識音響モデルを構築しました。複数の実験を経て、最終的に音響モデルとして10層のDFSMN + 2層のDNNを持つDFSMNを使用し、入出力にLFRを使用することで、フレームレートを元の3分の1に削減することにしました。

図4. LFR-DFSMN音響モデル構造図

実験結果

1) 英語の認識

提案された DFSMN モデルを 2,000 時間の英語 FSH タスクで検証します。まず、DFSMN のネットワーク深度がパフォーマンスに与える影響を検証しました。DFSMN に 6、8、10、12 の DFSMN レイヤーが含まれるケースを検証しました。最終モデルの認識性能は次の表に示されています。ネットワークの深さを増やすことで、パフォーマンスを大幅に向上させることができます。

また、いくつかの主流の音響モデルと比較した結果を次の表に示します。結果から、DFSMN は現在進歩している BLSTM よりもパラメータが少ないだけでなく、絶対的なパフォーマンスが 1.5% 向上することがわかります。

2) 中国の認識

中国語認識タスクに関しては、まず5000時間のタスクで実験を行いました。出力層モデリング単位として、それぞれ結合音素状態 (CD-State) と結合音素 (CD-Phone) の使用を検証しました。音響モデルに関しては、遅延制御可能なBLSTM(LCBLSTM)、cFSMN、DFSMNを比較しました。 LFR モデルでは、モデリング ユニットとして CD-Phone を採用しています。詳細な実験結果を次の表に示します。

ベースライン LCBSLTM の場合、LFR のパフォーマンスは従来の単一フレーム予測と同様ですが、効率は 3 倍向上します。従来の単一フレーム予測と比較して、LFR を使用する cFSMN は効率を向上させるだけでなく、より優れたパフォーマンスも実現できます。これは主に、LFR が入力信号のタイミングをある程度破壊するのに対し、BLSTM のメモリ メカニズムはタイミングに対してより敏感であるためです。さらに、ネットワークの深さがパフォーマンスに与える影響を調査しました。以前の cFSMN ネットワークでは、ネットワークの深さを 10 層に増やすと、一定のパフォーマンスの低下が発生しました。私たちが提案する DFSMN の場合、10 層ネットワークでも 8 層ネットワークに比べてパフォーマンスの向上を実現できます。最後に、ベースライン LFR-LCBLSTM モデルと比較して、20% を超える相対的なパフォーマンスの向上を達成できます。

次の表では、LFR-DFSMN と LFR-LCBLSTM のトレーニング時間と、デコードのリアルタイム係数 (RTF) を比較しています。結果から、トレーニング速度を 3 倍に上げ、リアルタイム係数を元の 3 分の 1 近くに削減できることがわかりました。

音声認識システムの場合、考慮する必要があるもう 1 つの要素は、モデルの遅延です。元の BLSTM は、デコード用の出力を取得する前に、文全体が受信されるまで待機する必要があります。 LCBLSTM はデコード遅延を制御できる改良構造です。現在使用されている LFR-LCBLSTM の遅延フレーム数は 40 フレームです。 DFSMN では、メモリ モジュールのフィルタ順序を設計することで、遅延フレームの数を柔軟に制御できます。最後に、遅延が 5 フレームしかない場合でも、LFR-DFSMN は LFR-LCBLSTM よりも優れたパフォーマンスを実現できます。

大語彙連続音声認識のための Deep-FSMN
チーム: Alibaba Voice Interaction Intelligence チーム

著者: Shiliang Zhang、Ming Lei、Zhijie Yan、LiRong Dai

会議: ICASSP-2018

オリジナルリンク: 大語彙連続音声認識のための Deep-FSMN

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  AI とクラウド コンピューティングが出会うとき、サービスとしての AI は神でしょうか、それとも悪魔でしょうか?

>>:  3.15を利用して、あなたの周りの偽の人工知能を数えましょう

ブログ    
ブログ    

推薦する

ビッグビデオモデルは世界モデルですか? DeepMind/UC Berkeley Chinese: 次のフレームを予測することで世界を変えることができる

今年初めにOpenAIが発表した壮大な傑作「Sora」が、ビデオ関連分野のコンテンツエコロジーを変え...

...

2020 年の世界トップ 10 AI ガバナンス イベントと変革トレンドの展望

現在、新世代の人工知能技術が世界中で急成長を遂げており、ビッグデータ、ブロックチェーン、5Gなどの新...

PyTorch でシンプルな分類器を実装する

[[328922]]私自身の PyTorch の学習過程を思い出すと、最初はいろいろな情報を見つけ、...

魂への窓!人工知能は網膜をスキャンして心臓発作を予測できる

ビッグデータダイジェスト制作眼鏡をかければ心臓発作の危険があるかどうかがわかるなんて、驚きですよね?...

スタンフォード大学の中国人博士、フェイフェイ・リー氏は、スライドモデルを提案し、NVIDIAと共同で汎用人工知能を研究した。

[[409525]]機械学習は、インテリジェントエージェントの学習効率と一般化能力を大幅に向上させ...

スマートビルディングにおける技術の陳腐化にどう対処するか?

今日の建物、ましてや将来のスマート ビルにとって、技術インフラの重要性はいくら強調してもし過ぎること...

DeepFMアルゴリズムを使用して推奨システムを設計する方法

[[239303]] [51CTO.com クイック翻訳] 10年以上の開発を経て、推奨システムはイ...

GPT4 はロボットにペンをスムーズに回転させる方法を教えます。

チャット中に数学者テレンス・タオ氏にインスピレーションを与えたGPT-4は、最近、ロボットにペンを回...

...

Java ガベージ コレクション アルゴリズムの紹介

51CTO 編集者注: 「Java ガベージ コレクション メカニズムの簡単な分析」では、Java ...

目標駆動型システムモデルは、人工汎用知能 (AGI) を実現するための鍵となるでしょうか?

人工知能の登場以来、研究者たちはロボットに人間とゲームをさせることで機械システムの知能をテストしよう...

ソフトウェア業界における破壊的革命: AIはすべてのものを食べるだけでなく、すべてそのものになる

昔々、ソフトウェアが世界を席巻しました。今、AI が残りを消化するためにここにいます。アプリケーショ...