高度な長期短期記憶ネットワーク: 感情認識のためのより優れた時間依存性特性について

[51CTO.com からのオリジナル記事] Long Short-Term Memory Network (LSTM) は、このレイヤーの現在の状態が前の瞬間の状態に依存するという仮定を意味します。この「ワンステップ」の時間依存性により、シーケンス信号の動的特性をモデル化する LSTM の能力が制限される可能性があります。本稿では、この問題に対処するために、高度な長短期記憶ネットワーク (A-LSTM) を提案します。線形結合を使用して、複数の時点での現在の層の状態を組み合わせ、従来の LSTM の制限を克服します。本稿では、A-LSTM を感情認識に適用します。実験結果によると、従来の LSTM を使用するシステムと比較して、A-LSTM を使用するシステムは認識率を 5.5% 向上できることがわかりました。

背景

LSTM は現在 RNN で広く使用されています。これは、シーケンシャル信号のモデリングにおける RNN の応用を促進します。 LSTM には 2 つの入力があり、1 つは前のレイヤーから、もう 1 つはこのレイヤーの前の瞬間からのものです。したがって、LSTM は、このレイヤーの現在の状態が前の瞬間の状態に依存することを暗黙的に想定します。この「ワンステップ」の時間依存性により、シーケンス信号の動的特性をモデル化する LSTM の能力が制限される可能性があります (特に、時間依存性が長い時間軸にまたがるタスクの場合)。本稿では、従来の LSTM の限界を打ち破るためにこの問題に対処する高度な LSTM (A-LSTM) を提案します。 A-LSTM は線形結合を使用して、現在のレイヤーの状態を複数の時点に結合するため、1 ステップ前の状態だけでなく、さらに遡った履歴状態も確認できます。

本稿では、発話レベルでの感情認識タスクに A-LSTM を適用します。従来の感情認識は、平均、分散などの低レベルの記述子の統計を文全体から抽出することに依存しています。実際のアプリケーションでは、文章全体の中で長い沈黙や非音声音が含まれる場合があるため、このような統計は正確ではない可能性があります。本稿では、注意モデルに基づく重み付きプーリング再帰型ニューラルネットワークを使用して、文レベルで特徴をより効果的に抽出します。

高度な長期短期記憶ネットワーク

A-LSTM は線形結合を使用して、複数の時点での現在のレイヤーの状態を結合します。線形結合は、注意モデルに似たメカニズムを使用して計算されます。具体的な計算式は以下のとおりです。

図1では、C'(t)は前の時間状態の線形結合です。この線形結合後の時間状態は、更新のために次の時点に入力されます。それぞれの更新は、前の瞬間だけではなく、複数の瞬間の組み合わせの更新であると想像できます。この組み合わせの重みは注意モデルによって制御されるため、A-LSTM は学習を通じて異なる時点間の重み比を自動的に調整できます。依存関係が長期間にわたる場合、遠い過去の歴史的状態が比較的大きな割合を占める可能性があります。逆に、より最近の歴史的状態が比較的大きな割合を占めることになります。

図1 展開されたA-LSTM

重み付きプーリング再帰型ニューラルネットワーク

図 2 注意ベースの重み付きプーリング RNN。

本稿では、感情認識のための注意モデルに基づく重み付きプーリング再帰型ニューラルネットワークを使用します（図 2 参照）。このニューラルネットワークへの入力は、一連の音響信号です。注意モデルを使用すると、ニューラルネットワークは各時点での重みを自動的に調整し、各時点での出力の加重平均 (加重プーリング) を実行できます。加重平均の結果は、シーケンス全体を特徴付けることができる式です。注意モデルの存在により、この表現の抽出には有効な情報が含まれ、無駄な情報（入力シーケンス内の長い無音部分など）が回避されます。これは、シーケンス全体の統計（opensmile によって抽出されたいくつかの最下位レベルの特徴など）を単純に計算するよりも優れています。モデルをより適切にトレーニングするために、感情認識タスクに加えて、話者認識と性別認識という 2 つの補助タスクを追加しました。システムパフォーマンスを向上させるために、このモデルでは A-LSTM を使用しました。

実験

実験段階では、IEMOCAP データセットから 4 つのカテゴリのデータ (幸せ、怒り、悲しみ、正常) を使用します。音声ファイルは全部で4490個あります。テストデータとして、男性話者 1 名と女性話者 1 名のデータをランダムに選択します。残りのデータはトレーニングに使用されます (データの 10% は検証データとして使用されます)。私たちは、加重平均 F スコア (MAF)、加重平均精度 (MAP)、および精度という 3 つの測定指標を使用します。

MECC、信号ゼロ交差率、エネルギー、エネルギーエントロピー、スペクトル重心、スペクトルフラックス、スペクトルロールオフ、12次元クロマベクトル、クロマ偏差、高調波比、音声基本周波数の合計36個の特徴を抽出しました。これらのシーケンス機能は、文全体のレベルで正規化された後、トレーニングまたはテストのためにシステムに送信されます。

この実験では、システムには 2 つのニューロン層があります。最初の層は完全に接続された層で、256 個の正規化された線形ユニットで構成されています。 2 番目の層は双方向の長短期記憶ネットワーク (双方向 LSTM (BLST)) です。両方向に合計 256 個のニューロンがあります。その後に、注意モデルに基づく重み付けプーリング層が続きます。上部には、それぞれ 3 つのタスクに対応する 3 つの柔軟な *** 値転送関数レイヤーがあります。 3 つのタスクに異なる重みを割り当て、感情認識には 1、話者認識には 0.3、性別認識には 0.6 の重みを割り当てました。 A-LSTM を適用する場合、第 2 層の BLSTM を双方向 A-LSTM に置き換え、他のすべてのパラメータは変更されません。ここで、A-LSTM は線形結合のために 3 つの時点の状態、つまり 5 時点前 (t-5)、3 時点前 (t-3)、1 時点前 (t-1) を選択します。実験結果は次のとおりです。

平均 LSTM は A-LSTM に似ています。唯一の違いは、選択された複数の時点の状態の線形結合を作成するときに、注意モデルを使用せず、単純に算術平均を取ることです。

結論は

従来の LSTM を使用するシステムと比較して、A-LSTM を使用するシステムはより優れた認識率を示します。加重プーリングプロセスは、すべての時点における出力の加重平均を実行するため、システムパフォーマンスの向上は、上位層でより多くの時点を確認するなどの他の要因ではなく、A-LSTM のより柔軟な時間依存モデルからのみ得られます。そして、この改善にかかるコストは、パラメータが数百増えるだけです。

著者: フェイ・タオ、ガン・リウ

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<: アマゾンがホームロボット「Vesta」を開発、2019年に販売開始

>>: ITBハードドライブがあなたを待っています | 人工知能+ブロックチェーンの開発動向と応用に関する研究