線形ネットワークに基づく音声合成のための話者適応

線形ネットワークに基づく音声合成のための話者適応

[51CTO.com からのオリジナル記事] 話者適応アルゴリズムは、少量の話者データを使用して、満足のいく音声を合成できる話者適応型音声合成システムを構築します。本稿では、線形ネットワークに基づく音声合成のための話者適応アルゴリズムを提案する。このアルゴリズムは、各話者ごとに特定の線形ネットワークを学習し、対象話者に属する音響モデルを取得します。このアルゴリズムにより、対象話者の適応コーパスの 200 文でトレーニングされた話者適応システムは、1000 文でトレーニングされた話者依存システムと同様の合成効果を達成できます。

背景

対象話者について、十分なトレーニングデータがあれば、話者依存の音響モデルを構築することができます。この音響モデルに基づくシステムは、話者依存音声合成システムと呼ばれます。このシステムを使用すると、対象話者の音声に非常によく似た音声を合成することができます。しかし、ほとんどの場合、対象話者のデータが十分でないため、合成音声は理想的なものにはなりません。話者適応アルゴリズムを使用すると、比較的限られたデータに基づいて、より優れた音声合成システムを実現できます。このタイプのアルゴリズムは、録音、転写、検証作業を大幅に節約し、新しい音声を作成するコストを非常に低く抑えます。

本稿では、線形ネットワーク (LN) に基づく音声合成のための話者適応アルゴリズムを提案します。このアルゴリズムは、ソース話者の音響モデルの層の間に線形ネットワークを挿入し、ターゲット話者のデータを使用して線形ネットワークとニューラル ネットワークの出力層を更新し、ターゲット話者に属する音響モデルを取得します。さらに、低ランクプラス対角 (LRPD) に基づくモデル圧縮アルゴリズムが線形ネットワークに適用されます。実験により、データ量が少ない場合、LRPD を使用して一部の冗長なパラメータを削除し、システムによって合成されたサウンドをより安定させることができることがわかりました。

アルゴリズムの説明

本稿では、図1の左側に示すように、ソーススピーカー音響モデルはマルチタスクDNN-BLSTMに基づく音響モデルである。音響モデルの入力は音声特徴であり、出力は音響特徴です。音響特徴にはメル周波数ケプストラム係数などが含まれます。実験では、音響モデルの最下層でディープニューラルネットワーク (DNN) を使用すると、より優れた基礎機能が得られ、DNN を使用しない場合よりも収束速度が速くなることが示されています。出力層では、さまざまな音響特徴が独自の出力層を使用し、音響モデルの隠し層のみを共有します。

線形ネットワークに基づく適応アルゴリズムは音声認識の分野で初めて提案されました。そのシステム構造は図1の右側に示されています。線形ネットワークが挿入される位置に応じて、線形入力ネットワーク (LIN)、線形隠れネットワーク (LHN)、線形出力ネットワーク (LON) に分けられます。

実験

この論文で提案されたアルゴリズムは、3 人の話者、各話者の 5000 文、所要時間約 5 時間の中国語データセットで実験されました。データセット内の音声のサンプリング レートは 16k で、特徴抽出におけるウィンドウの長さとウィンドウ シフトはそれぞれ 25 ミリ秒と 5 ミリ秒です。 3 人の話者の名前をそれぞれ A-男性、B-女性、C-女性とします。この実験では、ソース話者音響モデルのトレーニングプロセスで使用される文の数は 5000 です。異なる文数での合成効果を比較するために、対象話者の適応データセットに対応する文数は 50 から 1000 の範囲です。適応データセットに加えて、開発セットとして 200 文、テスト セット (主観的スコアリング用) として 20 文を使用します。性別が適応効果に与える影響を分析するために、女性同士、男性同士、女性同士、女性同士の 3 組のソース話者とターゲット話者のペア間で実験を実施しました。さらに、客観的な測定と主観的な視聴覚観察を使用して、モデルのパフォーマンスを測定します。客観的な指標には主に、メルケプストラム歪み (MCD)、F0 の二乗平均平方根誤差 (RMSE)、無声音/有声音 (U/V) 予測誤差、開発セットの MSE が含まれます。主観的聴力検査では、主にシステムによって合成されたサウンドサンプルの自然さと類似性をスコア化します - 平均意見評点 (MOS)。

C-female – B-femaleを例にとると、図3は異なる適応文の数と客観的な指標の関係を示しています。このうち、SD は話者依存システム、OL はソース話者音響モデルの出力層のみを更新する話者適応システム、OL+Full-LN と OL+LRPD-LN はそれぞれ Full-LN と LRPD-LN に基づく話者適応システムを表します。図3によると、トレーニング/適応文の数が増えるにつれて、すべてのシステム間の客観的な指標は同様になります。 SD と他の 3 つの適応型システムを比較すると、同じ文数では適応型システムのパフォーマンスの方が優れています。さらに、OL+LRPD-LN と OL+Full-LN はどちらも OL と比較してパフォーマンスが飛躍的に向上しており、他の層を更新せずに出力層のみを更新しても、良好な適応効果が得られないことがわかります。同時に、適応文の数が少ない場合、OL+Full-LN の客観的なパフォーマンスは OL+LRPD-LN よりも悪くなります。これは、OL+Full-LN が導入するパラメータが多すぎるため、過剰適合の問題があるからです。逆に、文数が多い場合、客観的なパフォーマンスではOL+Full-LNの方がOL+LRPD-LNよりも優れています。この時点で、OL+LRPD-LNはパラメータ数が少ないため、アンダーフィッティングの問題があります。

図 4 は、異なるシステム間の自然さと類似性を比較しています。文数が減少するにつれて、SD システムのパフォーマンスは急激に低下し、OL+LRPD-LN は SD や OL+Full-LN よりも安定しています。客観的な測定と一致して、OL+Full-LN と OL+LRPD-LN は同じ数の文で SD よりも優れています。さらに、200 文での OL+Full-LN と OL+LRPD-LN のパフォーマンスは、1000 文での SD のパフォーマンスと同様です。客観的なメトリックとは異なり、文数が 500 未満の場合は、OL+LRPD-LN が OL+Full-LN よりも優れています。これは、過剰適合により合成音が不安定になり(客観的な指標は向上するが)、音の明瞭度が低下するためです。このことから、同じ結論を導き出すことができます。つまり、適応文の数が少ない場合、オーバーフィッティングによって OL+Full-LN のパフォーマンスが低下します。

結論は

本稿では、線形ネットワークに基づく話者適応アルゴリズムを音声合成の分野に適用し、LRPD に基づくモデル圧縮アルゴリズムによって音の安定性を向上させることができることを示した。 3 つの異なるソース話者とターゲット話者のペアを使用した実験を通じて、適応文の数が非常に少ない場合に LRPD によって音声の安定性が向上することがわかりました。さらに、提案されたアルゴリズムにより、200 人の対象話者のトレーニング コーパスでトレーニングされた話者適応型システムは、1000 文でトレーニングされた話者依存型システムと同様の結果を達成できます。

【今月のランキング***0】

  1. 張震: AIOps の 6 つの技術的難しさと CreditEase の運用と保守における大きな変化
  2. 新居ネットワークの程永馨氏:AIの助けを借りて、運用保守プラットフォームは新たな活力を得ました
  3. SIEM&AIからSIEM@AIまで、AIが次世代のエンタープライズセキュリティの頭脳を構築
  4. 線形ネットワークに基づく音声合成のための話者適応
  5. 孫玄、Zhuanzhuan 社アーキテクチャアルゴリズム部門: AI によるマイクロサービスアーキテクチャ

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  ITBハードドライブがあなたを待っています | 人工知能+ブロックチェーンの開発動向と応用に関する研究

>>:  人工知能にブレーキをかけるべき6つの理由

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

IDC:中国のAIパブリッククラウド市場は2022年にトレンドに逆らって成長し、成長率は80.6%になる

最近、IDCは「IDC中国AIパブリッククラウドサービス市場シェア、2022」レポートを発表しました...

ビッグニュース! AIが生物学における50年来の課題を解決し、タンパク質の折り畳み問題を解明

生物学における最大の謎の一つであるタンパク質折り畳み問題が AI によって解決されました。 CASP...

Python 機械学習の実践: クレジットカード詐欺検出

ストーリーの背景:元のデータは個人の取引記録ですが、データ自体のプライバシーを考慮して、元のデータは...

...

電子商取引用に作成されたナレッジグラフは、ユーザーのニーズをどのように感知するのでしょうか?

[[243140]] 1. 背景2017年6月に電子商取引認知マップが発表されて以来、実践から体系...

なぜSoraはOpenAIから生まれたのでしょうか?最前線で働く従業員の勤務と休息のタイムラインの秘密:私たちは

OpenAI が最初に Sora を作成した理由は何ですか?現在、世界中の研究者、エンジニア、投資家...

機械学習実践体験: データプラットフォームの設計と構築

近年人気の技術である機械学習は、数多くの「人工知能」製品でよく知られているだけでなく、従来のインター...

...

「中国版ダヴィンチ」ロボットが人気!ブドウの皮を縫うだけでなく、このような創造的な作業もあります

ブドウを縫うことができる DIY ロボットアームを作りますか? [[428703]]最近、有名な「ハ...

エッセンス共有サイトのランキングアルゴリズムのまとめ

ウェブサイトのランキングは、ウェブサイトの最適化を行うすべての人が最も気にしていることです。しかし、...

...

...

ニューラル ネットワークのデバッグにイライラしていませんか?ここに16のヒントがあります

[[201444]]ニューラルネットワークのデバッグは、専門家にとっても困難な作業です。数百万のパラ...

なぜAlipayは携帯電話の闇市場に関与しないのでしょうか?公式回答: 犯罪者は顔認識を突破できない

「携帯電話1台で世界中を旅する」というのは、ほぼすべての人の現状です。アクセスカード、バスカード、鍵...