人間が理解できる音声を合成するために、機械はどのような「ディープラーニング」を行っているのでしょうか？

ディープラーニングは2006年に登場して以来、近年急速に発展し、学術研究と企業アプリケーションの両方で指数関数的な成長傾向を示しています。この技術が成熟し続けるにつれて、ディープラーニングはインテリジェント音声の分野で主導権を握り、一連の成功したアプリケーションを実現しました。

たとえば、1. 音色のカスタマイズには、多数のサウンドライブラリを追跡して録音し、モデルを再トレーニングする必要があります。2. パーソナライズされた表現方法のカスタマイズは、一部のデータを記録し、適応型メソッドを使用してディープラーニングを通じてモデルをトレーニングすることで実現できます。

統計パラメータ音声合成におけるディープラーニングの応用

音声合成では、主に波形接合合成と統計パラメータ合成の 2 つの方法が使用されます。波形スプライシング音声合成では、高品質の音声を合成するために十分な高品質のスピーカー録音が必要です。これは、市販製品で最も一般的に使用されている音声合成技術です。統計パラメータ音声合成の全体的な合成品質はわずかに低くなりますが、小規模なコーパスやリソース消費量が少ない場合にはその利点がより明らかになります。さらに、ハイブリッド音声合成は、波形接合合成と統計パラメータ合成の利点を組み合わせたものです。音の選択方法は、従来の波形接合方法に似ています。パラメータ合成方法を使用して音の選択をガイドします。次に、現在広く使用されている音声合成方法に焦点を当てます。

（１）従来のDNN/LSTMベースの合成

HMM 統計パラメータに基づく従来の音声合成では、トレーニングプロセス中にテキストパラメータと音響パラメータ間のマッピングモデルを確立し、ガウス混合モデルを通じて各モデリングユニットを記述します。モデリングプロセスには、音声品質を低下させる 3 つのリンクがあります。1 つ目は決定木のクラスタリング、2 つ目はボコーダー、3 つ目はパラメータ生成アルゴリズムです。決定木クラスタリング問題では、ディープニューラルネットワークを使用して、テキスト特徴と音響特徴のマッピング関係を確立し、従来の浅いモデルを置き換えてモデルの精度を向上させることができます。典型的なディープニューラルネットワークモデル構造には、ディープビリーフニューラルネットワークと長短期記憶再帰ニューラルネットワークがあります。後者はシーケンス学習機能がより強力です。 BLSTM-RNNモデリングを使用する場合、パラメータ生成アルゴリズムをスキップして、音声パラメータを直接予測することもできます。最後に、ボコーダーを介して音声を合成できます。一般的に、ディープニューラルネットワークの強力な非線形モデリング機能により、音声合成システムのパフォーマンスがある程度向上しましたが、元の音声合成システムのフレームワークから飛び出すことはありませんでした。

（２）WaveNetベースの合成

既存の研究では、時間領域で既存のオーディオを直接モデル化する人はほとんどいません。直感的に言えば、各サンプルが以前のすべてのサンプルによってどのように影響を受けるかを予測できる自己回帰モデルを構築することは、かなり困難な作業です。 Google が提案した WaveNets ベースの音声合成方法は、従来の音声合成フレームワークから脱却し、ボコーダーモジュールをバイパスしてサンプリングポイントを直接予測することで、この困難な問題に対する画期的な解決策を実現しました。

WaveNet 音声合成システムへの入力には、前の期間のテキスト機能と音声サンプルが含まれます。その中で、テキストの特徴を効果的に表現することが非常に重要な役割を果たします。ネットワークがテキストシーケンスなしでトレーニングされた場合、音声は生成できますが、出力オーディオの内容を理解することはできません。 WaveNet 音声合成システムの問題は、モデルが毎回 1 つのサンプリングポイントを出力するため、計算効率が実際の要件を満たすのが難しいことです。既存のモデルを最適化して、さまざまな話者に適合させるために、いくつかの適応型手法を導入することができます。また、モデルの入力時に感情やアクセントなどのより多くの情報を提供することも可能で、生成される音声はより多様で表現力豊かになります。

（３）DeepVoiceに基づく合成

Baidu は、多くのモジュールをディープニューラルネットワークで実装し、WaveNet に似たシンセサイザーで合成する Deep Voice 音声合成システムを提案しており、その効果は非常に理想的です。既存の音声合成システムはいくつかの側面でディープラーニングを使用していますが、Deep Voice 以前には、完全なディープラーニングフレームワークを採用したチームはありませんでした。従来の音声合成では多くの特徴処理と特徴構築が必要ですが、Baidu はディープラーニングを使用することでこれらの問題を回避します。これにより、Deep Voice の適用範囲が広がり、より便利に使用できるようになります。新しいデータセットを適用する必要がある場合、従来の音声合成システムでは再トレーニングと調整を完了するのに数日から数週間かかりますが、Deep Voice のモデルを手動で操作してトレーニングするのに必要な時間はわずか数時間です。 WaveNet音声合成システムと比較すると、このシステムの実効速度は400倍高速になりました。

（４）双方向音声合成

1 つ目は Char2Wav です。このモデルは、エンコーダー/デコーダーモデルを使用して入力テキストを直接エンコードします。入力された特徴はエンコードされ、生成された中間エンコード情報はデコーダーに配置され、最終的な合成が行われます。合成では、SimpleRNN シンセサイザーを使用して音声を合成します。効果は比較的理想的で、典型的なエンドツーエンドの音声合成モデルです。

もう1つは、Googleが提案したエンドツーエンドの音声合成システムで、Char2Wavに似ています。これもEmbeddingsを入力として使用し、合成効果がより合理的です。

著者の馬冀：吉仙源智能科技の共同創立者、中国科学院-吉仙源「智能相互作用共同実験室」副所長。中国科学院ソフトウェア研究所や華為技術有限公司で勤務し、音声・オーディオ分野で多数の特許を取得。上級ソフトウェア開発エンジニア、ネットワークセキュリティソリューションの専門家。ユーザーの視点からニーズを分析し、効果的な技術ソリューションを提供することに長けており、ビジネスコミュニケーションやプロジェクト管理の豊富な経験を持つ。

著者：馬吉、極元智能科技の共同創設者、中国科学院極元「智能相互作用共同実験室」副所長。

<<: 機械翻訳と人工知能が融合すると、信頼性は高まるでしょうか?

>>: 顔の特徴を検出するシンプルなディープラーニング手法を教えます