蝶ネクタイボイスチェンジャーなしでも1秒でコナンになれる——音声合成＋ディープラーニング

[51CTO.com からのオリジナル記事] 「名探偵コナン」を見たことがある友人なら、コナンに出てくるさまざまな黒いテクノロジー「命を救う遺物」を覚えているだろうと思う。彼らはコナンとともにさまざまな犯罪現場に行き、事件解決を手伝うだけでなく、危機的な瞬間にコナンが危険から逃れるのを助けることもできます。最もよく知られているのは蝶ネクタイ型ボイスチェンジャーです。近年、科学技術の発展により、この魔法の蝶ネクタイ型ボイスチェンジャーが現実のものとなりました。今日は、それがどのように達成されるかを探ってみましょう。

[[235877]]

音声合成の3つの部分

簡単に言えば、音声合成は、テキスト分析、韻律分析、音響分析の 3 つの部分に分かれています。テキスト分析によってテキストの特徴が抽出され、これに基づいて基本周波数、継続時間、リズムなどのさまざまな韻律的特徴が予測されます。次に、音響モデルを通じてフロントエンドパラメータから音声パラメータへのマッピングが実現されます。

音声合成の2つの方法

音声合成では、主に波形接合合成と統計パラメータ合成の 2 つの方法が使用されます。

波形接合音声合成のプロセスは簡単に理解できます。つまり、コーパスから適切な接合単位を抽出し、それを文章に接合するのです。パラメトリック音声合成には、サウンドライブラリのパラメトリックモデリングと、トレーニングされたモデルに基づく韻律および音響パラメータの予測が必要です。

通常、波形スプライシング音声合成ではレコーダーによる数十時間の録音が必要ですが、パラメトリック音声合成ではカスタマイズされた音声パッケージの作成を完了するのに 10 時間の録音しか必要ありません。

総合的に比較すると、つなぎ合わせた合成音声は実際の発音に近いですが、波形つなぎ合わせ音声合成では、高品質の音声を合成するために十分な高品質の話者録音が必要です。統計パラメータ音声合成の全体的な合成品質はわずかに低くなりますが、話者コーパスのサイズが限られている条件下ではその利点がより明らかになります。

ディープラーニングによる音声合成

近年、ディープラーニングはAI分野で最もホットな話題となっています。急速に発展しているだけでなく、その分野もますます広がっています。学術研究と企業への応用はともに指数関数的な成長傾向を示しています。この技術が成熟し続けるにつれて、ディープラーニングはインテリジェント音声の分野にも大きな影響を与え、従来の音声合成技術を大きく上回っています。

1. 従来のDNN/LSTMベースの合成

HMM 統計パラメータに基づく従来の音声合成では、トレーニングプロセス中にテキストパラメータと音響パラメータ間のマッピングモデルを確立し、ガウス混合モデルを通じて各モデリングユニットを記述します。モデリングプロセスには、音声品質を低下させる 3 つのリンクがあります。1 つ目は決定木のクラスタリング、2 つ目はボコーダー、3 つ目はパラメータ生成アルゴリズムです。決定木クラスタリング問題では、ディープニューラルネットワークを使用して、テキスト特徴と音響特徴のマッピング関係を確立し、従来の浅いモデルを置き換えてモデルの精度を向上させることができます。典型的なディープニューラルネットワークモデル構造には、ディープビリーフニューラルネットワークと長短期記憶再帰ニューラルネットワークがあります。後者はシーケンス学習機能がより強力です。 BLSTM-RNNモデリングを使用する場合、パラメータ生成アルゴリズムをスキップして、音声パラメータを直接予測することもできます。最後に、ボコーダーを介して音声を合成できます。一般に、ディープニューラルネットワークの強力な非線形モデリング機能により、音声合成システムのパフォーマンスがある程度向上しましたが、元の音声合成システムのフレームワークから脱却していません。

2. WaveNetベースの合成

既存の研究では、時間領域で既存のオーディオを直接モデル化する人はほとんどいません。直感的に言えば、各サンプルが以前のすべてのサンプルによってどのように影響を受けるかを予測できる自己回帰モデルを構築することは、かなり困難な作業です。 Google が提案した WaveNets ベースの音声合成方法は、従来の音声合成フレームワークから脱却し、ボコーダーモジュールをバイパスしてサンプリングポイントを直接予測することで、この困難な問題に対する画期的な解決策を実現しました。

WaveNet 音声合成システムへの入力には、前の期間のテキスト機能と音声サンプルが含まれます。その中で、テキストの特徴を効果的に表現することが非常に重要な役割を果たします。ネットワークがテキストシーケンスなしでトレーニングされた場合、音声は生成できますが、出力オーディオの内容を理解することはできません。 WaveNet 音声合成システムの問題は、モデルが毎回 1 つのサンプリングポイントを出力するため、計算効率が実際の要件を満たすのが難しいことです。既存のモデルを最適化して、さまざまな話者に適合させるために、いくつかの適応型手法を導入することができます。また、モデルの入力時に感情やアクセントなどのより多くの情報を提供することも可能で、生成される音声はより多様で表現力豊かになります。

3. DeepVoiceに基づく合成

2017 年 2 月、Baidu Research は、完全にディープニューラルネットワークで構築された高品質のテキスト読み上げシステムである Deep Voice システムを提案しました。

多くのモジュールをディープニューラルネットワークを使用して実装し、WaveNet に似たシンセサイザーで合成しており、その効果は非常に理想的です。既存の音声合成システムはいくつかの側面でディープラーニングを使用していますが、Deep Voice 以前には、完全なディープラーニングフレームワークを採用したチームはありませんでした。従来の音声合成では多くの特徴処理と特徴構築が必要ですが、Baidu はディープラーニングを使用することでこれらの問題を回避します。これにより、Deep Voice の適用範囲が広がり、より便利に使用できるようになります。新しいデータセットを適用する必要がある場合、従来の音声合成システムでは再トレーニングと調整を完了するのに数日から数週間かかりますが、Deep Voice のモデルを手動で操作してトレーニングするのに必要な時間はわずか数時間です。 WaveNet音声合成システムと比較すると、このシステムの実効速度は400倍高速になりました。

4. エンドツーエンドの音声合成

1 つ目は Char2Wav です。このモデルは、エンコーダー/デコーダーモデルを使用して入力テキストを直接エンコードします。入力された特徴はエンコードされ、生成された中間エンコード情報はデコーダーに配置され、最終的な合成が行われます。合成では、SimpleRNN シンセサイザーを使用して音声を合成します。効果は比較的理想的で、典型的なエンドツーエンドの音声合成モデルです。

もう 1 つは、Google が提案したエンドツーエンドの音声合成システムである Tacotron です。Char2Wav に似ています。このモデルは、Embeddings の入力を受け取り、対応する元のスペクトログラムを出力し、それを Griffin-Lim 再構成アルゴリズムに提供して直接音声を生成します。総合的な効果も比較的合理的です。

テスト結果では、合成効果も理想的であることが示されました。アメリカ英語テストにおける Tacotron の平均主観的意見スコアは 3.82 ポイント (合計 5 ポイント) に達し、自然さの点で、これまで制作で使用されてきたパラメトリックシステムよりも優れています。さらに、Tacotron はフレームレベルで音声を生成するため、サンプルレベルの自己回帰方式よりもはるかに高速です。

さて、ここまでお話ししましたが、ディープラーニングに基づく音声合成技術について、少し理解が深まりましたか？実際、この技術は現在、多くの分野で巧みに応用されています。AI推進者が先ほど言及したドキュメンタリー「Creating China」では、番組ディレクターが「時代の声」李毅氏の音声を合成することに成功しました。また、百度はレスリー・チャン生誕60周年の「ユニークな」記念行事で、生前のレスリー・チャンの声を合成し、レスリー・チャンの最新映画「宿命」の公開前に実際の会話動画を初めて公開し、アイドルとの「交流」に対するファンの願いを実現し、特別な方法で一世代の王者を記念しました。。。。

音声合成技術の継続的な発展は、科学技術の発展の重要性を浮き彫りにするだけでなく、私たちの日常生活に数え切れないほどの驚きをもたらします。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<: インタラクティブな推測 | ワールドカップとブラックテクノロジーが出会ったとき、最終的な勝者は誰になるでしょうか?

>>: 「AI+教育」は偽のトリックか本物のスキルか？本質は依然としてAIの能力のテスト