清華大学の朱俊氏のチームは、拡散モデルを打ち破り、シュレーディンガー橋に基づく新しい音声合成システムを開発した。

最近、清華大学コンピュータサイエンス学部の朱軍教授の研究グループが発表したシュレーディンガー橋[1]に基づく音声合成システムは、「データからデータ」生成パラダイムのおかげで、サンプル品質とサンプリング速度の両方の点で拡散モデルの「ノイズからデータ」パラダイムを打ち破りました。

論文リンク: https://arxiv.org/abs/2312.03491

プロジェクトウェブサイト: https://bridge-tts.github.io/

コード実装: https://github.com/thu-ml/Bridge-TTS

背景

2021年以降、拡散モデルはテキスト読み上げ（TTS）分野における中核的な生成手法の一つとなり始めている。Huawei Noah's Ark Laboratoryが提案したGrad-TTS [2]や浙江大学が提案したDiffSinger [3]などの手法は、高い生成品質を実現している。それ以来、事前最適化[2,3,4]、モデル蒸留[5,6]、残差予測[7]などの方法を通じて、多くの研究が拡散モデルのサンプリング速度を効果的に改善してきました。しかし、この研究で示されているように、拡散モデルは「ノイズからデータへ」生成パラダイムによって制約されているため、その事前分布は常に生成されたターゲットに関する限られた情報しか提供せず、条件付き情報を十分に活用することはできません。

音声合成の分野における最新の研究成果である Bridge-TTS は、シュレーディンガーブリッジに基づく生成フレームワークを使用して、 「データからデータ」の生成プロセスを実現します。音声合成の事前情報をノイズからクリーンデータへ、分布から決定論的表現へと初めて変更します。

この方法の主なアーキテクチャは、上の図に示されています。入力テキストは、まずテキストエンコーダーによって抽出され、ターゲットの潜在空間表現 (メルスペクトログラム) が生成されます。その後、この情報をノイズ分布に組み込んだり、条件情報として使用したりする拡散モデルとは異なり、Bridge-TTS 方式では、事前情報として直接使用し、ランダムまたは決定論的サンプリングを通じて高品質で高速なターゲット生成をサポートします。

仕事の結果

研究チームは、音声合成品質を検証するための標準データセットであるLJ-Speech上で、Bridge-TTSを9つの高品質音声合成システムおよび拡散モデルの加速サンプリング法と比較しました。以下に示すように、私たちの方法は、サンプル品質（1000ステップ、50ステップのサンプリング）の点で高品質の拡散モデルベースのTTSシステム[2、3、7]に勝っており、追加のモデル蒸留などの後処理なしでのサンプリング速度の点で、残差予測、漸進的蒸留、最新の一貫性蒸留作業[5、6、7]などの多くの加速方法よりも優れています。

以下は、Bridge-TTS と拡散モデルベースの方法による生成効果の例です。生成サンプルの比較については、プロジェクトの Web サイトをご覧ください: https://bridge-tts.github.io/

1000ステップ合成効果の比較

入力テキスト: 「したがって、私たちの目的においては、印刷とは可動式活字を使用して本を作成する技術と考えることができます。」

実サンプル、マシンハート、7秒

Bridge-TTS-1000 、同期、6秒

Grad-TTS-1000 、同期、6秒

4段階合成効果の比較

入力テキスト: 「最初の本は黒文字、つまり古代ローマ文字のゴシック的発展である文字で印刷されました。」

実サンプル、マシンハート、7秒

ブリッジ-TTS-4 、同期、7秒

高速グラデーション-TTS-4 、同期、7秒

ResGrad-4 、同期、6秒

2段階合成効果の比較

入力テキスト: 「刑務所の収容人数は大きく変動しました」

実サンプル-2 、マシンハート、2秒

ブリッジ-TTS-2 、同期、2秒

CoMoSpeech-2 、同期、3秒

以下は、2 ステップと 4 ステップの Bridge-TTS の決定論的合成 (ODE サンプリング) の例です。 4 段階の合成では、この方法は残留ノイズの問題なしに、拡散モデルと比較して大幅に多くのサンプルの詳細を合成します。 2 段階の合成では、この方法は完全に純粋なサンプリング軌跡を示し、各サンプリングステップで生成される詳細がさらに改善されます。

周波数領域では、生成されたサンプルがさらに表示されます。1000 ステップの合成では、この方法は拡散モデルよりも高品質のメルスペクトルを生成します。サンプリングステップ数が 50 ステップに削減されると、拡散モデルでは一部のサンプリングの詳細が犠牲になりますが、シュレディンガーブリッジベースの方法では依然として高品質の生成効果が維持されます。この方法では、4 ステップ合成と 2 ステップ合成の両方において、蒸留、多段階トレーニング、敵対的損失関数を必要とせず、高品質の生成結果を実現します。

1000ステップ合成におけるブリッジTTSと拡散モデルベースの方法のメルスペクトログラムの比較

50ステップ合成におけるブリッジTTSと拡散モデルベースの方法のメルスペクトログラム比較

4段階合成におけるブリッジTTSと拡散モデルベースの方法のメルスペクトログラムの比較

2段階合成におけるブリッジTTS法と拡散モデルベースの方法のメルスペクトログラム比較

Bridge-TTSはリリースされると、斬新なデザインと高品質の音声合成効果でTwitterで大きな注目を集め、100回以上のリポストと数百のいいねを獲得しました。12月7日にはHuggingfaceの日刊紙に選ばれ、同日支持率1位を獲得しました。また、LinkedIn、Weibo、Zhihu、Xiaohongshuなど国内外の複数のプラットフォームでもフォローされ、リポストされました。

いくつかの海外ウェブサイトもこの事件を報道し、議論した。

方法の紹介

シュレーディンガー橋は、拡散モデルの後に最近登場した新しいタイプの深層生成モデルであり、当初は画像生成や画像変換などの分野に適用されていました[8,9]。データとガウスノイズ間の変換プロセスを確立する拡散モデルとは異なり、シュレーディンガーブリッジは任意の 2 つの境界分布間の変換をサポートします。 Bridge-TTS の研究では、著者らは、ペアデータ間のシュレーディンガー橋に基づく音声合成フレームワークを提案しました。このフレームワークは、さまざまな順方向プロセス、予測ターゲット、およびサンプリングプロセスを柔軟にサポートします。この方法の概要を下図に示します。

順方向プロセス: この研究では、強い情報事前分布と生成目標の間に完全に解けるシュレーディンガー橋を構築し、対称ノイズ戦略:、定数、非対称ノイズ戦略:、線形、および拡散モデルに直接対応する分散保存 (VP)ノイズ戦略などの柔軟な順方向プロセスの選択をサポートします。この方法により、音声合成タスクでは、非対称ノイズ戦略（線形（gmax）および VP プロセス）が対称ノイズ戦略よりも優れた生成効果を持つことがわかりました。

モデルトレーニング: この方法は、単一ステージ、単一モデル、単一損失関数など、拡散モデルトレーニングプロセスの多くの利点を維持します。また、拡散モデル[10,11]のフローマッチング技術に対応するノイズ予測（Noise）、生成ターゲット予測（Data）、速度予測（Velocity）などのネットワークトレーニング目標の選択など、さまざまなモデルパラメータ化方法を比較します。この論文では、生成ターゲット、つまりメルスペクトルをネットワーク予測ターゲットとして使用すると、比較的優れた生成効果が得られることがわかりました。

サンプリングプロセス: この研究におけるシュレーディンガー橋の完全に解ける形式のおかげで、著者らはシュレーディンガー橋に対応する前方-後方 SDE システムを変換し、推論用のブリッジ SDE とブリッジ ODE を取得しました。同時に、ブリッジSDE/ODE推論の直接シミュレーションは速度が遅いため、サンプリングを高速化するために、本研究では拡散モデル[12,13]で一般的に使用される指数積分器を使用して、シュレーディンガーブリッジの1次SDEおよびODEサンプリング形式を与えました。

1 ステップでサンプリングする場合、1 次 SDE および ODE のサンプリング形式は、ネットワークの 1 ステップ予測に退化します。同時に、それらは事後サンプリング/拡散モデル DDIM サンプリングと密接に関連しており、この記事の付録では詳細な分析が示されています。この記事では、シュレーディンガー橋の 2 次サンプリング SDE および ODE サンプリングアルゴリズムも紹介します。著者らは、音声合成では、生成品質が一次サンプリングプロセスと同等であることを発見した。

著者らは、この研究が、音声強調、音声分離、音声編集、および事前情報が同様に強力なその他のタスクなど、他のタスクにも大きな応用価値をもたらすことを期待しています。

著者について

この研究には、Chen Zehua、He Guande、Zheng Kaiwen の 3 人の共同筆頭著者がおり、いずれも清華大学コンピューター科学部の Zhu Jun の研究グループに所属しています。記事の責任著者は Zhu Jun 教授で、Microsoft Research Asia の主任研究マネージャー Tan Xu がプロジェクトの協力者です。

朱俊教授

タン・シュー、マイクロソフトリサーチアジアチーフリサーチマネージャー

Chen Zehua 氏は、清華大学コンピューターサイエンス学部の水木奨学生博士研究員です。彼の主な研究分野は、確率的生成モデルと、その音声、音響効果、生体電気信号合成への応用です。彼は、Microsoft、JD.com、TikTok など多くの企業でインターンを経験し、ICML/NeurIPS/ICASSP など音声および機械学習の分野における重要な国際会議で多数の論文を発表しました。

He Guande 氏は清華大学の修士課程 3 年生です。主な研究分野は不確実性推定と生成モデルです。これまでに ICLR などの会議で第一著者として論文を発表しています。

Kevin Zheng は清華大学の修士課程 2 年生です。彼の主な研究分野は、深層生成モデルの理論とアルゴリズム、およびそれらの画像、音声、3D 生成への応用です。彼はこれまで、ICML/NeurIPS/CVPR などのトップカンファレンスで、拡散モデルにおけるフローマッチングや指数積分器などの技術に関する論文をいくつか発表しています。

<<:

>>: Metaは14秒でビデオを再構築し、役割を変更できるため、ビデオ合成が44倍高速化されます。