言語間、人間の声と犬の鳴き声の相互変換をサポートし、最も近いものだけを使用するシンプルな音声変換モデルはどれほど素晴らしいか

言語間、人間の声と犬の鳴き声の相互変換をサポートし、最も近いものだけを使用するシンプルな音声変換モデルはどれほど素晴らしいか

AIが関わる音声の世界はまさに魔法のようです。ある人の声を別の人の声に置き換えるだけでなく、動物と声を交換することもできます。

音声変換の目的は、内容を変更せずにソース音声をターゲット音声に変換することであることはわかっています。最近の任意対任意の音声変換アプローチでは、自然さと話者の類似性が向上しましたが、複雑さが大幅に増加しました。つまり、トレーニングと推論のコストが高くなり、改善を評価して確立することが難しくなります。

問題は、高品質の音声変換には複雑さが必要かどうかです。南アフリカのステレンボッシュ大学の最近の論文では、数人の研究者がこの疑問を調査しました。

  • 論文アドレス: https://arxiv.org/pdf/2305.18975.pdf
  • GitHub アドレス: https://bshall.github.io/knn-vc/

この研究のハイライトは、シンプルで強力な任意対任意の音声変換方法であるK近傍音声変換(kNN-VC)を導入したことです。このプロセスでは明示的な変換モデルはトレーニングされませんが、K 最近傍回帰が単純に使用されます。

具体的には、研究者らはまず自己教師型音声表現モデルを使用してソース発話と参照発話の特徴シーケンスを抽出し、次にソース表現の各フレームを参照内の最も近い隣接フレームに置き換えることでそれらをターゲット話者に変換し、最後にニューラルボコーダーを使用して変換された特徴を合成して変換された音声を取得しました。

結果から、KNN-VC はシンプルであるにもかかわらず、いくつかのベースライン音声変換システムと比較して、主観的評価と客観的評価の両方において、明瞭度と話者の類似性において同等か、さらに向上できることがわかります。

KNN-VC音声変換の効果を実感してみましょう。まず、LibriSpeech データセット内の未知のソース話者とターゲット話者に KNN-VC を適用して音声変換を確認します。

ソースオーディオ00:11

合成音声1 00:11

合成音声2 00:11

KNN-VC は、スペイン語からドイツ語、ドイツ語から日本語、中国語からスペイン語など、言語間の音声変換もサポートしています。

オリジナル中国語00:08

ターゲットスペイン語00:05

合成音声3 00:08

さらに驚くべきことは、KNN-VC は人間の声と犬の鳴き声を交換することもできるということです。

ソース 犬の吠え声00:09

ソースボーカル00:05

合成音声4 00:08

合成音声5 00:05

次に、KNN-VC がどのように機能し、他の jixian 方式とどのように比較されるかを見ていきます。

方法の概要と実験結果

エンコーダー、コンバーター、ボコーダー構造に従った kNN-VC のアーキテクチャ図を以下に示します。まず、エンコーダーがソース音声と参照音声の自己教師表現を抽出し、次にトランスフォーマーが各ソース フレームを参照内の最も近い隣接フレームにマッピングし、最後にボコーダーが変換された特徴に基づいてオーディオ波形を生成します。

エンコーダーは WavLM を使用し、コンバーターは K 最近傍回帰を使用し、ボコーダーは HiFiGAN を使用します。トレーニングが必要な唯一のコンポーネントはボコーダーです。

WavLM エンコーダーについては、研究者は事前トレーニング済みの WavLM-Large モデルのみを使用し、この論文ではトレーニングは実行していません。 kNN 変換モデルの場合、kNN は非パラメトリックであり、トレーニングは必要ありません。 HiFiGAN ボコーダーの場合、元の HiFiGAN 作成者のリポジトリを使用して WavLM 機能をボコードします。これは、トレーニングが必要な唯一の部分になります。

写真

実験では、研究者らはまず KNN-VC を他のベースライン手法と比較し、利用可能な最大のターゲット データ (話者 1 人あたり約 8 分の音声) を使用して音声変換システムをテストしました。

KNN-VC の場合、すべてのターゲット データをマッチング セットとして使用します。ベースライン方式では、各ターゲット発話について話者の埋め込みを平均化します。

以下の表 1 は、各モデルの明瞭度、自然さ、話者の類似性の結果を示しています。ご覧のとおり、kNN-VC は、最良のベースライン FreeVC と同様の自然さと明瞭さを実現しますが、話者の類似性が大幅に向上しています。これは、この記事の主張を裏付けるものでもあり、高品質の音声変換には複雑さを増す必要はない。

さらに研究者たちは、事前にマッチングされたデータでトレーニングされた HiFi-GAN によってどの程度の改善がもたらされるのか、また、ターゲット話者データのサイズが明瞭度と話者の類似性にどの程度影響するのかを理解したいと考えています。

下の図 2 は、異なるターゲット スピーカー サイズでの 2 つの HiFi-GAN バリアントの WER (小さいほど良い) と EER (高いほど良い) の関係を示しています。

写真

ネットユーザーからの熱いコメント

この「最近傍のみを使用する」新しい音声変換方法 kNN-VC に関して、記事では事前学習済みの音声モデルを使用しているため、「のみ」という言葉はあまり正確ではないと考える人もいます。しかし、kNN-VC が他のモデルよりも単純であることは否定できません。

また、この結果は、kNN-VC が非常に複雑な any-to-any 音声変換方法と比較して、最高ではないにしても同等に効果的であることを示しています。

写真

他の人は、人間の声と犬の鳴き声が入れ替わる例は非常に興味深いと述べました。

写真

<<: 

>>:  人類の未来における人工知能の重要性

ブログ    
ブログ    
ブログ    

推薦する

RPAを成功させる方法

ロボティック プロセス オートメーション (RPA) は、ルールベースのプロセスを使用して、人間より...

データだけ? 2018 年の AI 予測トップ 5

[[213487]] 2017年、人工知能(AI)は職場でも家庭でも、ほとんどの人々の日常生活の一...

無料の Python 機械学習コース 5: 多クラス分類ロジスティック回帰

ロジスティック回帰の2つの方法:勾配降下法と最適化関数ロジスティック回帰は非常に人気のある機械学習手...

...

OpenAI CEO: GPT-4 は週当たり 1 億人のアクティブ ユーザーを抱え、依然として世界で最も強力な AI モデルです

米国現地時間11月7日月曜日に開催された第1回OpenAI開発者会議で、同社CEOのサム・アルトマン...

...

...

ガイドはここにあります! GPT3.5を微調整して大規模モデルをカスタマイズしましょう!

著者 | 崔昊レビュー | Chonglou一般的なモデルは優れていますが、技術者は、独自の大規模な...

モノのインターネット(IoT)がビジネスに活力を与える:5つのビジネス事例が示すもの

モノのインターネットはさまざまな分野に浸透しており、その魅力と需要は徐々に高まっています。このテクノ...

...

...

機械学習の成功事例5つ

IT リーダーが、人工知能と機械学習を使用してビジネス上の洞察を得る方法を共有します。組織が顧客の好...

シテチがスマートシティ建設に新たな活力を注入

[51CTO.comからのオリジナル記事] モノのインターネットの台頭により、スマートハードウェアと...

...

コードを知らなくても機械学習を実現できますか?

ローコード プラットフォームは、アプリケーション、統合、およびデータの視覚化の開発の速度と品質を向上...