言語間、人間の声と犬の鳴き声の相互変換をサポートし、最も近いものだけを使用するシンプルな音声変換モデルはどれほど素晴らしいか

言語間、人間の声と犬の鳴き声の相互変換をサポートし、最も近いものだけを使用するシンプルな音声変換モデルはどれほど素晴らしいか

AIが関わる音声の世界はまさに魔法のようです。ある人の声を別の人の声に置き換えるだけでなく、動物と声を交換することもできます。

音声変換の目的は、内容を変更せずにソース音声をターゲット音声に変換することであることはわかっています。最近の任意対任意の音声変換アプローチでは、自然さと話者の類似性が向上しましたが、複雑さが大幅に増加しました。つまり、トレーニングと推論のコストが高くなり、改善を評価して確立することが難しくなります。

問題は、高品質の音声変換には複雑さが必要かどうかです。南アフリカのステレンボッシュ大学の最近の論文では、数人の研究者がこの疑問を調査しました。

  • 論文アドレス: https://arxiv.org/pdf/2305.18975.pdf
  • GitHub アドレス: https://bshall.github.io/knn-vc/

この研究のハイライトは、シンプルで強力な任意対任意の音声変換方法であるK近傍音声変換(kNN-VC)を導入したことです。このプロセスでは明示的な変換モデルはトレーニングされませんが、K 最近傍回帰が単純に使用されます。

具体的には、研究者らはまず自己教師型音声表現モデルを使用してソース発話と参照発話の特徴シーケンスを抽出し、次にソース表現の各フレームを参照内の最も近い隣接フレームに置き換えることでそれらをターゲット話者に変換し、最後にニューラルボコーダーを使用して変換された特徴を合成して変換された音声を取得しました。

結果から、KNN-VC はシンプルであるにもかかわらず、いくつかのベースライン音声変換システムと比較して、主観的評価と客観的評価の両方において、明瞭度と話者の類似性において同等か、さらに向上できることがわかります。

KNN-VC音声変換の効果を実感してみましょう。まず、LibriSpeech データセット内の未知のソース話者とターゲット話者に KNN-VC を適用して音声変換を確認します。

ソースオーディオ00:11

合成音声1 00:11

合成音声2 00:11

KNN-VC は、スペイン語からドイツ語、ドイツ語から日本語、中国語からスペイン語など、言語間の音声変換もサポートしています。

オリジナル中国語00:08

ターゲットスペイン語00:05

合成音声3 00:08

さらに驚くべきことは、KNN-VC は人間の声と犬の鳴き声を交換することもできるということです。

ソース 犬の吠え声00:09

ソースボーカル00:05

合成音声4 00:08

合成音声5 00:05

次に、KNN-VC がどのように機能し、他の jixian 方式とどのように比較されるかを見ていきます。

方法の概要と実験結果

エンコーダー、コンバーター、ボコーダー構造に従った kNN-VC のアーキテクチャ図を以下に示します。まず、エンコーダーがソース音声と参照音声の自己教師表現を抽出し、次にトランスフォーマーが各ソース フレームを参照内の最も近い隣接フレームにマッピングし、最後にボコーダーが変換された特徴に基づいてオーディオ波形を生成します。

エンコーダーは WavLM を使用し、コンバーターは K 最近傍回帰を使用し、ボコーダーは HiFiGAN を使用します。トレーニングが必要な唯一のコンポーネントはボコーダーです。

WavLM エンコーダーについては、研究者は事前トレーニング済みの WavLM-Large モデルのみを使用し、この論文ではトレーニングは実行していません。 kNN 変換モデルの場合、kNN は非パラメトリックであり、トレーニングは必要ありません。 HiFiGAN ボコーダーの場合、元の HiFiGAN 作成者のリポジトリを使用して WavLM 機能をボコードします。これは、トレーニングが必要な唯一の部分になります。

写真

実験では、研究者らはまず KNN-VC を他のベースライン手法と比較し、利用可能な最大のターゲット データ (話者 1 人あたり約 8 分の音声) を使用して音声変換システムをテストしました。

KNN-VC の場合、すべてのターゲット データをマッチング セットとして使用します。ベースライン方式では、各ターゲット発話について話者の埋め込みを平均化します。

以下の表 1 は、各モデルの明瞭度、自然さ、話者の類似性の結果を示しています。ご覧のとおり、kNN-VC は、最良のベースライン FreeVC と同様の自然さと明瞭さを実現しますが、話者の類似性が大幅に向上しています。これは、この記事の主張を裏付けるものでもあり、高品質の音声変換には複雑さを増す必要はない。

さらに研究者たちは、事前にマッチングされたデータでトレーニングされた HiFi-GAN によってどの程度の改善がもたらされるのか、また、ターゲット話者データのサイズが明瞭度と話者の類似性にどの程度影響するのかを理解したいと考えています。

下の図 2 は、異なるターゲット スピーカー サイズでの 2 つの HiFi-GAN バリアントの WER (小さいほど良い) と EER (高いほど良い) の関係を示しています。

写真

ネットユーザーからの熱いコメント

この「最近傍のみを使用する」新しい音声変換方法 kNN-VC に関して、記事では事前学習済みの音声モデルを使用しているため、「のみ」という言葉はあまり正確ではないと考える人もいます。しかし、kNN-VC が他のモデルよりも単純であることは否定できません。

また、この結果は、kNN-VC が非常に複雑な any-to-any 音声変換方法と比較して、最高ではないにしても同等に効果的であることを示しています。

写真

他の人は、人間の声と犬の鳴き声が入れ替わる例は非常に興味深いと述べました。

写真

<<: 

>>:  人類の未来における人工知能の重要性

ブログ    
ブログ    

推薦する

ロボットの魚は本物の魚よりも速く泳ぎます!人間の心筋細胞から作られた紙の魚は108日間自律的に泳ぐことができる

米国のハーバード大学とエモリー大学の研究者らが協力し、ヒト幹細胞から抽出した心筋細胞を使った「人工魚...

暑い天候で火災が続発、消防ロボットが救助活動に活躍

最近、気温がどんどん上昇し、全国各地で猛暑日数や平均気温が新記録を更新するなど、さまざまな火災の危険...

AI プロジェクトを開始する前に尋ねるべき 4 つの重要な質問

今日、ますます多くの企業が人工知能プロジェクトを立ち上げていますが、成功しないプロジェクトもあります...

ヘルスケアにおける IoT と AI

IoT 対応デバイスの登場により、医療における遠隔モニタリングが可能になりました。ほぼすべての大手...

2021年、ドローン配送は高速であるだけでなく、安定している必要がある

中国国家郵政局が2020年10月に郵便業界標準「ドローン速達サービス仕様」について通知したことを覚え...

データ センターは生成 AI に対応できる準備ができていますか?

プロンプトに応じてテキスト、画像、その他のコンテンツを生成できる生成型人工知能 (AI) の企業導...

マルチモーダルな大型モデルの幻覚が 30% 減少しました。 USTCらが初の錯視補正フレームワーク「Woodpecker」を提案

視覚幻覚は、マルチモーダル大規模言語モデル (MLLM) でよく見られる典型的な問題です。簡単に言え...

...

ロボットを活用する3つの革新的な方法

[[412609]]画像ソース: https://pixabay.com/images/id-648...

機械学習の導入を容易にする 6 つのツール

「機械学習」という言葉には魔法のような雰囲気があります。機械学習は一般に一般の人々に受け入れられてい...

2021 年の人工知能のトップ 10 トレンド

コロナウイルスのパンデミック以前、AI業界は2020年に大きな成長を遂げると予想されていました。 2...

物体検出にディープラーニングを使用する方法

[51CTO.com クイック翻訳]ディープニューラルネットワークは、視覚情報を処理する強力な能力で...

...

...

データ構造とアルゴリズム: 文字列の分割とバランス

[[441873]]バランスの取れた文字列を分割するLeetCode の問題へのリンク: https...