1つのモデルで2つのモダリティを解決、Google AudioPaLMは「テキスト+オーディオ」を統合：話すことも聞くこともできる大規模モデル

強力なパフォーマンスと汎用性を備えた大規模言語モデルは、オーディオやビデオなどの多数の大規模マルチモーダルモデルの開発を推進してきました。

言語モデルの基盤となるアーキテクチャは主に Transformer に基づいており、主にデコーダーベースであるため、他のシーケンスモダリティに適応するためにモデルアーキテクチャを大幅に調整する必要はありません。

最近、Google は、テキストとオーディオトークンをマルチモーダルな共同語彙に統合する統合音声テキスト変換モデル AudioPaLM をリリースしました。さまざまなタスク記述タグと組み合わせることで、音声認識 (ASR)、テキスト音声合成、自動音声翻訳 (AST)、音声音声翻訳 (S2ST) など、音声とテキストが混在するあらゆるタスクでデコーダーのみのモデルをトレーニングでき、従来は異種モデルで解決されていたタスクを 1 つのアーキテクチャとトレーニングプロセスに統合します。

写真

論文リンク: https://arxiv.org/pdf/2306.12925.pdf

サンプルリンク: https://google-research.github.io/seanet/audiopalm/examples/

さらに、AudioPaLM の基盤となるアーキテクチャは大規模な Transformer モデルであるため、テキストで事前トレーニングされた大規模な言語モデルの重みを使用して初期化することができ、PaLM などのモデルの言語知識を活用できます。

実装結果に関して言えば、AudioPaLM は AST および S2ST ベンチマークで最先端の結果を達成し、ASR ベンチマークでのパフォーマンスは他のモデルに匹敵します。

AudioLM からのオーディオキューを活用することで、AudioPaLM モデルは新しいスピーカーの音声転送で S2ST を実行でき、音声品質と音声保存の点で既存の方法よりも優れています。

AudioPaLM モデルにはゼロショット機能もあり、トレーニング中に見られなかった音声入力/ターゲット言語の組み合わせに対して AST タスクを実行できます。

オーディオパルム

研究者らは、デコーダーのみのTransformerモデルを使用してテキストと音声のトークンをモデル化しました。このモデルでは、テキストと音声はモデルに入力される前にすでにトークン化されているため、入力は単なる整数のシーケンスであり、出力時にトークン化解除されてユーザーに返されます。

写真

音声埋め込みと単語分割

オーディオの生の波形をトークンに変換するプロセスには、既存の音声表現モデルから埋め込みを抽出し、埋め込みを限られたオーディオトークンのセットに離散化することが含まれます。

これまでの研究では、w2v-BERT モデルから埋め込みを抽出し、k 平均法を使用して量子化していましたが、この論文では、研究者らは 3 つの方式を試しました。

w2v-BERT: 純粋な英語ではなく、多言語データでトレーニングされた w2v-BERT モデルを使用します。k-means クラスタリングの前に正規化は実行されません。そうしないと、多言語環境でパフォーマンスが低下します。次に、25Hzの速度で、語彙サイズ1024のトークンを生成します。

USM-v1: より強力な 20 億パラメータの Universal Speech Model (USM) エンコーダーを使用して同様の操作を実行し、中間層から埋め込みを抽出します。

USM-v2: 補助的な ASR 損失を使用してトレーニングされ、さらに多言語をサポートするように微調整されています。

テキストのみのデコーダーを変更する

Transformer デコーダー構造では、入力と最終ソフトマックス出力層を除いて、モデリングトークンの数は関係なく、PaLM アーキテクチャでは、入力行列と出力行列の重み変数は共有され、つまり、互いに転置されます。

したがって、純粋なテキストモデルをテキストとオーディオの両方をシミュレートできるモデルに変換するには、埋め込み行列のサイズを (t × m) から (t+a)×m に拡張するだけで済みます。ここで、t はテキスト語彙のサイズ、a はオーディオ語彙のサイズ、m は埋め込み次元です。

事前トレーニング済みのテキストモデルを活用するために、研究者は埋め込みマトリックスに新しい行を追加して、既存のモデルのチェックポイントを変更しました。

具体的な実装では、最初の t トークンが SentencePiece テキストタグに対応し、次の a トークンがオーディオタグを表します。テキスト埋め込みでは事前トレーニング済みの重みが再利用されますが、オーディオ埋め込みは新たに初期化され、トレーニングする必要があります。

実験結果によると、ゼロからの再トレーニングと比較して、テキストベースの事前トレーニングモデルは、音声とテキストのマルチモーダルタスクのパフォーマンスを向上させるのに非常に有益です。

オーディオトークンをネイティブオーディオにデコードする

オーディオトークンからオーディオ波形を合成するために、研究者は 2 つの異なるアプローチを試しました。

1. AudioLMモデルに似た自己回帰デコード

2. SoundStormモデルに類似した非自己回帰デコード

どちらの方法でも、最初に SoundStream トークンを生成し、次に畳み込みデコーダーを使用してそれらをオーディオ波形に変換する必要があります。

研究者らは、オーディオトークンと SoundStream トークンの両方として表される 3 秒間の音声サンプルの音声条件を使用して、Multilingual LibriSpeech でトレーニングを行いました。

元の入力音声の一部を音声条件付けとして提供することで、モデルは元の話者の音声を別の言語に翻訳するときに元の音声を保持し、元の音声が 3 秒未満の場合は繰り返し再生して空白時間を埋めることができます。

訓練ミッション

使用されるトレーニングデータセットはすべて音声テキストデータです。

1. 音声: ソース言語の音声

2. トランスクリプト: 音声データ内の音声の書き起こし

3. 翻訳された音声: オーディオ内の音声の音声翻訳

4. 翻訳されたトランスクリプト: 音声のスピーチの書き起こし

コンポーネントタスクには以下が含まれます。

1. ASR（自動音声認識）：音声を書き起こして書き起こしテキストを取得します

2. AST（自動音声翻訳）：音声を翻訳して翻訳されたトランスクリプトを取得します。

3. S2ST（音声翻訳）：音声を翻訳して翻訳された音声を取得する

4. TTS (テキスト読み上げ): 文字起こしされたコンテンツを読み上げて音声を取得します。

5. MT（テキストからテキストへの機械翻訳）：転写を翻訳して翻訳された転写テキストを取得します。

データセットは複数のタスクに使用される可能性があるため、研究者は、タスクの英語名と入力言語を指定するラベルを入力の前に付けることで、特定の入力に対してどのタスクを実行するかをモデルに通知することを選択しました。出力言語も選択できます。

たとえば、モデルにフランス語のコーパスで ASR を実行させたい場合、単語分割後の音声入力の前にラベル [ASR French] を付ける必要があります。英語で TTS タスクを実行するには、テキストの前に [TTS English] を付ける必要があります。英語からフランス語への S2ST タスクを実行するには、単語分割後の英語の音声の前に [S2ST English French] を付けます。

トレーニングミックス

研究者らは、SeqIO ライブラリを使用してトレーニングデータを混合し、より大きなデータセットの重み付けを削減しました。

写真

実験セクション

写真

AudioPaLM は、AST および S2ST タスクでは他のベースラインモデルよりも優れており、ASR でも最適ではないものの非常に優れたパフォーマンスを発揮します。

研究者らは、音声コンテンツの翻訳品質の評価に加えて、AudioPaLM によって生成された言語の品質が十分高いかどうか、および異なる言語に翻訳されたときに話者の音声を維持できるかどうかも評価しました。

客観的指標

参照なしの MOS 推定器と同様の方法を使用して、オーディオサンプルを指定すると、1 から 5 のスケールで知覚的なオーディオ品質の推定値を提供します。

研究者らは、言語間の音声転送の品質を測定するために、市販の話し手検証モデルを使用し、ソース（SoundStream でエンコード/デコード）の埋め込みと翻訳された音声間のコサイン類似度を計算しました。また、ソースオーディオからターゲットオーディオまでの音響特性（録音条件、背景ノイズ）も測定しました。

主観的評価

研究者らは、両方の研究で同じサンプルセットを使用して、生成された音声の品質と音声の類似性を評価するために 2 つの独立した研究を実施しました。

コーパスの品質はさまざまで、一部には大きな重なり合った音声（バックグラウンドで流れるテレビ番組や歌など）や極端なノイズ（マイクに擦れる衣服など）が含まれており、同様の歪み効果により人間の評価者の作業が複雑になるため、研究者は MOS 推定値が少なくとも 3.0 の入力のみを選択して事前フィルタリングすることにしました。

評価は 1 (品質が悪い、または音がまったく異なる) から 5 (品質が良い、音は同じ) までの 5 段階で提供されます。

写真

結果から、AudioPaLM は、オーディオ品質と音声の類似性に関して客観的および主観的な測定の両方でベースラインの Translatotron 2 システムを大幅に上回っていることがわかります。また、AudioPaLM は、CVSS-T の実際の合成録音よりも高品質で音声の類似性も優れており、ほとんどの指標で大幅な改善が見られます。

研究者らはまた、リソースの多いグループとリソースの少ないグループ（フランス語、ドイツ語、スペイン語、カタロニア語と他の言語）のシステムを比較しましたが、グループ間の指標に大きな違いは見つかりませんでした。

<<: ハーバード大学コンピュータサイエンス学部の旗艦プロジェクトはAIをメンターとして採用している

>>: ChatGPTの不正行為から逃れるのは難しいです！ 99%のヒット検出、カンザス大学の新しいアルゴリズム、Cellジャーナルに掲載された研究