1つのモデルで2つのモダリティを解決、Google AudioPaLMは「テキスト+オーディオ」を統合:話すことも聞くこともできる大規模モデル

1つのモデルで2つのモダリティを解決、Google AudioPaLMは「テキスト+オーディオ」を統合:話すことも聞くこともできる大規模モデル

強力なパフォーマンスと汎用性を備えた大規模言語モデルは、オーディオやビデオなどの多数の大規模マルチモーダル モデルの開発を推進してきました。

言語モデルの基盤となるアーキテクチャは主に Transformer に基づいており、主にデコーダーベースであるため、他のシーケンス モダリティに適応するためにモデル アーキテクチャを大幅に調整する必要はありません。

最近、Google は、テキストとオーディオ トークンをマルチモーダルな共同語彙に統合する統合音声テキスト変換モデル AudioPaLM をリリースしました。さまざまなタスク記述タグと組み合わせることで、音声認識 (ASR)、テキスト音声合成、自動音声翻訳 (AST)、音声音声翻訳 (S2ST) など、音声とテキストが混在するあらゆるタスクでデコーダーのみのモデルをトレーニングでき、従来は異種モデルで解決されていたタスクを 1 つのアーキテクチャとトレーニング プロセスに統合します。

写真

論文リンク: https://arxiv.org/pdf/2306.12925.pdf

サンプルリンク: https://google-research.github.io/seanet/audiopalm/examples/

さらに、AudioPaLM の基盤となるアーキテクチャは大規模な Transformer モデルであるため、テキストで事前トレーニングされた大規模な言語モデルの重みを使用して初期化することができ、PaLM などのモデルの言語知識を活用できます。

実装結果に関して言えば、AudioPaLM は AST および S2ST ベンチマークで最先端の結果を達成し、ASR ベンチマークでのパフォーマンスは他のモデルに匹敵します。

AudioLM からのオーディオ キューを活用することで、AudioPaLM モデルは新しいスピーカーの音声転送で S2ST を実行でき、音声品質と音声保存の点で既存の方法よりも優れています。

AudioPaLM モデルにはゼロショット機能もあり、トレーニング中に見られなかった音声入力/ターゲット言語の組み合わせに対して AST タスクを実行できます。

オーディオパルム

研究者らは、デコーダーのみのTransformerモデルを使用してテキストと音声のトークンをモデル化しました。このモデルでは、テキストと音声はモデルに入力される前にすでにトークン化されているため、入力は単なる整数のシーケンスであり、出力時にトークン化解除されてユーザーに返されます。

写真

音声埋め込みと単語分割

オーディオの生の波形をトークンに変換するプロセスには、既存の音声表現モデルから埋め込みを抽出し、埋め込みを限られたオーディオ トークンのセットに離散化することが含まれます。

これまでの研究では、w2v-BERT モデルから埋め込みを抽出し、k 平均法を使用して量子化していましたが、この論文では、研究者らは 3 つの方式を試しました。

w2v-BERT: 純粋な英語ではなく、多言語データでトレーニングされた w2v-BERT モデルを使用します。k-means クラスタリングの前に正規化は実行されません。そうしないと、多言語環境でパフォーマンスが低下します。次に、25Hzの速度で、語彙サイズ1024のトークンを生成します。

USM-v1: より強力な 20 億パラメータの Universal Speech Model (USM) エンコーダーを使用して同様の操作を実行し、中間層から埋め込みを抽出します。

USM-v2: 補助的な ASR 損失を使用してトレーニングされ、さらに多言語をサポートするように微調整されています。

テキストのみのデコーダーを変更する

Transformer デコーダー構造では、入力と最終ソフトマックス出力層を除いて、モデリング トークンの数は関係なく、PaLM アーキテクチャでは、入力行列と出力行列の重み変数は共有され、つまり、互いに転置されます。

したがって、純粋なテキスト モデルをテキストとオーディオの両方をシミュレートできるモデルに変換するには、埋め込み行列のサイズを (t × m) から (t+a)×m に拡張するだけで済みます。ここで、t はテキスト語彙のサイズ、a はオーディオ語彙のサイズ、m は埋め込み次元です。

事前トレーニング済みのテキスト モデルを活用するために、研究者は埋め込みマトリックスに新しい行を追加して、既存のモデルのチェックポイントを変更しました。

具体的な実装では、最初の t トークンが SentencePiece テキスト タグに対応し、次の a トークンがオーディオ タグを表します。テキスト埋め込みでは事前トレーニング済みの重みが再利用されますが、オーディオ埋め込みは新たに初期化され、トレーニングする必要があります。

実験結果によると、ゼロからの再トレーニングと比較して、テキストベースの事前トレーニング モデルは、音声とテキストのマルチモーダル タスクのパフォーマンスを向上させるのに非常に有益です。

オーディオトークンをネイティブオーディオにデコードする

オーディオ トークンからオーディオ波形を合成するために、研究者は 2 つの異なるアプローチを試しました。

1. AudioLMモデルに似た自己回帰デコード

2. SoundStormモデルに類似した非自己回帰デコード

どちらの方法でも、最初に SoundStream トークンを生成し、次に畳み込みデコーダーを使用してそれらをオーディオ波形に変換する必要があります。

研究者らは、オーディオ トークンと SoundStream トークンの両方として表される 3 秒間の音声サンプルの音声条件を使用して、Multilingual LibriSpeech でトレーニングを行いました。

元の入力音声の一部を音声条件付けとして提供することで、モデルは元の話者の音声を別の言語に翻訳するときに元の音声を保持し、元の音声が 3 秒未満の場合は繰り返し再生して空白時間を埋めることができます。

訓練ミッション

使用されるトレーニング データ セットはすべて音声テキスト データです。

1. 音声: ソース言語の音声

2. トランスクリプト: 音声データ内の音声の書き起こし

3. 翻訳された音声: オーディオ内の音声の音声翻訳

4. 翻訳されたトランスクリプト: 音声のスピーチの書き起こし

コンポーネントタスクには以下が含まれます。

1. ASR(自動音声認識):音声を書き起こして書き起こしテキストを取得します

2. AST(自動音声翻訳):音声を翻訳して翻訳されたトランスクリプトを取得します。

3. S2ST(音声翻訳):音声を翻訳して翻訳された音声を取得する

4. TTS (テキスト読み上げ): 文字起こしされたコンテンツを読み上げて音声を取得します。

5. MT(テキストからテキストへの機械翻訳):転写を翻訳して翻訳された転写テキストを取得します。

データセットは複数のタスクに使用される可能性があるため、研究者は、タスクの英語名と入力言語を指定するラベルを入力の前に付けることで、特定の入力に対してどのタスクを実行するかをモデルに通知することを選択しました。出力言語も選択できます。

たとえば、モデルにフランス語のコーパスで ASR を実行させたい場合、単語分割後の音声入力の前にラベル [ASR French] を付ける必要があります。英語で TTS タスクを実行するには、テキストの前に [TTS English] を付ける必要があります。英語からフランス語への S2ST タスクを実行するには、単語分割後の英語の音声の前に [S2ST English French] を付けます。

トレーニングミックス

研究者らは、SeqIO ライブラリを使用してトレーニング データを混合し、より大きなデータセットの重み付けを削減しました。

写真

実験セクション

写真

AudioPaLM は、AST および S2ST タスクでは他のベースライン モデルよりも優れており、ASR でも最適ではないものの非常に優れたパフォーマンスを発揮します。

研究者らは、音声コンテンツの翻訳品質の評価に加えて、AudioPaLM によって生成された言語の品質が十分高いかどうか、および異なる言語に翻訳されたときに話者の音声を維持できるかどうかも評価しました。

客観的指標

参照なしの MOS 推定器と同様の方法を使用して、オーディオ サンプルを指定すると、1 から 5 のスケールで知覚的なオーディオ品質の推定値を提供します。

研究者らは、言語間の音声転送の品質を測定するために、市販の話し手検証モデルを使用し、ソース(SoundStream でエンコード/デコード)の埋め込みと翻訳された音声間のコサイン類似度を計算しました。また、ソースオーディオからターゲットオーディオまでの音響特性(録音条件、背景ノイズ)も測定しました。

主観的評価

研究者らは、両方の研究で同じサンプルセットを使用して、生成された音声の品質と音声の類似性を評価するために 2 つの独立した研究を実施しました。

コーパスの品質はさまざまで、一部には大きな重なり合った音声(バックグラウンドで流れるテレビ番組や歌など)や極端なノイズ(マイクに擦れる衣服など)が含まれており、同様の歪み効果により人間の評価者の作業が複雑になるため、研究者は MOS 推定値が少なくとも 3.0 の入力のみを選択して事前フィルタリングすることにしました。

評価は 1 (品質が悪い、または音がまったく異なる) から 5 (品質が良い、音は同じ) までの 5 段階で提供されます。

写真

結果から、AudioPaLM は、オーディオ品質と音声の類似性に関して客観的および主観的な測定の両方でベースラインの Translatotron 2 システムを大幅に上回っていることがわかります。また、AudioPaLM は、CVSS-T の実際の合成録音よりも高品質で音声の類似性も優れており、ほとんどの指標で大幅な改善が見られます。

研究者らはまた、リソースの多いグループとリソースの少ないグループ(フランス語、ドイツ語、スペイン語、カタロニア語と他の言語)のシステムを比較しましたが、グループ間の指標に大きな違いは見つかりませんでした。

<<:  ハーバード大学コンピュータサイエンス学部の旗艦プロジェクトはAIをメンターとして採用している

>>:  ChatGPTの不正行為から逃れるのは難しいです! 99%のヒット検出、カンザス大学の新しいアルゴリズム、Cellジャーナルに掲載された研究

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AISpeechの趙恒毅氏:国内のスマート音声産業は幅広い発展の見通しがある

[51CTO.comからのオリジナル記事] 人工知能の急速な発展に伴い、音声インタラクションは人工知...

パスワードを解読する方法: 暗号ハッシュアルゴリズムの識別

Q: パスワードのビットシーケンスから暗号化アルゴリズムを識別することは可能ですか? A: 外部ソー...

ホワイトボードに描くだけでコードに変換されます。AI は UI デザイナーに取って代わるのでしょうか?

「新製品のホームページについてどう思いますか?」あなたは、UI、フロントエンド、マーケティング、運...

...

人工知能が自動車業界に与える影響

自動運転車の発売が近づいており、消費者の期待は高まっており、人工知能技術は自動車業界にさらに大きな影...

ドローンを使って「国勢調査」を実施?人だけでなく動物も!

データによれば、我が国の人口は過去 10 年間にわたり緩やかな増加傾向を維持し続けており、我が国は依...

もう感情を隠せない?歩く姿勢からAIがわかる!

歩き方は人それぞれ違います。歩き方は、その時々の気分など、あなたに関する秘密を明らかにします。たとえ...

ディープラーニングの悪循環は驚くべき結果をもたらすだろう

[[191396]]カルロス・E・ペレスコンピレーション | 聖人、ワンショットオックスフォード大学...

5G+自動運転車の時代において、Car OSの主導権を握るのは誰でしょうか?

「人間の情報に対する欲求は、原始人の食欲に似ています。食物から摂取するカロリーは欲求を満たすことが...

...

パラメータ数は元の1%に過ぎません。Beiyouらは、超解像アルゴリズムを使用した高性能なビデオ伝送方法を提案しました。

[[421986]]過去数年間でインターネットビデオは爆発的な成長を遂げており、ビデオ伝送インフラ...

高度な数学の問題解決ツール:写真を撮ってアップロードすると答えがわかる。この中国の学生は驚くべきAIを作った

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

MSRAがACM TOMM 2017最優秀論文賞を受賞: 複雑でプロフェッショナルなグラフィックデザイン作業をAIに任せよう

豊富な写真と美しいレイアウトで記事を作成、編集する方法に悩んだことはありませんか?あるいは、芸術的な...

MetaはGPT-3を模倣し、OpenAIを「裏切り」、完全なモデルの重みとトレーニングコードが完全に公開される

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...