1つのモデルで2つのモダリティを解決、Google AudioPaLMは「テキスト+オーディオ」を統合:話すことも聞くこともできる大規模モデル

1つのモデルで2つのモダリティを解決、Google AudioPaLMは「テキスト+オーディオ」を統合:話すことも聞くこともできる大規模モデル

強力なパフォーマンスと汎用性を備えた大規模言語モデルは、オーディオやビデオなどの多数の大規模マルチモーダル モデルの開発を推進してきました。

言語モデルの基盤となるアーキテクチャは主に Transformer に基づいており、主にデコーダーベースであるため、他のシーケンス モダリティに適応するためにモデル アーキテクチャを大幅に調整する必要はありません。

最近、Google は、テキストとオーディオ トークンをマルチモーダルな共同語彙に統合する統合音声テキスト変換モデル AudioPaLM をリリースしました。さまざまなタスク記述タグと組み合わせることで、音声認識 (ASR)、テキスト音声合成、自動音声翻訳 (AST)、音声音声翻訳 (S2ST) など、音声とテキストが混在するあらゆるタスクでデコーダーのみのモデルをトレーニングでき、従来は異種モデルで解決されていたタスクを 1 つのアーキテクチャとトレーニング プロセスに統合します。

写真

論文リンク: https://arxiv.org/pdf/2306.12925.pdf

サンプルリンク: https://google-research.github.io/seanet/audiopalm/examples/

さらに、AudioPaLM の基盤となるアーキテクチャは大規模な Transformer モデルであるため、テキストで事前トレーニングされた大規模な言語モデルの重みを使用して初期化することができ、PaLM などのモデルの言語知識を活用できます。

実装結果に関して言えば、AudioPaLM は AST および S2ST ベンチマークで最先端の結果を達成し、ASR ベンチマークでのパフォーマンスは他のモデルに匹敵します。

AudioLM からのオーディオ キューを活用することで、AudioPaLM モデルは新しいスピーカーの音声転送で S2ST を実行でき、音声品質と音声保存の点で既存の方法よりも優れています。

AudioPaLM モデルにはゼロショット機能もあり、トレーニング中に見られなかった音声入力/ターゲット言語の組み合わせに対して AST タスクを実行できます。

オーディオパルム

研究者らは、デコーダーのみのTransformerモデルを使用してテキストと音声のトークンをモデル化しました。このモデルでは、テキストと音声はモデルに入力される前にすでにトークン化されているため、入力は単なる整数のシーケンスであり、出力時にトークン化解除されてユーザーに返されます。

写真

音声埋め込みと単語分割

オーディオの生の波形をトークンに変換するプロセスには、既存の音声表現モデルから埋め込みを抽出し、埋め込みを限られたオーディオ トークンのセットに離散化することが含まれます。

これまでの研究では、w2v-BERT モデルから埋め込みを抽出し、k 平均法を使用して量子化していましたが、この論文では、研究者らは 3 つの方式を試しました。

w2v-BERT: 純粋な英語ではなく、多言語データでトレーニングされた w2v-BERT モデルを使用します。k-means クラスタリングの前に正規化は実行されません。そうしないと、多言語環境でパフォーマンスが低下します。次に、25Hzの速度で、語彙サイズ1024のトークンを生成します。

USM-v1: より強力な 20 億パラメータの Universal Speech Model (USM) エンコーダーを使用して同様の操作を実行し、中間層から埋め込みを抽出します。

USM-v2: 補助的な ASR 損失を使用してトレーニングされ、さらに多言語をサポートするように微調整されています。

テキストのみのデコーダーを変更する

Transformer デコーダー構造では、入力と最終ソフトマックス出力層を除いて、モデリング トークンの数は関係なく、PaLM アーキテクチャでは、入力行列と出力行列の重み変数は共有され、つまり、互いに転置されます。

したがって、純粋なテキスト モデルをテキストとオーディオの両方をシミュレートできるモデルに変換するには、埋め込み行列のサイズを (t × m) から (t+a)×m に拡張するだけで済みます。ここで、t はテキスト語彙のサイズ、a はオーディオ語彙のサイズ、m は埋め込み次元です。

事前トレーニング済みのテキスト モデルを活用するために、研究者は埋め込みマトリックスに新しい行を追加して、既存のモデルのチェックポイントを変更しました。

具体的な実装では、最初の t トークンが SentencePiece テキスト タグに対応し、次の a トークンがオーディオ タグを表します。テキスト埋め込みでは事前トレーニング済みの重みが再利用されますが、オーディオ埋め込みは新たに初期化され、トレーニングする必要があります。

実験結果によると、ゼロからの再トレーニングと比較して、テキストベースの事前トレーニング モデルは、音声とテキストのマルチモーダル タスクのパフォーマンスを向上させるのに非常に有益です。

オーディオトークンをネイティブオーディオにデコードする

オーディオ トークンからオーディオ波形を合成するために、研究者は 2 つの異なるアプローチを試しました。

1. AudioLMモデルに似た自己回帰デコード

2. SoundStormモデルに類似した非自己回帰デコード

どちらの方法でも、最初に SoundStream トークンを生成し、次に畳み込みデコーダーを使用してそれらをオーディオ波形に変換する必要があります。

研究者らは、オーディオ トークンと SoundStream トークンの両方として表される 3 秒間の音声サンプルの音声条件を使用して、Multilingual LibriSpeech でトレーニングを行いました。

元の入力音声の一部を音声条件付けとして提供することで、モデルは元の話者の音声を別の言語に翻訳するときに元の音声を保持し、元の音声が 3 秒未満の場合は繰り返し再生して空白時間を埋めることができます。

訓練ミッション

使用されるトレーニング データ セットはすべて音声テキスト データです。

1. 音声: ソース言語の音声

2. トランスクリプト: 音声データ内の音声の書き起こし

3. 翻訳された音声: オーディオ内の音声の音声翻訳

4. 翻訳されたトランスクリプト: 音声のスピーチの書き起こし

コンポーネントタスクには以下が含まれます。

1. ASR(自動音声認識):音声を書き起こして書き起こしテキストを取得します

2. AST(自動音声翻訳):音声を翻訳して翻訳されたトランスクリプトを取得します。

3. S2ST(音声翻訳):音声を翻訳して翻訳された音声を取得する

4. TTS (テキスト読み上げ): 文字起こしされたコンテンツを読み上げて音声を取得します。

5. MT(テキストからテキストへの機械翻訳):転写を翻訳して翻訳された転写テキストを取得します。

データセットは複数のタスクに使用される可能性があるため、研究者は、タスクの英語名と入力言語を指定するラベルを入力の前に付けることで、特定の入力に対してどのタスクを実行するかをモデルに通知することを選択しました。出力言語も選択できます。

たとえば、モデルにフランス語のコーパスで ASR を実行させたい場合、単語分割後の音声入力の前にラベル [ASR French] を付ける必要があります。英語で TTS タスクを実行するには、テキストの前に [TTS English] を付ける必要があります。英語からフランス語への S2ST タスクを実行するには、単語分割後の英語の音声の前に [S2ST English French] を付けます。

トレーニングミックス

研究者らは、SeqIO ライブラリを使用してトレーニング データを混合し、より大きなデータセットの重み付けを削減しました。

写真

実験セクション

写真

AudioPaLM は、AST および S2ST タスクでは他のベースライン モデルよりも優れており、ASR でも最適ではないものの非常に優れたパフォーマンスを発揮します。

研究者らは、音声コンテンツの翻訳品質の評価に加えて、AudioPaLM によって生成された言語の品質が十分高いかどうか、および異なる言語に翻訳されたときに話者の音声を維持できるかどうかも評価しました。

客観的指標

参照なしの MOS 推定器と同様の方法を使用して、オーディオ サンプルを指定すると、1 から 5 のスケールで知覚的なオーディオ品質の推定値を提供します。

研究者らは、言語間の音声転送の品質を測定するために、市販の話し手検証モデルを使用し、ソース(SoundStream でエンコード/デコード)の埋め込みと翻訳された音声間のコサイン類似度を計算しました。また、ソースオーディオからターゲットオーディオまでの音響特性(録音条件、背景ノイズ)も測定しました。

主観的評価

研究者らは、両方の研究で同じサンプルセットを使用して、生成された音声の品質と音声の類似性を評価するために 2 つの独立した研究を実施しました。

コーパスの品質はさまざまで、一部には大きな重なり合った音声(バックグラウンドで流れるテレビ番組や歌など)や極端なノイズ(マイクに擦れる衣服など)が含まれており、同様の歪み効果により人間の評価者の作業が複雑になるため、研究者は MOS 推定値が少なくとも 3.0 の入力のみを選択して事前フィルタリングすることにしました。

評価は 1 (品質が悪い、または音がまったく異なる) から 5 (品質が良い、音は同じ) までの 5 段階で提供されます。

写真

結果から、AudioPaLM は、オーディオ品質と音声の類似性に関して客観的および主観的な測定の両方でベースラインの Translatotron 2 システムを大幅に上回っていることがわかります。また、AudioPaLM は、CVSS-T の実際の合成録音よりも高品質で音声の類似性も優れており、ほとんどの指標で大幅な改善が見られます。

研究者らはまた、リソースの多いグループとリソースの少ないグループ(フランス語、ドイツ語、スペイン語、カタロニア語と他の言語)のシステムを比較しましたが、グループ間の指標に大きな違いは見つかりませんでした。

<<:  ハーバード大学コンピュータサイエンス学部の旗艦プロジェクトはAIをメンターとして採用している

>>:  ChatGPTの不正行為から逃れるのは難しいです! 99%のヒット検出、カンザス大学の新しいアルゴリズム、Cellジャーナルに掲載された研究

ブログ    
ブログ    
ブログ    

推薦する

...

中国聯通の専門家:5Gは5つの側面からAIを取り入れるべき

5Gは大規模なアンテナシステムと超高密度ネットワーク技術を採用し、スペクトル共有やD2Dなどの複雑な...

基本モデル+ロボットの開発軌跡を見通すレビュー

ロボット工学は、特にスマートテクノロジーと組み合わせると、無限の可能性を秘めたテクノロジーです。近年...

ネットユーザーの83%を騙した!画像生成の頂点、DALL-E 2 は実際にチューリングテストに合格したのか?

数日前、休暇中だったネットユーザーが「DALL-E 2」にアクセスできたことを知った。 2秒間考えた...

生画像の新しい「マルチモーダル」AIテキストレンダリングはMidjourney + DALL·E 3に勝る!Karpathyが5億元の資金調達に投資

「10人のチームを持ち、年間売上高が1億ドルを超えるスタートアップ」を輩出する道として、文芸グラフィ...

Google Cloud データベースに AI 機能が追加

Google Cloud は、顧客による人工知能アプリケーションの開発を促進するために、BigQue...

ユーザー成長シナリオでAB実験システムを構築するには何をする必要がありますか?

1. 新しいユーザーシナリオでの実験が直面する問題1. UGパノラマUGのパノラマビューです。 U...

TensorFlow が NSL ニューラル構造学習フレームワークをオープンソース化

本日、Google TensorFlow は、ニューラル グラフ学習手法を使用してグラフと構造化デー...

米国労働統計局は機械学習を使用してデータコーディングを自動化しています

政府機関には常にさまざまな文書が詰まっていますが、その多くは紙の文書であり、電子文書であっても、実際...

Rocket Launch: 効率的で軽量なネットワーク トレーニング フレームワーク

まとめクリックスルー率の推定などのオンラインリアルタイム応答システムでは、応答時間に関して非常に厳し...

21 人の専門家が語る: 2017 年の人工知能の展望

2016年はボットにとって歴史的な年でした。Facebookなどの主要プラットフォームがMessen...

この記事では人工知能とは何かを徹底的に解説します!

人工知能 (AI) は、自然科学のさまざまな分野を網羅しており、主に特定の種類の知的な人間の活動をモ...

プラットフォームの後は、モジュラーシャーシが主流になるのでしょうか?

自動車プラットフォームはどれほど重要ですか?この質問に答える必要はありません。市場で主流の自動車モデ...

人工知能の開発における主な成果は何ですか?また、どのような課題に直面していますか?

現代の人工知能は、現代の科学技術の中で最も驚くべき強力な技術の 1 つとなり、破壊的な技術でもありま...