Meta が言語認識システムをオープンソース化、6 言語でのリップ リーディング翻訳モデル認識、誰でもローカル展開可能

Meta が言語認識システムをオープンソース化、6 言語でのリップ リーディング翻訳モデル認識、誰でもローカル展開可能

今年初めにネットで人気を博した反ギャングドラマ「光弗」をまだ覚えているだろうか。最後の数話で監督がストーリーを削除したり修正したりして、俳優たちの唇の動きとセリフがまったく一致しなくなった。

読唇術を知っていて、原作のあらすじを知るために直訳を始めた熱心なドラマファンもいました。

出典: エンターテインメント ブラック・ウィドウ

Meta は最近、AI 音声ビデオ認識システム MuAViC をオープンソース化しました。このシステムにより、数回クリックするだけで誰もが沈黙している人の言っていることを理解できるようになり、騒がしい背景でも特定の人の声を正確に識別できるようになります。

Meta は、TED/TEDx のビデオとオーディオの資料を使用して、MuAViC でデータセットを作成しました。 9 つの言語で 1,200 時間分のテキスト、音声、ビデオ資料が収録されており、英語と 6 つの言語間の双方向翻訳も含まれています。

音声認識データの詳細:

英語から6つの言語への翻訳のための資料は次のとおりです。

6つの言語から英語への翻訳資料には以下が含まれます。

このシステムについては、Mate の研究者らが既存の SOTA との比較を紹介する論文も発表しました。

出典:http://arxiv.org/pdf/2303.00628.pdf

視聴覚資料の収集

英語コーパスコレクション

英語のコーパスについては、研究者らはLRS3-TEDのオーディオビジュアルデータを再利用し、元のデータに従って分割しました。

研究者たちは、LRS3-TED の書き起こしと TED2020 の原文を照合することで、機械翻訳コーパス TED2020 からこれらの講演の人間による翻訳を見つけました。

一致した LRS3-TED の例は、TED2020 の対応するターゲット文とペアリングされ、翻訳ラベルが得られます。

研究者は、最高の精度を確保するために、開発セットとテストセットの例に対して正確なテキストマッチングを使用しました。

トレーニング セットのマッチング リコールを改善するために、研究者はあいまいなテキスト マッチング戦略を開発しました。つまり、文のペアの両側に同じ数のセグメントが含まれている場合、最初に句読点を使用して TED2020 のソース文とターゲット文を分割します。

次に、TED2020 と LRS3-TED のテキストは、句読点と小文字を削除して正規化されました。

最後に、2 つのコーパス間で正確なテキスト マッチングが実行されます。

TED2020のLRS3-TEDトレーニングセットの例に一致するものがない場合、研究者はデフォルトのデコードハイパーパラメータを使用する機械翻訳モデルM2M-100 418Mから疑似翻訳ラベルを取得しました。

英語以外のデータの収集

英語以外のデータについては、研究者らは、mTEDx が以前の研究から収集した音声のみのデータ、書き起こし、テキスト翻訳を再利用しました。また、mTEDx に従ってデータを分割しました。

これらは、元の録画のビデオ トラックを取得し、処理されたビデオ データをオーディオ データと揃えて、LRS3-TED に似たオーディオビジュアル データを形成します。

mTEDx の音声データはすべて文字起こしされていますが、翻訳されているのはサブセットのみです。

研究者らは、デフォルトのデコードハイパーパラメータを使用して、翻訳されていないトレーニングセットの例について、M2M-100 418M から疑似翻訳ラベルを取得しました。

実験

実験のセットアップ

研究者らは、オーディオビジュアル音声認識(AVSR)とオーディオビジュアル音声翻訳(AVST)のために、LRS3-TEDとVoxCeleb2の英語部分の​​組み合わせでトレーニングされた英語のAV-HuBERT大規模事前トレーニング済みモデルを使用しました。

研究者らは、AV-HuBERT 論文と同じ方法でハイパーパラメータを微調整しましたが、バイリンガル モデルを 30K 更新に、多言語 AVSR モデルを 90K 更新に微調整した点が異なります。研究者らは、それぞれ X-En AVST モデルと En-X AVST モデル用に、最初の 4K と 24K に更新された事前トレーニング済みエンコーダーを凍結しました。

AVSRテスト

静かな環境で

研究者らは、オーディオのみのモード(「A」)とオーディオビジュアル(「AV」)モードの両方で AVSR モデルを評価しました。前者は微調整と推論にオーディオ モダリティのみを活用し、後者はオーディオとビジュアルの両方のモダリティを活用します。

下の表 1 に示すように、英語 AVSR モデルのテスト ビット エラー率はそれぞれ 2.5 と 2.3 です。

英語以外の AVSR については、研究者らは、事前トレーニング済みの英語 AVHuBERT モデルを、各言語別 (8 つの単一言語モデル) または英語以外の 8 つの言語すべてに対して (多言語モデル) 微調整しました。

テストビットエラー率は以下の表2に示されています。

研究者らは、オーディオビジュアル モードでは、単一言語 AVSR モデルが平均 52% の WER 削減を達成し、同等の ASR ベースライン (Transformer、単一言語) を上回っていることを発見しました。

表1

表2

表3

騒がしい環境

表 3 の最初の部分は、高ノイズ環境における研究者の AVSR モデルのテスト ビット エラー レートを示しています。

研究者らは、SOTA 多言語 ASR モデル Whisper は、この困難な設定ではパフォーマンスが悪く、言語全体で平均ビット エラー率が 174.3 であったことを指摘しました。

比較すると、研究者の単一言語 AVSR モデルは、オーディオのみのモードでそれぞれ 70.2 と 66.7 の平均ビット エラー率を達成しました。

オーディオビジュアルモードでは、研究者のモデルは平均ビットエラー率の32%という大幅な低下を達成し、視覚情報を効果的に活用して騒がしい環境からの気を散らすものを軽減できることを実証しました。

音声のみのモードと音声と映像の両方において、研究者の多言語 AVSR モデルは、エル語を除くすべての非英語言語において単一言語モデルを上回りました。

<<:  裕福なアメリカ人の 41% は、意識をアップロードすることで不老不死を実現したいと考えています。劉慈欣の「人類の存続」は私たちの未来となるのでしょうか?

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AI機能をエッジに拡張する方法: ストレージが基盤となる

[[270991]]人工知能技術の復活は、ここ数年の IT に代表される計算能力の大幅な向上が主な要...

IDC: 企業の人工知能プロジェクトの半数が完全に失敗し、AI導入の道のりは困難

AIは簡単に使えますが、AIを実装するまでの道のりは簡単ではありません。企業が最大限の努力を払ってい...

「自由に眠る」にはヘッドバンドを着けるだけ | Nature サブ出版物

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

最大速度アップは20億倍! AIが物理シミュレーションエンジンに革命を起こす

[[422090]]オックスフォード大学の研究によると、機械学習モデルは従来の物理ソルバーに比べて物...

...

マイクロソフトのAI研究者が誤って38TBの内部データを漏洩

クラウド セキュリティのスタートアップ企業 Wiz の研究者は、SAS トークンの設定ミスが原因で、...

プリンストン・インフィニゲン・マトリックスが始動! AI Creatorが爆発するほどリアルな100%自然を創造

ネオは、自分が住んでいる世界が現実ではなく、綿密に設計されたシミュレーションであることを発見します。...

ザッカーバーグがAlpaca 2をベースにしたChatGPTのMetaバージョンを正式にリリース。Appleに先駆けて初のMRヘッドセットをリリース、価格は1/7以下

ChatGPT ネットワーキング モードが正式に復活しました。そして、この波は有料ユーザーだけでなく...

外国メディアエクスプレス: 初心者が習得すべき機械学習のコアアルゴリズムトップ10

[51CTO.com オリジナル記事] Foreign Media Express は、ヌカ・コー...

ネットワークケーブルに沿って登ることが現実になりました。Audio2Photorealは、対話を通じてリアルな表情や動きを生成できます

携帯電話の冷たい画面を通して友達とチャットするときは、相手の口調を推測する必要があります。彼/彼女が...

AI、BI、データ: 2020 年までに勝利するのは誰か?

10 年前、データと分析の市場には大手企業が存在しませんでした。実際、業界では「クラウド」、「ビッ...

2021年のAIに関する10の大胆な予測の科学的分析 学術見出し

2020年は忘れられない年です。今年に入って、新型コロナウイルスの感染拡大に伴い、人工知能(AI)が...

実践に最適なオープンソース機械学習プロジェクト 30 件をすぐに集めましょう。

「この記事は素晴らしいです! 実用的なプロジェクトがたくさん含まれており、機械学習を学び始めたばか...

OpenAIの人事異動で最大の勝者はオープンソースコミュニティになると予想される

米国現地時間11月20日朝、マイクロソフトは突然、OpenAIの元CEOアルトマン氏とOpenAI社...

「ブラックミラー」に匹敵する-AI技術が母親に亡くなった娘の姿を見せた

現在、外国の科学技術チームがAI技術を利用して、唯一の子供を亡くした母親の長年の願いを叶えた。彼らは...