Meta が言語認識システムをオープンソース化、6 言語でのリップ リーディング翻訳モデル認識、誰でもローカル展開可能

Meta が言語認識システムをオープンソース化、6 言語でのリップ リーディング翻訳モデル認識、誰でもローカル展開可能

今年初めにネットで人気を博した反ギャングドラマ「光弗」をまだ覚えているだろうか。最後の数話で監督がストーリーを削除したり修正したりして、俳優たちの唇の動きとセリフがまったく一致しなくなった。

読唇術を知っていて、原作のあらすじを知るために直訳を始めた熱心なドラマファンもいました。

出典: エンターテインメント ブラック・ウィドウ

Meta は最近、AI 音声ビデオ認識システム MuAViC をオープンソース化しました。このシステムにより、数回クリックするだけで誰もが沈黙している人の言っていることを理解できるようになり、騒がしい背景でも特定の人の声を正確に識別できるようになります。

Meta は、TED/TEDx のビデオとオーディオの資料を使用して、MuAViC でデータセットを作成しました。 9 つの言語で 1,200 時間分のテキスト、音声、ビデオ資料が収録されており、英語と 6 つの言語間の双方向翻訳も含まれています。

音声認識データの詳細:

英語から6つの言語への翻訳のための資料は次のとおりです。

6つの言語から英語への翻訳資料には以下が含まれます。

このシステムについては、Mate の研究者らが既存の SOTA との比較を紹介する論文も発表しました。

出典:http://arxiv.org/pdf/2303.00628.pdf

視聴覚資料の収集

英語コーパスコレクション

英語のコーパスについては、研究者らはLRS3-TEDのオーディオビジュアルデータを再利用し、元のデータに従って分割しました。

研究者たちは、LRS3-TED の書き起こしと TED2020 の原文を照合することで、機械翻訳コーパス TED2020 からこれらの講演の人間による翻訳を見つけました。

一致した LRS3-TED の例は、TED2020 の対応するターゲット文とペアリングされ、翻訳ラベルが得られます。

研究者は、最高の精度を確保するために、開発セットとテストセットの例に対して正確なテキストマッチングを使用しました。

トレーニング セットのマッチング リコールを改善するために、研究者はあいまいなテキスト マッチング戦略を開発しました。つまり、文のペアの両側に同じ数のセグメントが含まれている場合、最初に句読点を使用して TED2020 のソース文とターゲット文を分割します。

次に、TED2020 と LRS3-TED のテキストは、句読点と小文字を削除して正規化されました。

最後に、2 つのコーパス間で正確なテキスト マッチングが実行されます。

TED2020のLRS3-TEDトレーニングセットの例に一致するものがない場合、研究者はデフォルトのデコードハイパーパラメータを使用する機械翻訳モデルM2M-100 418Mから疑似翻訳ラベルを取得しました。

英語以外のデータの収集

英語以外のデータについては、研究者らは、mTEDx が以前の研究から収集した音声のみのデータ、書き起こし、テキスト翻訳を再利用しました。また、mTEDx に従ってデータを分割しました。

これらは、元の録画のビデオ トラックを取得し、処理されたビデオ データをオーディオ データと揃えて、LRS3-TED に似たオーディオビジュアル データを形成します。

mTEDx の音声データはすべて文字起こしされていますが、翻訳されているのはサブセットのみです。

研究者らは、デフォルトのデコードハイパーパラメータを使用して、翻訳されていないトレーニングセットの例について、M2M-100 418M から疑似翻訳ラベルを取得しました。

実験

実験のセットアップ

研究者らは、オーディオビジュアル音声認識(AVSR)とオーディオビジュアル音声翻訳(AVST)のために、LRS3-TEDとVoxCeleb2の英語部分の​​組み合わせでトレーニングされた英語のAV-HuBERT大規模事前トレーニング済みモデルを使用しました。

研究者らは、AV-HuBERT 論文と同じ方法でハイパーパラメータを微調整しましたが、バイリンガル モデルを 30K 更新に、多言語 AVSR モデルを 90K 更新に微調整した点が異なります。研究者らは、それぞれ X-En AVST モデルと En-X AVST モデル用に、最初の 4K と 24K に更新された事前トレーニング済みエンコーダーを凍結しました。

AVSRテスト

静かな環境で

研究者らは、オーディオのみのモード(「A」)とオーディオビジュアル(「AV」)モードの両方で AVSR モデルを評価しました。前者は微調整と推論にオーディオ モダリティのみを活用し、後者はオーディオとビジュアルの両方のモダリティを活用します。

下の表 1 に示すように、英語 AVSR モデルのテスト ビット エラー率はそれぞれ 2.5 と 2.3 です。

英語以外の AVSR については、研究者らは、事前トレーニング済みの英語 AVHuBERT モデルを、各言語別 (8 つの単一言語モデル) または英語以外の 8 つの言語すべてに対して (多言語モデル) 微調整しました。

テストビットエラー率は以下の表2に示されています。

研究者らは、オーディオビジュアル モードでは、単一言語 AVSR モデルが平均 52% の WER 削減を達成し、同等の ASR ベースライン (Transformer、単一言語) を上回っていることを発見しました。

表1

表2

表3

騒がしい環境

表 3 の最初の部分は、高ノイズ環境における研究者の AVSR モデルのテスト ビット エラー レートを示しています。

研究者らは、SOTA 多言語 ASR モデル Whisper は、この困難な設定ではパフォーマンスが悪く、言語全体で平均ビット エラー率が 174.3 であったことを指摘しました。

比較すると、研究者の単一言語 AVSR モデルは、オーディオのみのモードでそれぞれ 70.2 と 66.7 の平均ビット エラー率を達成しました。

オーディオビジュアルモードでは、研究者のモデルは平均ビットエラー率の32%という大幅な低下を達成し、視覚情報を効果的に活用して騒がしい環境からの気を散らすものを軽減できることを実証しました。

音声のみのモードと音声と映像の両方において、研究者の多言語 AVSR モデルは、エル語を除くすべての非英語言語において単一言語モデルを上回りました。

<<:  裕福なアメリカ人の 41% は、意識をアップロードすることで不老不死を実現したいと考えています。劉慈欣の「人類の存続」は私たちの未来となるのでしょうか?

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

アマゾンが新しいAIツールを発表、数千の企業がBedrockを試すよう呼びかけ

アマゾンの幹部は7月27日、クラウドコンピューティング部門が人工知能サービス「ベッドロック」を試す顧...

生成 AI 規制: 「ディープフェイク技術」は大規模言語モデルの自由意志を実証するか?

特定のスタイルの生成 AI プロンプトを与えるということは、AI に想像力を働かせてほしいということ...

暗唱することは理解を意味するわけではない。ビッグモデルの背後にある知識の蓄積と抽出の詳細な分析

モデルのサイズが大きくなるにつれて、大規模なモデルが大量の知識を習得できる方法を模索し始めます。一つ...

顔認証決済を使用する理由は何ですか?顔認証決済は安全ですか?

顔認証決済に顔認識を使用する理由は何ですか? [[439417]]外で何かを買いたいのに、財布を持っ...

アリババが3D位置マップ圧縮アルゴリズムを革新、その論文結果がトップカンファレンスCVPR 2022に選出

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

2024年に注目すべき主要な通信技術のトレンド

通信業界は、革新的な技術の発展と顧客の要求により急速に進化しています。 2024 年は、通信業界にと...

AIが金融犯罪を予測、検出、防止する方法

調査によると、金融詐欺は個人や企業に多大な損失をもたらします。銀行は、フィンテックと競争するために機...

クロス検証は非常に重要です!

まず、クロス検証がなぜ必要なのかを理解する必要があります。クロス検証は、予測モデルのパフォーマンスと...

AIGC教育産業パノラマレポート:AIティーチングアシスタントと家庭教師が現実のものとなり、学習マシンが新たな機会をもたらす

1 年間の急速な反復を経て、業界ではすでに、生成 AI が最初にどの業界に実装されるかについての答え...

生成AIは私たちの生活をどのように変えるのでしょうか?

ChatGpt と Generative AI が登場してほぼ 1 年が経ち、AI ベースのツール...

...

...

Daguan Data: NLP の概要と自動テキスト分類アルゴリズムの詳細な説明

自然言語処理は人工知能の分野で常に重要なトピックであり、2018年も話題となりました。大量のテキスト...

AI技術は非常に高いレベルに達しており、解読と着色は非常に進歩している

画像処理の分野では、AIブラシがますます目立つようになってきています。以前、AIロスレス画像拡大、A...