AIリップリーディング、騒音環境でも最大75%の音声認識精度

人は話者の唇の動きを聞いて観察することで会話を認識します。

では、AI も同じことができるのでしょうか?

実際、研究によれば、視覚的な手がかりは言語学習において重要な役割を果たすことがわかっています。対照的に、AI 音声認識システムは主に音声に基づいています。そして、トレーニングには通常、数万時間分の録音など、大量のデータが必要になります。

視覚効果、特に口の動きの映像が音声認識システムのパフォーマンスを向上させるかどうかを調査します。 Meta の研究者は、人の話し方を見て聞いて学習することで言語を理解するためのフレームワークである Audio-Visual Hidden Unit BERT (AV-HuBERT) を開発しました。

Meta は、AV-HuBERT は、同じ量の文字起こしを使用する最高のオーディオビジュアル音声認識システムよりも 75% 正確であると主張しています。さらに同社によれば、AV-HuBERT はラベル付けされたデータの 10 分の 1 を使用して、これまでの最高のオーディオビジュアル音声認識システムよりも優れた性能を発揮し、オーディオビジュアルデータが不足している言語にも潜在的に役立つ可能性があるという。

「将来的には、AV-HuBERT のような AI フレームワークを使用して、パーティーや混雑した通りでのやり取りなど、騒がしい日常の状況での音声認識技術のパフォーマンスを向上させることができます」と Meta AI の研究科学者である Abdelrahman Mohamed 氏は述べています。「スマートフォンのアシスタント、拡張現実メガネ、Alexa Echo Show のようなカメラ付きスマートスピーカーも、この技術の恩恵を受けることができます。」

現在、Meta は関連コードを GitHub にオープンソース化しています。

AV-HuBERT

Meta は、唇の動きを読み取る問題に人工知能を適用した最初の企業ではありません。 2016年、オックスフォード大学の研究者らは、いくつかのテストで熟練した唇の動きを読み取る人のほぼ2倍の精度を誇り、ビデオをリアルタイムで処理できるシステムを開発した。 2017年、アルファベットのディープマインドは、何千時間ものテレビ番組を使ってシステムをトレーニングし、テストセット上の単語の約50％をエラーなく正確に翻訳することができた。これは、人間の専門家が達成した12.4％をはるかに上回る数字だ。

しかし、オックスフォードモデルとディープマインドモデルは、その後の多くの唇読み取りモデルと同様に、認識できる単語の範囲が限られています。これらのモデルでは、トレーニング用にトランスクリプトとペアになったデータセットも必要であり、ビデオ内のどのスピーカーの音声も処理できません。

少し独特なのは、AV-HuBERT が教師なし学習または自己教師学習を活用していることです。教師あり学習では、DeepMind のようなアルゴリズムは、例と特定の出力の間の根本的な関係を検出できるようになるまで、ラベル付けされた例データでトレーニングされます。たとえば、コーギーの写真を見せられたときに「犬」という単語を書くようにシステムをトレーニングすることができます。ただし、AV-HuBERT はラベルのないデータを分類する方法を自ら学習し、データを処理してその固有の構造から学習します。

AV-HuBERT は、一連の音声と唇の動きの手がかりを通じて音声を認識することを学習する点でマルチモーダルでもあります。 AV-HuBERT は、発話中の唇や歯の動きなどの手がかりと聴覚情報を組み合わせることで、これら 2 つのデータタイプ間の微妙な相関関係を捉えることができます。

オリジナルの AV-HuBERT モデルは 30 時間の TED トークビデオでトレーニングされましたが、これは以前の最先端モデルに必要だった 31,000 時間のトレーニング時間よりも大幅に短いものでした。しかし、より少ないデータでトレーニングされたにもかかわらず、話者の姿は見えても声が聞こえない状況での AV-HuBERT の単語誤り率 (WER) (音声認識性能の指標) は、旧モデルの 33.6% から 32.5% にわずかに向上しました。 (WER は誤認識された単語の数を総単語数で割って計算されます。32.5% は 30 単語につき約 1 つのエラーに相当します。) 433 時間の TED 講演のトレーニングにより、AV-HuBERT の WER はさらに 28.6% に減少しました。

AV-HuBERT がデータの構造と相関関係を十分に理解すると、研究者はラベルなしデータでさらにトレーニングできるようになりました。これにより、WER が 26.9 パーセントに低下しただけでなく、特定のアプリケーション (複数の人が同時に話しているときなど) や異なる言語のフレームワークをトレーニングするには、少量のラベル付きデータのみが必要であることが示されたと Meta は述べています。

実際、Meta は、バックグラウンドで大音量の音楽やノイズが流れているときに人の発話を認識する能力が、オーディオのみのモデルよりも AV-HuBERT の方が約 50% 優れていると主張しています。また、発話とバックグラウンドノイズが同じくらい大きい場合、AV-HuBERT は、これまでの最高のマルチモーダルモデルの 25.5% と比較して 3.2% の WER を達成しています。

潜在的なデメリット

多くの点で、AV-HuBERT は、複雑なタスクに対する教師なしのマルチモーダル技術への Meta の投資の増加を象徴しています。

Meta氏は、AV-HuBERTは「低リソース」言語向けの会話モデルを開発する可能性を開く可能性があると述べた。同社によれば、AV-HuBERT は、発話障害を持つ人々のための音声認識システムの作成や、ディープフェイクの検出、仮想現実アバターのリアルな唇の動きの生成にも使用できるという。

あらゆる側面からのデータから見ると、この新しい方法のパフォーマンスは確かに非常に印象的ですが、一部の学者は懸念も抱いています。

その中で、ワシントン大学の人工知能倫理の専門家であるオス・ケイ氏は、ダウン症や脳卒中などの病気によって顔面麻痺を患っている人にとって、唇の動きに頼った音声認識はまだ意味があるのだろうか、と言及した。

マイクロソフトとカーネギーメロン大学がAIの公平性に関する研究ロードマップを示した論文の中で、著者らは、AV-HuBERTのような顔分析システムの一部は、ダウン症、軟骨無形成症（骨の成長を妨げる）、および「特徴的な顔の違いをもたらすその他の症状」を持つ人には機能しない可能性があると指摘している。

モハメド氏は、AV-HuBERT は顔全体ではなく、唇の動きを捉えるために唇の部分だけに焦点を当てていると強調しました。彼は、ほとんどの AI モデルと同様に、AV-HuBERT のパフォーマンスは「トレーニングデータ内の多様な集団の代表的なサンプルの数に比例する」と付け加えました。

「私たちのアプローチを評価するために、2018年にオックスフォード大学の研究者が公開したTEDトークビデオで構成される、公開されているLRS3データセットを使用しました。このデータセットは障害のある話者を反映していないため、パフォーマンスが特定の割合で低下することは予想していませんでした」とモハメド氏は語った。

Metaは、「背景の雑音や話者の重なりがよくある日常のシナリオにおいて、視聴覚音声認識モデルを改善するためのベンチマークと方法の開発を継続する」と述べた。

<<: AIとブロックチェーンが壊れたサプライチェーンを修復する方法

>>: 小さなバッチがディープラーニングの一般化を高める理由