マスクを着用していても、AIはあなたが何を言っているか理解できる

マスクを着用していても、AIはあなたが何を言っているか理解できる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

食事をしているとき、向かいに座っている人とおしゃべりしたいのに、周りの騒音で何を言っているのかわからないことがありますか?

あるいは、聴覚障害のある人とコミュニケーションを取りたいのに、相手があなたの声を聞き取れないということはありませんか?

顔の筋肉の変化を検知できるAIが登場。口を動かしていれば、声を出さなくても何を言っているのかがわかる。

これはEMNLP 2020の最優秀論文です。カリフォルニア大学バークレー校の2人の著者がAIと電極を使用して、言いたいが声に出さない言葉を検出できる「無言音声」検出モデルを作成しました。

その原理が何なのか調べてみましょう。

電極を使ってビープ音の証拠を集める

「無言音声」の本質は、人が話すときの顔と首の筋肉の変化です。

はっきり言って、リップシンクでは音は出ないのに、顔や首でバレてしまいます。

そしてこうして「無言音声」を検知できるAIが誕生したのです。

データを収集する際、研究者はまず被験者の顔と体の他の部分に 8 つのパッチを貼ります。各パッチは、次のように「筋肉の変化を監視する」センサーです。

[[354515]]

その後、次の図に示すように、実験者の声の一部を録音し、それを筋電図と照合する必要があります (1 文あたり約 4 語と 1 文あたり約 16 語の 2 種類の音声データが録音されます)。

この方法は、筋肉の変化と発話の種類を一致させることができます。

データ記録プロセス中に、「リップシンク」筋電図の別のセクションを記録する必要がありますが、音は必要ありません。これは「サイレントスピーチ」と呼ばれます。

2 つの EMG を収集する理由は、人が声を出さずに話すときと声を出して話すときでは、筋肉の変化が多少異なるためです。たとえば、発音領域の一部の筋肉の震えの振幅が小さくなり、話す速度も変化します。

ただし、静かな環境での筋肉の変化に基づいて目的の音声を認識したい場合は、リップシンク中にサイレント筋電図検査を使用するしかありません

明らかに、これらの理由により AI のトレーニングは非常に困難になります。

認識精度を最大化するために、研究者らはモデル損失を減らすための追加構造を採用しました。

20時間弱の音声コレクションですが、かなりうまく機能しています

では、この方法でトレーニングされたモデルはどれほど効果的でしょうか?

研究者たちはこのモデルを、閉鎖語彙条件と開放語彙条件でテストした。

その中で、閉じた単語セットは主に前置詞、限定詞、接続詞、その他の単語(of、andなど)を指します。この種の語彙セットは小さく、トレーニングが容易で、AIが「筋肉記憶」を形成しやすくなります。

オープン語彙の範囲は、名詞、形容詞、その他の単語など、はるかに広く、現在では無数の単語があり、これらの単語をAIに認識させることは非常に困難です。

判定方法はWERで、具体的な計算方法は以下の通りです(原理は原文の誤り率を計算するのと同様です)。

現在、AI は閉じた単語セットで3.6%の WER (小さいほど良い) を達成しています。

オープンワードセットの検出に関しては、AIトレーニング後、WERも88%という高いレベルから68%に低下しました。

オープンワードセットに対する検出効果は完璧ではないようですが、このモデルで使用されるデータセットは大きくないことを忘れないでください。

クローズド テスト データ セットには合計1 時間未満の音声データが含まれ、オープン テスト データ セットには18.6 時間の音声データのみが含まれます。

さらに、これらの音声セットは、無音データと音声データのコレクションです。

このレベルのトレーニング効果は、20 時間未満の音声データで達成されました。

より大きなデータサンプルが利用できる場合、モデルのパフォーマンスはさらに向上します。

著者について

[[354518]]

第一著者はカリフォルニア大学バークレー校の NLP グループの David Gaddy です。彼の通常の研究対象は、教師なし学習、文法分析、無声音声です。

[[354519]]

第一著者の指導者であるダニエル・クライン氏は、教師なし学習、文法分析、情報抽出、機械翻訳に重点を置いています。

もう一つ

この EMNLP でのさまざまな NLP 研究には、改善の余地がまったくありません。

中国科学院と北京情報科学技術大学の研究者らも皮肉検出モデルを発明した。

この AI モデルは、テキストと画像を同時に検出することでマルチモーダルな意味理解を実行し、ある人物のソーシャル メディアの更新が皮肉なものかどうかを検出します。

たとえば、次のようなものです。「試合は満員でしたが、実際に席を確保できました。」

表面的には、これはまったく普通の文章ですが、絵と組み合わせると、絵のスタイルが突然奇妙になります。

[[354520]]

もう 1 つの例は、この文です。「美味しそうです。」

しかし、箱の端に散らばったチーズや具材を見ると、これがまた皮肉な発言であることは明らかです。

[[354521]]

現在、この意味情報はすべて AI に入力され、「皮肉の聞き方を知っている」モデルがトレーニングされています。

現在、このモデルはTwitterなどのソーシャルメディア上で検証されており、 84.33%という良好な効果を達成しています。

この AI モデルを見た後でも、上司の悪口を密かに言う勇気はまだあるでしょうか?

論文の宛先:
出典: arxiv.org

<<:  海外メディア:人工知能はすでに自身のミスを警告できる

>>:  AIが髪の毛に至るまで肖像画を生成!北京大学卒業生の最新研究が2.8千個の星を獲得

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

スタンフォード大学の非接触型デバイスは、アクチュエータをスリーブに「縫い付ける」ことで、タッチ情報を遠隔で送信できる。

世界的なパンデミックは2年近く続いており、リモートワークで何日も過ごし、他の人との物理的な接触を切望...

マイクロソフトは財務部門向けに特化されたAIツールをカスタマイズ

3月1日木曜日の米国時間のニュースで、マイクロソフトは企業顧客の財務部門向けの人工知能ツールを披露し...

Google AIがチューリングテストに合格、ビッグモデルドクターが登場か? GPT-4は17人の医師を困惑させた奇妙な病気を診断した

人類に利益をもたらす AGI を開発する必要がある理由の 1 つ:妻は過去 5 年間、あらゆる種類の...

AI、IoT、5Gの先進技術の背後にあるもの

代償なくして勝利はない。しかし、私たちはしばしばこのことを忘れ、即座の勝利を要求します。これは、世界...

ニューヨーク大学のチームは、自然言語を使ってチャットボットChatGPTを使ってマイクロプロセッサをゼロから設計した。

6月19日、生成型人工知能がハードウェア設計などの分野に参入し始めました。最近、ニューヨーク大学の...

ArmとHuaweiが参入し、自動運転チップの戦いでどちらが勝つかは分からない

今年、自動運転はまだ大規模な商用化には至っていないが、利益の偏在により廃業する企業、継続が困難となり...

自然言語処理の実践: 機械学習によく使われるツールとテクニック

多くの自然言語処理には機械学習が関係しているため、機械学習の基本的なツールとテクニックを理解しておく...

...

前進を続けましょう: TensorFlow 2.4 の新機能を見てみましょう。

TensorFlow 2.4 が利用可能になりました!このリリースには、新しい機能、パフォーマンス...

人間の脳の視覚処理を模倣し、ニューラルネットワークが敵対的なサンプルに対処できるようにする

ディープラーニングは、小切手や封筒に手書きされた文字しか認識できなかった時代から、長い道のりを歩んで...

人工知能がいかにして質の高い経済発展を可能にするか

[[315132]]中国科学技術院発展戦略研究員 李秀全氏へのインタビュー第1次、第2次、第3次産業...

フェデレーテッドラーニング - プライバシーの障壁を突破し、データの価値を引き出す

1. フェデレーテッドラーニングの背景従来の機械学習手法では、トレーニングのためにデータを単一のマシ...

AIの分野を深く探究しよう!新しい機能が次々と登場し、携帯電話で包括的なスマート体験を提供します

AIは人工知能の略称で、応用分野は多岐にわたります。特に急速な発展の時代において、多くの産業が新しい...

AIは現実世界に対応できる準備ができているでしょうか?

人工知能技術は、今日の状況に対応し、現実世界に適用するのに苦労しています。テクノロジーに興味があるな...

人工知能のビジネス価値を最大限に引き出すための10の重要な役割

あらゆる業界でますます多くの企業が、ビジネス プロセスを変革するために AI を導入しています。しか...