GoogleのオープンソースAIは92%の精度で音を区別できる

GoogleのオープンソースAIは92%の精度で音を区別できる

[[249335]]

VentureBeatによると、Googleの人工知能研究部門は音声認識において新たな進歩を遂げ、騒がしい環境でも最大92%の精度で音を区別できるようになったという。 Googleの人工知能研究部門は、「完全教師付き話者ダイアライゼーション」と題した論文でこの新しいAIシステムについて説明し、「より効率的に音声を認識できる」と述べた。

この強力な AI システムには、話者ダイアライゼーションのタスクが含まれます。これには、「いつ」から「いつ」まで「誰が」話しているかをラベル付けし、音声サンプルを一意で均質なセグメントに分割することが必要です。また、新しい話者の発話を、これまでに遭遇したことのない音声の断片と関連付けることもできます。

そのコアアルゴリズムはすでにオープンソースで利用可能です。 NIST SRE 2000 CALLHOME ベンチマークでオンライン 2 値化エラー率 (DER) 7.6% を達成しました。これは、Google が以前に使用したアプローチの 8.8% と比較して、リアルタイム アプリケーションに十分な低さです。

Google の研究者による新しいアプローチは、内部状態を使用して入力のシーケンスを処理できる機械学習モデルの一種であるリカレント ニューラル ネットワーク (RNN) を通じて、話者の埋め込み (単語やフレーズの数学的表現など) をシミュレートします。各スピーカーは独自の RNN インスタンスから開始し、新しい埋め込みが与えられると RNN の状態が継続的に更新され、システムがスピーカーによって共有される高度な知識を学習できるようになります。

「システムのすべてのコンポーネントは教師あり設定で学習できるため、高品質のタイムスタンプ付き話者ラベルトレーニングデータが利用できる場合は、教師なしシステムよりも優先されます」と研究者は論文に記している。「私たちのシステムは完全に教師ありで、タイムスタンプ付き話者ラベルの例から学習することができます。」

研究チームは今後の研究で、コンテキスト情報を統合してオフラインデコードを実行できるようにモデルを改良し、DER をさらに削減することを計画しています。研究者らはまた、音響特徴を直接モデル化して、話者ダイアライゼーションシステム全体をエンドツーエンドでトレーニングできるようにしたいと考えている。

<<:  ゼロからヒーローへ、OpenAIが深層強化学習リソースをリリース

>>:  アニメーション + 原理 + コード、トップ 10 の古典的なソート アルゴリズムを解釈する

ブログ    
ブログ    

推薦する

カナダ工学アカデミー会員のソン・リャン氏:将来の人工知能システムはネットワークの形で存在するだろう

12月5日、国務院の承認を得て、科学技術部と河南省政府の共催により、12月6日から8日まで河南省鄭州...

AIの進化:「テクノロジーは2つの道に分かれる」

この記事はWeChatの公開アカウント「Product Second Sister」から転載したもの...

AI が企業のランサムウェア対策やクラウド セキュリティ侵害防止にどのように役立つか

サイバーセキュリティの状況は毎年、組織が対処する必要のある新たな課題や障害をもたらしており、たとえば...

NVIDIA が 2023 年のトップ 10 研究プロジェクトを公式に発表しました。 「Neuro Angelo」はAIを使って3D仮想世界を作り出し、数秒で本物そっくりのダビデ像に変身する

2023年は人工知能が爆発的に成長する年となるでしょう。赤は人工知能、青は機械学習を表すマイクロソフ...

Transformerは画像を生成することも可能で、新しいViTGANのパフォーマンスはCNNベースのGANに匹敵する。

[[412196]]トランスフォーマーはさまざまな自然言語タスクに急速な進歩をもたらし、最近ではコ...

ロボットをもっと速く走らせたい?人工知能で制御しよう

四足歩行ロボットはもはや誰にとっても馴染みのない存在ではないはずです。ほとんどの人はメディアや企業の...

中国の科学者が色を変えることができる柔らかいロボットを開発

ああ、これはまだ私が知っているロボットですか? 「カモフラージュして色を変える」と「柔らかく変形する...

ブロックチェーン技術は人工知能の欠点をどのように解決できるのでしょうか?

今年の618が終わったばかりですが、宅配業者だけでなく、JDのインテリジェント配達ロボットも忙しかっ...

機械学習で不均衡なデータをどのように処理しますか?

上司から、利用可能なさまざまな測定値に基づいて製品に欠陥があるかどうかを予測するモデルを作成するよう...

ガートナー、2022年の銀行・投資サービスにおける3つの注目のテクノロジートレンドを発表

ガートナーは、2022年の銀行および投資サービス業界における3つの注目の技術トレンドとして、生成型人...

大規模言語モデルの新しいレビューが発表されました。51ページの論文では、LLM分野の専門技術について説明しています。

大規模言語モデル (LLM) は、自然言語処理 (NLP) の分野で目覚ましい進歩を可能にし、幅広い...

いくつかの単純な負荷分散アルゴリズムとそのJavaコード実装

1. 負荷分散とは何ですか?負荷分散(英語名は Load Balance)とは、複数のサーバーを対称...

...

スマートホーム技術における感情AIの役割

スマートホーム テクノロジーの登場により、私たちが生活空間と関わる方法は大きく変わりました。音声制御...

...