GoogleのオープンソースAIは92%の精度で音を区別できる

GoogleのオープンソースAIは92%の精度で音を区別できる

[[249335]]

VentureBeatによると、Googleの人工知能研究部門は音声認識において新たな進歩を遂げ、騒がしい環境でも最大92%の精度で音を区別できるようになったという。 Googleの人工知能研究部門は、「完全教師付き話者ダイアライゼーション」と題した論文でこの新しいAIシステムについて説明し、「より効率的に音声を認識できる」と述べた。

この強力な AI システムには、話者ダイアライゼーションのタスクが含まれます。これには、「いつ」から「いつ」まで「誰が」話しているかをラベル付けし、音声サンプルを一意で均質なセグメントに分割することが必要です。また、新しい話者の発話を、これまでに遭遇したことのない音声の断片と関連付けることもできます。

そのコアアルゴリズムはすでにオープンソースで利用可能です。 NIST SRE 2000 CALLHOME ベンチマークでオンライン 2 値化エラー率 (DER) 7.6% を達成しました。これは、Google が以前に使用したアプローチの 8.8% と比較して、リアルタイム アプリケーションに十分な低さです。

Google の研究者による新しいアプローチは、内部状態を使用して入力のシーケンスを処理できる機械学習モデルの一種であるリカレント ニューラル ネットワーク (RNN) を通じて、話者の埋め込み (単語やフレーズの数学的表現など) をシミュレートします。各スピーカーは独自の RNN インスタンスから開始し、新しい埋め込みが与えられると RNN の状態が継続的に更新され、システムがスピーカーによって共有される高度な知識を学習できるようになります。

「システムのすべてのコンポーネントは教師あり設定で学習できるため、高品質のタイムスタンプ付き話者ラベルトレーニングデータが利用できる場合は、教師なしシステムよりも優先されます」と研究者は論文に記している。「私たちのシステムは完全に教師ありで、タイムスタンプ付き話者ラベルの例から学習することができます。」

研究チームは今後の研究で、コンテキスト情報を統合してオフラインデコードを実行できるようにモデルを改良し、DER をさらに削減することを計画しています。研究者らはまた、音響特徴を直接モデル化して、話者ダイアライゼーションシステム全体をエンドツーエンドでトレーニングできるようにしたいと考えている。

<<:  ゼロからヒーローへ、OpenAIが深層強化学習リソースをリリース

>>:  アニメーション + 原理 + コード、トップ 10 の古典的なソート アルゴリズムを解釈する

ブログ    
ブログ    

推薦する

Sitechiは新たなブルーオーシャンを開拓し、中小企業市場に注力

Sitechi は、通信業界に特化したソフトウェア開発およびサービス プロバイダーです。業界で最も早...

人工知能のこれらの5つのトレンドが世界に影響を与えることは注目に値する。

人工知能はもはや未来の技術ではありません。私たちの日常の作業を自動化する機械はますます賢くなり、人工...

C#アルゴリズムで解決した面接の質問

C# アルゴリズムはプログラマーの面接でよく出題されますが、C# アルゴリズムを使用してそれをどのよ...

アリインデックスシステムの設計と実践

今回の講演者は、アントグループの王高航氏です。講演のテーマは、アントインデックスシステムの設計と実践...

AI CPUとMicrosoft Windows 12のリリースにより、2024年には世界のAI PC出荷台数が1,300万台を超えると予想

10月13日、Qunzhi Consultingが昨日発表した最新の調査によると、アルゴリズムとハー...

畳み込みニューラルネットワークは「グラフ」構造化データを処理できないのですか?この記事でその答えが分かります

この記事で紹介する論文は、ICML2016でのグラフへのCNNの応用に関する論文です。 ICML は...

父親が8歳の娘にディープラーニングを説明する:11の事実

「ニューラル ネットワークは数を数えるのと同じくらい簡単です」、「畳み込み層は単なるバット シグナル...

モノのインターネットのためのデータ分析とモデリング

ビッグデータ(BIGDATA)と人工知能(AI)の発展に伴い、モノのインターネット(IOT)はAIO...

Facebookの新しいAIモデルSE​​ERは自己教師学習を実現し、LeCunは最も有望だと称賛している

[[385451]]この記事はWeChatの公開アカウント「Xinzhiyuan」から転載したもので...

...

AMU-Botロボット:作物の間を移動しながら除草する

手作業による除草は時間がかかり、労力もかかりますが、除草剤を散布するのは決して環境に優しくありません...

人工知能の登場により、将来も仕事を見つけることができるのでしょうか?

そんな噂もあるんですね。ヘンリー・フォード2世(フォード・モーター社の創設者ヘンリー・フォードの孫)...

...

データのクリーニングと前処理の完全ガイド

データの前処理は、機械学習モデルを構築する際の最初の (そしておそらく最も重要な) ステップであり、...