GoogleのオープンソースAIは92%の精度で音を区別できる

GoogleのオープンソースAIは92%の精度で音を区別できる

[[249335]]

VentureBeatによると、Googleの人工知能研究部門は音声認識において新たな進歩を遂げ、騒がしい環境でも最大92%の精度で音を区別できるようになったという。 Googleの人工知能研究部門は、「完全教師付き話者ダイアライゼーション」と題した論文でこの新しいAIシステムについて説明し、「より効率的に音声を認識できる」と述べた。

この強力な AI システムには、話者ダイアライゼーションのタスクが含まれます。これには、「いつ」から「いつ」まで「誰が」話しているかをラベル付けし、音声サンプルを一意で均質なセグメントに分割することが必要です。また、新しい話者の発話を、これまでに遭遇したことのない音声の断片と関連付けることもできます。

そのコアアルゴリズムはすでにオープンソースで利用可能です。 NIST SRE 2000 CALLHOME ベンチマークでオンライン 2 値化エラー率 (DER) 7.6% を達成しました。これは、Google が以前に使用したアプローチの 8.8% と比較して、リアルタイム アプリケーションに十分な低さです。

Google の研究者による新しいアプローチは、内部状態を使用して入力のシーケンスを処理できる機械学習モデルの一種であるリカレント ニューラル ネットワーク (RNN) を通じて、話者の埋め込み (単語やフレーズの数学的表現など) をシミュレートします。各スピーカーは独自の RNN インスタンスから開始し、新しい埋め込みが与えられると RNN の状態が継続的に更新され、システムがスピーカーによって共有される高度な知識を学習できるようになります。

「システムのすべてのコンポーネントは教師あり設定で学習できるため、高品質のタイムスタンプ付き話者ラベルトレーニングデータが利用できる場合は、教師なしシステムよりも優先されます」と研究者は論文に記している。「私たちのシステムは完全に教師ありで、タイムスタンプ付き話者ラベルの例から学習することができます。」

研究チームは今後の研究で、コンテキスト情報を統合してオフラインデコードを実行できるようにモデルを改良し、DER をさらに削減することを計画しています。研究者らはまた、音響特徴を直接モデル化して、話者ダイアライゼーションシステム全体をエンドツーエンドでトレーニングできるようにしたいと考えている。

<<:  ゼロからヒーローへ、OpenAIが深層強化学習リソースをリリース

>>:  アニメーション + 原理 + コード、トップ 10 の古典的なソート アルゴリズムを解釈する

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

はるか先へ! BEVHeight++: 道路脇の視覚的な 3D オブジェクト検出のための新しいソリューション!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

ワンクリックで動画をアニメーションに変換できるAIツールが人気。様々な格闘技の動きをスムーズに変換でき、無料でオンラインでプレイできます。

テキスト、画像、ビデオ、すべてをアニメーション化できます。見てください、ほんの少し前まで二人の男が格...

...

データ処理を簡単にしますか? Baidu EasyDataが初の高度なインテリジェントデータクリーニング機能をリリース

AI モデルを開発する場合、データの量と品質がモデルの有効性に直接影響します。現場でデータを収集した...

...

ビッグデータと人工知能の時代において、監査人は依然としてアイデアを持つ必要があるのでしょうか?

誰もが考えを持っており、監査人もそれぞれ心の中にさまざまな考えを持っています。表面的には、監査スキル...

メタバース、ドローン、5G…は2022年に投資する価値のあるテクノロジーになるでしょうか?

2022年は活気に満ちた春のニュースとともにやって来ます。新年はどんな機会と課題をもたらすでしょう...

第4世代ロボットが発売。Lingdong TechnologyのAMR分野における粘り強さと革新

AGV と比較すると、V-AMR ロボットの利点は、特にビジネス プロセス、倉庫の変革、展開サイクル...

朱磊博士が自動運転技術の現状と今後の動向について語る

熱狂が冷め、合理性が戻った後、自動運転業界は再び混乱に陥っています。過去1年間、資金調達、量産計画、...

AI実践者が適用すべき10のディープラーニング手法

過去 10 年間で、機械学習への関心は爆発的に高まりました。ほぼ毎日、さまざまなコンピューターサイエ...

AIがオペレーターにできること、できないこと

人工知能は重要な戦略的基盤技術として、政府、産業界、社会から高い注目を集めています。第19回党大会報...

機械学習モデルを使用して数十億のデータポイントの性別を予測する方法

[[327734]]ユーザーポートレートに基づいた広告は、広告効果を最適化し、精密なマーケティングを...

MetaはQualcommチップの使用を拒否し、そのサポートソフトウェアの成熟度に疑問を呈している

クアルコムは、計算能力とエネルギー効率の点で優れたチップを備えた、世界最大のスマートフォンプロセッサ...

クラウドコンピューティング、ビッグデータ、AI の関係と違いを 1 つの記事で理解する

クラウドコンピューティング、ビッグデータ、人工知能という言葉は誰もが聞いたことがあると思いますが、こ...