DAMOアカデミーが新世代の音声認識モデルDFSMNを発表し、オープンソースを発表

DAMOアカデミーが新世代の音声認識モデルDFSMNを発表し、オープンソースを発表

最近、アリババDAMOアカデミーの機械知能研究所は、新世代の音声認識モデルDFSMNを発表しました。世界最大の無料音声認識データベースLibriSpeechのデータによると、音声認識モデルDFSMNは、世界の音声認識精度記録を96.04%まで引き上げました。

DAMOアカデミー機械知能研究所の音声認識チームが音声認識モデルDFSMNの研究開発を主導し、世界中の企業や個人にオープンソースとして公開しました。最も広く使用されている LSTM モデルと比較すると、DFSMN モデルはトレーニング速度が速く、認識精度も高くなります。新しい DFSMN モデルを搭載したスマート スピーカーやスマート ホーム デバイスは、従来のディープラーニング トレーニングよりも 3 倍高速で、音声認識は 2 倍高速です。

雲奇会議武漢サミットでは、DFSMN音声認識モデルを搭載した「AIレジ係」と実際の店員との間で興味深い競争が行われました。騒がしい環境の中で、「AIレジ係」はユーザーの音声注文を正確に認識し、わずか49秒で34杯のコーヒーを注文しました。 DFSMN 音声認識モデルは、スマート注文受付「ウェイター」に使用されているだけでなく、上海地下鉄の券売機にも使用されています。

音声認識の著名な専門家で、西北工科大学の教授である謝磊氏は、「アリババが今回ソースを公開したDFSMNモデルは、音声認識精度の着実な向上において画期的な進歩を遂げた。これは、近年の音声認識分野におけるディープラーニングの最も代表的な成果の一つであり、世界の学術界とAI技術の応用に大きな影響を与えている」と述べた。

<<:  人工知能とビッグデータの違い

>>:  私の国のロボット産業には隠れた懸念があります。すべての関係者が協力して高品質の開発を推進します

ブログ    

推薦する

...

20年後にはロボットが手術を行えるようになる

「1か月で10年分の変化を目撃しました。」 COVID-19パンデミック中に遠隔医療の利用が加速した...

クロスモーダルトランスフォーマー: 高速かつ堅牢な 3D オブジェクト検出に向けて

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

大きなモデルに「深呼吸して一歩ずつ進んでください」と指示すると、驚くほど効果があります。DeepMindは、モデルに指示を与える最も効果的な方法を見つけました。

最適化はあらゆる分野で重要です。一部の最適化は初期化から始まり、その後ソリューションを繰り返し更新し...

Metaの公式Promptエンジニアリングガイド:Llama 2はより効率的

大規模言語モデル (LLM) テクノロジが成熟するにつれて、迅速なエンジニアリングがますます重要にな...

...

...

顔認識は3月15日に再び命名されました。データのプライバシーとセキュリティをどのように保護するのでしょうか?

昨日の3.15ガラでは、CCTVによって顔認識が初めて公開されました。 3月15日に顔認証が命名され...

中国移動研究所のチャン・ヤオビン氏:AI時代の技術マネージャーとして、戦闘能力とは何でしょうか?

[[260907]] [[260908]] AIはさまざまな産業に大きな変化をもたらします。よりイ...

ネットで熱い議論:感染拡大から半年でディープラーニングの求人数が激減

[[340795]]ビッグデータダイジェスト制作近年、ディープラーニング エンジニアは市場で最も人気...

ビデオ会議圧縮アルゴリズム

ビデオ会議 264 ビデオ圧縮 - SVC H.264 には、階層化されたエンコードを可能にする S...

AI研究機関OpenAIがライティングAIを開発:十分にリアルなフェイクニュースを書く

北京時間2月15日朝のニュース、ブルームバーグ通信によると、マスク氏が提唱するAI研究機関OpenA...

人工知能がとても人気ですが、機械学習とディープラーニングの違いがわかりますか?

人工知能は最近大きな注目を集めています。人工知能を実装するための技術としてディープラーニングと機械学...