DAMOアカデミーが新世代の音声認識モデルDFSMNを発表し、オープンソースを発表

DAMOアカデミーが新世代の音声認識モデルDFSMNを発表し、オープンソースを発表

最近、アリババDAMOアカデミーの機械知能研究所は、新世代の音声認識モデルDFSMNを発表しました。世界最大の無料音声認識データベースLibriSpeechのデータによると、音声認識モデルDFSMNは、世界の音声認識精度記録を96.04％まで引き上げました。

DAMOアカデミー機械知能研究所の音声認識チームが音声認識モデルDFSMNの研究開発を主導し、世界中の企業や個人にオープンソースとして公開しました。最も広く使用されている LSTM モデルと比較すると、DFSMN モデルはトレーニング速度が速く、認識精度も高くなります。新しい DFSMN モデルを搭載したスマートスピーカーやスマートホームデバイスは、従来のディープラーニングトレーニングよりも 3 倍高速で、音声認識は 2 倍高速です。

雲奇会議武漢サミットでは、DFSMN音声認識モデルを搭載した「AIレジ係」と実際の店員との間で興味深い競争が行われました。騒がしい環境の中で、「AIレジ係」はユーザーの音声注文を正確に認識し、わずか49秒で34杯のコーヒーを注文しました。 DFSMN 音声認識モデルは、スマート注文受付「ウェイター」に使用されているだけでなく、上海地下鉄の券売機にも使用されています。

音声認識の著名な専門家で、西北工科大学の教授である謝磊氏は、「アリババが今回ソースを公開したDFSMNモデルは、音声認識精度の着実な向上において画期的な進歩を遂げた。これは、近年の音声認識分野におけるディープラーニングの最も代表的な成果の一つであり、世界の学術界とAI技術の応用に大きな影響を与えている」と述べた。

<<: 人工知能とビッグデータの違い

>>: 私の国のロボット産業には隠れた懸念があります。すべての関係者が協力して高品質の開発を推進します

オープンソース「AI史上最も重要な非公開会議」！マスク氏、ザッカーバーグ氏、その他のテクノロジー界の巨人が集まり、AIの将来について議論した

オープンソース「AI史上最も重要な非公開会議」！マスク氏、ザッカーバーグ氏、その他のテクノロジー界の巨人が集まり、AIの将来について議論した

ブログ

2019年のAI研究開発のホットスポットのレビュー

2019年のAI研究開発のホットスポットのレビュー

ブログ

人工知能は寒い冬を迎え、自動運転車の開発は妨げられている

人工知能は寒い冬を迎え、自動運転車の開発は妨げられている

ブログ

自動運転のゴールドラッシュ、このトラックの価値は少なくとも3000億ドル

自動運転のゴールドラッシュ、このトラックの価値は少なくとも3000億ドル

ブログ

医療や旅行など多くの分野で人工知能が導入され、生産と生活の変革が加速している。

医療や旅行など多くの分野で人工知能が導入され、生産と生活の変革が加速している。

ブログ

海外の科学者が「AI漢方」を開発：舌診断システムの精度は最大94％

海外の科学者が「AI漢方」を開発：舌診断システムの精度は最大94％

ブログ

TensorFlow が素晴らしい機械学習データセット 30 選

TensorFlow が素晴らしい機械学習データセット 30 選

ブログ

RPAテクノロジーが製造業の未来をどのように変えるか

RPAテクノロジーが製造業の未来をどのように変えるか

ブログ

ブログ

世界のAI競争は中国と米国がリード。人工知能は過大評価されているのか？

世界のAI競争は中国と米国がリード。人工知能は過大評価されているのか？

ブログ

推薦する

...

人工知能の影響でIT人材が排除されるのを事前に防ぐにはどうすればいいでしょうか？

...

20年後にはロボットが手術を行えるようになる

「1か月で10年分の変化を目撃しました。」 COVID-19パンデミック中に遠隔医療の利用が加速した...

爆発的なパフォーマンス！最新の MapEX: 既存のすべての SOTA を大幅に上回り、マップレスの認識が到来するか? ? ?

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

クロスモーダルトランスフォーマー: 高速かつ堅牢な 3D オブジェクト検出に向けて

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

大きなモデルに「深呼吸して一歩ずつ進んでください」と指示すると、驚くほど効果があります。DeepMindは、モデルに指示を与える最も効果的な方法を見つけました。

最適化はあらゆる分野で重要です。一部の最適化は初期化から始まり、その後ソリューションを繰り返し更新し...

Metaの公式Promptエンジニアリングガイド：Llama 2はより効率的

大規模言語モデル (LLM) テクノロジが成熟するにつれて、迅速なエンジニアリングがますます重要にな...

...

...

顔認識は3月15日に再び命名されました。データのプライバシーとセキュリティをどのように保護するのでしょうか?

昨日の3.15ガラでは、CCTVによって顔認識が初めて公開されました。 3月15日に顔認証が命名され...

中国移動研究所のチャン・ヤオビン氏：AI時代の技術マネージャーとして、戦闘能力とは何でしょうか？

[[260907]] [[260908]] AIはさまざまな産業に大きな変化をもたらします。よりイ...

ネットで熱い議論：感染拡大から半年でディープラーニングの求人数が激減

[[340795]]ビッグデータダイジェスト制作近年、ディープラーニングエンジニアは市場で最も人気...

ビデオ会議圧縮アルゴリズム

ビデオ会議 264 ビデオ圧縮 - SVC H.264 には、階層化されたエンコードを可能にする S...

AI研究機関OpenAIがライティングAIを開発：十分にリアルなフェイクニュースを書く

北京時間2月15日朝のニュース、ブルームバーグ通信によると、マスク氏が提唱するAI研究機関OpenA...

人工知能がとても人気ですが、機械学習とディープラーニングの違いがわかりますか?

人工知能は最近大きな注目を集めています。人工知能を実装するための技術としてディープラーニングと機械学...