アリババDAMOアカデミーが自社開発の音声認識モデルDFSMNをリリースしオープンソース化を発表

アリババDAMOアカデミーが自社開発の音声認識モデルDFSMNをリリースしオープンソース化を発表

[[232119]]

最近、アリババDAMOアカデミーの機械知能研究所は、新世代の音声認識モデルDFSMNを発表し、世界の音声認識精度記録を96.04%に引き上げました(このデータテストは、世界最大の無料音声認識データベースであるLibriSpeechに基づいています)。

このモデルの開発はDAMOアカデミーの機械知能研究所の音声認識チームが主導し、世界中の企業や個人にオープンソースとして公開することを発表しました。業界で最も広く使用されているモデルである LSTM モデルと比較すると、DFSMN モデルはトレーニング速度が速く、認識精度も高くなります。新しい DFSMN モデルを使用するスマート スピーカーやスマート ホーム デバイスでは、前世代のテクノロジーと比較して、ディープラーニングのトレーニング速度が 3 倍、音声認識速度が 2 倍向上します。

図:アリババは自社開発のDFSMN音声認識モデルをGitHubプラットフォームでオープンソース化した

先日の雲奇会議武漢サミットでは、DFSMN音声認識モデルを搭載した「AIレジ係」が実際の店員との競争の中で、騒がしい環境でもユーザーの音声注文を正確に認識し、わずか49秒で34杯のコーヒーを注文した。さらに、この音声認識技術を搭載した自動券売機も上海地下鉄で導入されている。

著名な音声認識の専門家で、西北工科大学の教授である謝磊氏は、「アリババが今回オープンソース化したDFSMNモデルは、音声認識精度の着実な向上において画期的な成果を収めた。これは近年の音声認識分野におけるディープラーニングの最も代表的な成果の一つであり、世界の学術界とAI技術の応用に大きな影響を与えている」と述べた。業界関係者は、DFSMNが従来のLSTMモデルに次ぐ、世界の音声認識分野で最も重要な音響認識モデルの1つになると期待していると述べた。

<<:  全国の大学の人工知能学科の一覧がここにあります!今年の大学入試の受験を検討していますか?

>>:  人工知能とビッグデータの違い

ブログ    

推薦する

...

sim2realでワールドモデルを使用すると、ロボットは視覚的な想像力とインタラクティブな実験を通じて学習します

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

コーチや監督者になる...人間と機械のコラボレーションにより、AIはあなたをよりよく理解します

一見退屈で冷淡なアルゴリズムは、継続的な反復とアップグレードを経て、外界を認識でき、人間の意思決定を...

オープンソースモデル「幻覚」はより深刻です。これは3段階の幻覚検出キットです

大規模モデルには、幻覚を生成するという致命的な問題が長い間存在していました。データセットの複雑さによ...

基本モデル+ロボットの開発軌跡を見通すレビュー

ロボット工学は、特にスマートテクノロジーと組み合わせると、無限の可能性を秘めたテクノロジーです。近年...

...

顔認識はセキュリティの発展の障害になるのでしょうか?

現在、顔認識は人々の生活のあらゆる側面に組み込まれています。携帯電話のロック解除、顔をスワイプしての...

第一線のSASEがエッジAIを護衛

データの共有と流通が厳格な要求になると、もともと孤立していたビジネス ネットワークは境界を打ち破り、...

教師なし学習のための最も強力な戦略

[[279087]] MLKはMachine Learning Knowledgeの略で、機械学習の...

その本を読むのは時間の無駄だ!ロボットは北京大学入試数学テストに挑戦し、105点を獲得した。

6月7日、成都ハイテクの人工知能システム「AI-MATHS」数学大学入試ロボットが2017年度大学...

ソーシャルメディア向け AI ツール トップ 10

AI テクノロジーの台頭により、ソーシャル メディアは人間や人間のグループでは得られない洞察を提供...

「チューリップ」は、感染症予防・抑制期間中に政府情報へのアクセスを容易にするためのインテリジェントな質疑応答アシスタントを作成します。

突然の感染拡大に直面し、国民は情報の適時性、透明性、伝達効率にさらに注目するようになった。このような...

...

ハト駆除に関しては、自律型ドローンが究極の藁人形になるかもしれない

私たちはハトが大好きですが、ハトは建物やその他の構造物を汚したり、健康被害をもたらす可能性があります...