アリババDAMOアカデミーが自社開発の音声認識モデルDFSMNをリリースしオープンソース化を発表

アリババDAMOアカデミーが自社開発の音声認識モデルDFSMNをリリースしオープンソース化を発表

[[232119]]

最近、アリババDAMOアカデミーの機械知能研究所は、新世代の音声認識モデルDFSMNを発表し、世界の音声認識精度記録を96.04%に引き上げました(このデータテストは、世界最大の無料音声認識データベースであるLibriSpeechに基づいています)。

このモデルの開発はDAMOアカデミーの機械知能研究所の音声認識チームが主導し、世界中の企業や個人にオープンソースとして公開することを発表しました。業界で最も広く使用されているモデルである LSTM モデルと比較すると、DFSMN モデルはトレーニング速度が速く、認識精度も高くなります。新しい DFSMN モデルを使用するスマート スピーカーやスマート ホーム デバイスでは、前世代のテクノロジーと比較して、ディープラーニングのトレーニング速度が 3 倍、音声認識速度が 2 倍向上します。

図:アリババは自社開発のDFSMN音声認識モデルをGitHubプラットフォームでオープンソース化した

先日の雲奇会議武漢サミットでは、DFSMN音声認識モデルを搭載した「AIレジ係」が実際の店員との競争の中で、騒がしい環境でもユーザーの音声注文を正確に認識し、わずか49秒で34杯のコーヒーを注文した。さらに、この音声認識技術を搭載した自動券売機も上海地下鉄で導入されている。

著名な音声認識の専門家で、西北工科大学の教授である謝磊氏は、「アリババが今回オープンソース化したDFSMNモデルは、音声認識精度の着実な向上において画期的な成果を収めた。これは近年の音声認識分野におけるディープラーニングの最も代表的な成果の一つであり、世界の学術界とAI技術の応用に大きな影響を与えている」と述べた。業界関係者は、DFSMNが従来のLSTMモデルに次ぐ、世界の音声認識分野で最も重要な音響認識モデルの1つになると期待していると述べた。

<<:  全国の大学の人工知能学科の一覧がここにあります!今年の大学入試の受験を検討していますか?

>>:  人工知能とビッグデータの違い

ブログ    
ブログ    
ブログ    

推薦する

...

アルパカ科全体よりも優れたMeta AIの新しい自己アライメント手法は、人間の注釈データをほとんど必要としません

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

智恵さんはブドウを縫うことができるロボットアームを自作した。費用は1万元。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

5G+AI: 未来に影響を与える新たなトレンド

7月9日、2020年世界人工知能会議クラウドサミットが正式に開幕しました。 AI という SF 用語...

...

...

XML 圧縮アルゴリズムについての簡単な説明

XML 圧縮ユニットテストコードクラスプログラム { パブリック静的文字列XML = @"...

...

AIと機械学習がデータセンターにどのように役立つか

人工知能 (AI) には、問題を理解し解決する神秘的な力があると考える人もいます。人工知能は人々の日...

コンテナ化された機械学習モデルの作成

[[252634]]データ サイエンティストは機械学習モデルを作成した後、それを本番環境にデプロイす...

面接前に必ず読むべきソートアルゴリズムトップ10

[[419332]]導入プログラマーとして、上位 10 のソート アルゴリズムは必須であり、すべて...

...

うつ病に苦しむ5400万人の人々に直面し、600人のボランティアはAIを使って彼らを救うつもりだ

2019年、21歳の中国人学生、李凡は自身の微博に書き込みをした後、薬を飲んで自殺した。その後の調査...

AIスタートアップのRokidがKamino 18 AI音声チップをリリース、低電力ウェイクアップをサポート

昨日、国内のAIスタートアップ企業Rokidは杭州で新製品発表会を開催し、Meスマートポータブルスピ...