アリババDAMOアカデミーが自社開発の音声認識モデルDFSMNをリリースしオープンソース化を発表

アリババDAMOアカデミーが自社開発の音声認識モデルDFSMNをリリースしオープンソース化を発表

[[232119]]

最近、アリババDAMOアカデミーの機械知能研究所は、新世代の音声認識モデルDFSMNを発表し、世界の音声認識精度記録を96.04%に引き上げました(このデータテストは、世界最大の無料音声認識データベースであるLibriSpeechに基づいています)。

このモデルの開発はDAMOアカデミーの機械知能研究所の音声認識チームが主導し、世界中の企業や個人にオープンソースとして公開することを発表しました。業界で最も広く使用されているモデルである LSTM モデルと比較すると、DFSMN モデルはトレーニング速度が速く、認識精度も高くなります。新しい DFSMN モデルを使用するスマート スピーカーやスマート ホーム デバイスでは、前世代のテクノロジーと比較して、ディープラーニングのトレーニング速度が 3 倍、音声認識速度が 2 倍向上します。

図:アリババは自社開発のDFSMN音声認識モデルをGitHubプラットフォームでオープンソース化した

先日の雲奇会議武漢サミットでは、DFSMN音声認識モデルを搭載した「AIレジ係」が実際の店員との競争の中で、騒がしい環境でもユーザーの音声注文を正確に認識し、わずか49秒で34杯のコーヒーを注文した。さらに、この音声認識技術を搭載した自動券売機も上海地下鉄で導入されている。

著名な音声認識の専門家で、西北工科大学の教授である謝磊氏は、「アリババが今回オープンソース化したDFSMNモデルは、音声認識精度の着実な向上において画期的な成果を収めた。これは近年の音声認識分野におけるディープラーニングの最も代表的な成果の一つであり、世界の学術界とAI技術の応用に大きな影響を与えている」と述べた。業界関係者は、DFSMNが従来のLSTMモデルに次ぐ、世界の音声認識分野で最も重要な音響認識モデルの1つになると期待していると述べた。

<<:  全国の大学の人工知能学科の一覧がここにあります!今年の大学入試の受験を検討していますか?

>>:  人工知能とビッグデータの違い

ブログ    
ブログ    
ブログ    

推薦する

...

人工知能の「ホットテクノロジー」をどう応用するか

人工知能が詩と連句を作曲、神経医学人工知能研究の最新の進歩、人工知能交通融合認識とデジタルツインソリ...

...

Googleの自然言語処理はさらに一歩進んで、複雑な質問に直接答えることを可能にしました。

Google 音声検索は 2008 年に開始され、4 年後には人物、場所、物に関する情報を含む「ナ...

...

AAAI2018にはアリババからの11の論文が収録され、6人の著者がメインカンファレンスでプレゼンテーションを行うよう招待されました。

2018年の初め、アリババは人工知能の分野での最新の成果を発表しました。人工知能に関するトップ学術...

...

...

人工知能のトップ10のアプリケーション

人工知能は徐々に私たちの生活に入り込み、さまざまな分野に応用され、多くの産業に莫大な経済的利益をもた...

50%-70%スリムダウン、Ctrip Taroミニプログラムサイズ削減計画

著者についてCtrip のフロントエンド開発者である Can は、現在ミニプログラムの開発に従事して...

...

...

...

人工知能の専門家:ディープラーニングは行き止まりではない

ディープラーニングは機械学習手法の一種であり、人工知能を実現するための重要な基盤です。最近、一部の学...