DAMOアカデミーが音声AIの新たな進歩を発表:モバイル端末でも実際の人間に近い音声対話体験を実現可能

DAMOアカデミーが音声AIの新たな進歩を発表:モバイル端末でも実際の人間に近い音声対話体験を実現可能

DAMOアカデミーは9月18日、2020年雲奇大会において、音声AI技術の最新のブレークスルーを発表しました。デバイス上の音声認識と音声合成機能が初めてクラウドに匹敵するレベルに達し、将来的には個々のユーザーがモバイル端末で実際の人間に近い音声技術を簡単に体験できるようになることを意味します。 DAMOアカデミーの最新音声技術は、Taobao Live、DingTalk Conference、AutoNavi Navigationなどのシーンで広く活用されており、現在、対外的に全面的に開放されているという。

音声 AI の中核は、機械が人間の言語を理解して話せるようにすることです。音声合成と音声認識の技術は、これらの目標を達成するための基礎となります。しかし、ここ数年、業界における音声モデルの画期的な革新がなかったため、高精度の音声対話タスクは長い間クラウドコンピューティングのパワーに依存しており、音声コマンドの処理に遅延が生じるなどの問題が避けられませんでした。

今回、DAMO Academyはアルゴリズムモデルの革新をリードし、E2E-ASRエンドツーエンド音声認識技術と新しいオンエンドKAN-TTS音声合成技術を発表し、モバイル端末で初めてクラウドに近い音声認識・合成効果を実現しました。

音声認識に関しては、DAMOアカデミーはSAN-Mネットワーク構造とSCAMAベースのストリーミングエンドツーエンド音声認識フレームワークを提案し、これによりコンピューティング効率が向上しただけでなく、難易度の高いシナリオでの音声認識エラー率が約30%削減されたと報告されています。 DAMO Academyが開発した音声認識システムは、完全にオフラインで低コストで携帯電話に導入できます。プロトタイプシステムは40MB未満で、その認識効果は100GBを超えるDAMO Academyの前世代DFSMN-CTCクラウドシステムに匹敵します。

DAMO Academyは昨年、シミュレーション率が最大97%の自社開発KAN-TTS音声合成モデルをリリースした後、モバイル端末上の音声モデルの「大幅なスリム化」を実現しました。クラウド側と比較すると、端末上のモデルサイズは101倍、コンピューティングパワーは35倍圧縮され、端末のコンピューティングパワーで実際の人間の声に近い音声を素早く再現できます。例えば、Amapは最近、DAMOアカデミーの新しい音声技術を使用して合成された、李佳琦、林志玲、肖団団などの有名人のナビゲーション音声パッケージをリリースしました。音声効果は以前よりも自然になり、ネットワークが切断されても音声ナビゲーションが中断されることはありません。

DAMO アカデミーの音声ラボの責任者である Yan Zhijie 氏は、次のように述べています。「端末での音声タスクの処理は、学界と産業界にとって常に難しい問題でした。DAMO アカデミーの最新の音声技術は、端末デバイスの機能を効果的に解き放ち、音声タスクを簡単に処理できるようにしました。端末のコンピューティング能力とクラウド コンピューティング能力の協調的なサポートにより、音声インタラクションは将来どこにでもあるようになると確信しています。」

過去数年間、アリババの音声AIは一連のブレークスルーを達成しました。 2019年、アリババ音声AIはMIT Reviewの「世界のブレークスルーテクノロジートップ10」に選ばれ、リストに載った唯一の中国テクノロジー企業となった。今年7月にIDCが発表した「中国AIクラウドサービス市場半期調査レポート」によると、アリババ音声AIはクラウド音声AI市場で44%の市場シェアで第1位となった。

<<:  ビッグデータと人工知能の関係

>>:  アリババDAMOアカデミー、世界初のマルチソース地球観測データ分析AI EARTHをリリース

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

パンデミックの中で、これらの16の業界は技術のアップグレードを緊急に必要としている

パンデミックはビジネスを混乱させ、場合によっては世界を停止させ、ほぼすべての業界が事業運営方法を再考...

1億3000万元の無人公共交通システムの調達に関する簡単な分析:車両のインターネットの商用利用の条件が整っている

最近、鄭州市鄭東新区龍湖区の無人バスシステムプロジェクトの調達入札公告が発表された。自動運転バス路線...

...

...

中国人民大学高陵人工知能学院のネイチャーサブジャーナル:マルチモーダル基本モデルを使用して汎用人工知能への移行を試みている

最近、中国人民大学高陵人工知能学院の陸志武教授、孫昊准教授、温継栄学院長教授が共同責任著者として国際...

...

...

OpenAIは、歪んだ見解なしにAIが話すようにするために、わずか80のテキストを使用している

[[405587]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

AIは人間の目で世界を見ることを学習し、人間の瞳孔の微妙なズームをシミュレートすることさえできる。

人間が世界をどのように見ているかを理解するために、コンピューターは「目を動かす」ことを学び始めていま...

パンデミックにより、AI のステータスは「欲しいもの」から「必須のもの」に変化したのでしょうか?

パンデミック以前は、AIの導入は世間の関心を集めていたものの、人々はまだAIの長所と短所、ビジネスへ...

テレンス・タオ:私の数学的経験に基づくと、室温超伝導LK-99とその再現は非常に刺激的です

昨今、室温超伝導の再現に対する世界的な熱気は衰えを知らず、さまざまな有力者が自らの見解を表明している...

スーパードライグッズ: データサイエンスの全体像を概観する記事: 法則、アルゴリズム、問題の種類...

Pradeep Menon 氏は、ビッグデータ、データ サイエンス、データ アーキテクチャの分野で...

...

...

人工知能が商業不動産業界にもたらす5つの変化

人工知能は、今日の商業不動産業界において非常に重要な破壊的変化をもたらします。すべての兆候から判断す...