10月30日、終了したばかりの李佳琦のライブ放送室で、オンラインショッピング客はアリババの音声ロボットを通じて初めてキャスターとのリアルタイムのインタラクションを実現した。生放送中、数十万人のユーザーが同時に音声で李佳琦の質問に答えた。最終的に、ロボットは音声認識と音声フィードバックの全プロセスを50ミリ秒以内に完了し、応答速度は従来の音声の20倍に達した。
報道によると、タオバオのライブ放送の視聴者数は数百万から数千万人に達し、ユーザーは全国に分散しており、アクセントも大きく異なります。現在主流の音声技術ソリューションでは、短時間でこれほど大量のユーザー音声に迅速に応答することが困難です。たとえば、Siriがユーザーの音声を認識する応答時間は1秒以上で、ライブ放送のシナリオでの強力なインタラクションの要件を満たすことができません。 今回、タオバオ生放送室はDAMOアカデミーの最新のモバイルオフラインエンドツーエンド音声認識技術を採用しました。新しいネットワーク構造と音声認識フレームワークに基づき、低スペックの携帯電話でも音声対話処理を50ミリ秒以内に完了できます。これは従来の音声認識より20倍高速です。さらに、この技術は発話速度の速さや強いアクセントなどの問題も解決し、難易度の高いシナリオでの音声認識エラー率が30%近く削減されます。 DAMOアカデミー音声ラボの技術専門家である万玉龍氏は、「リアルタイムの要件が極めて高いシナリオでは、従来のクラウドベースの音声ソリューションではニーズを満たすことができません。この音声技術の革新性は、認識速度と精度を同時に向上させたことにあります。音声AIモデルは各ユーザーのTaobao Live APPに展開されており、ライブ放送室に数千万人のユーザーがいても、AIが聞き逃したり判断が遅れたりすることはありません。」と述べています。 過去数年間、Alibaba Voice AI は基礎研究と応用において一連のブレークスルーを達成してきました。 2019年、アリババ音声AIはMIT Reviewの「世界のブレークスルーテクノロジートップ10」に選ばれ、リストに載った唯一の中国テクノロジー企業となった。今年7月にIDCが発表した「中国AIクラウドサービス市場半期調査レポート」によると、アリババ音声AIはクラウド音声AI市場で44%の市場シェアで第1位となった。 |
<<: 運輸省は自動運転について「技術革新を歓迎し、支持する」と回答
>>: 小さなロバが勤務中です!アリババの物流ロボットが11月11日に浙江大学菜鳥駅で荷物を配達する契約を締結
人工知能技術の発展に伴い、その用途は豊富かつ多様化しており、画像との組み合わせにおいては、AI顔認識...
人工知能は現代世界のあらゆる分野を征服しつつあります。しかし、それらはすべて私たちにとって良いことな...
シティバンクは、人工知能とデータサイエンスに基づいた実用的な分析システムをどのように構築したのでしょ...
近年、人工知能の継続的な台頭により、顔認識が広く使用されるようになり、「顔スキャン」の時代が静かに到...
2023年はGenAIの年ですが、GenAI(生成型人工知能)の採用率は期待に応えていません。ほとん...
ディープラーニングの「深さ」については、ここ数年で多くの議論がなされてきました。私の周りではさまざま...
馬文華氏は、中国科学院自動化研究所でパターン認識と人工知能の博士号を取得しました。主に画像認識、ター...
ロイター通信によると、昨日ジュネーブで開催された「AI for Good」会議で、国連国際電気通信連...
人工知能技術は企業のビジネスに応用され、夢から現実へと変わりました。実際、最近の O'Rei...
先日、陝西省西安市は「サイバーセキュリティは人々のためのものであり、サイバーセキュリティは人々に依存...
ランサムウェアは個人や企業にとって深刻な脅威になりつつありますが、人工知能はそれを軽減するのに役立ち...