アリババの音声ロボットが李佳琦の生放送室に登場、その応答速度はSiriの20倍

アリババの音声ロボットが李佳琦の生放送室に登場、その応答速度はSiriの20倍

10月30日、終了したばかりの李佳琦のライブ放送室で、オンラインショッピング客はアリババの音声ロボットを通じて初めてキャスターとのリアルタイムのインタラクションを実現した。生放送中、数十万人のユーザーが同時に音声で李佳琦の質問に答えた。最終的に、ロボットは音声認識と音声フィードバックの全プロセスを50ミリ秒以内に完了し、応答速度は従来の音声の20倍に達した。


タオバオ生放送室の観客は音声を通じて李佳琦と交流します。今年のダブル11期間中、タオバオ生放送室は「音声価格推測」機能を開始しました。これは、視聴者が生放送室で音声を通じて相互に交流できるようにする機能です。例えば、キャスターが出した商品の価格を推測するタスクに、口を動かすだけで応答することができます。音声ロボットは、この対話型プロセスがスムーズに行われるかどうかを決定する鍵となります。

報道によると、タオバオのライブ放送の視聴者数は数百万から数千万人に達し、ユーザーは全国に分散しており、アクセントも大きく異なります。現在主流の音声技術ソリューションでは、短時間でこれほど大量のユーザー音声に迅速に応答することが困難です。たとえば、Siriがユーザーの音声を認識する応答時間は1秒以上で、ライブ放送のシナリオでの強力なインタラクションの要件を満たすことができません。

今回、タオバオ生放送室はDAMOアカデミーの最新のモバイルオフラインエンドツーエンド音声認識技術を採用しました。新しいネットワーク構造と音声認識フレームワークに基づき、低スペックの携帯電話でも音声対話処理を50ミリ秒以内に完了できます。これは従来の音声認識より20倍高速です。さらに、この技術は発話速度の速さや強いアクセントなどの問題も解決し、難易度の高いシナリオでの音声認識エラー率が30%近く削減されます。

DAMOアカデミー音声ラボの技術専門家である万玉龍氏は、「リアルタイムの要件が極めて高いシナリオでは、従来のクラウドベースの音声ソリューションではニーズを満たすことができません。この音声技術の革新性は、認識速度と精度を同時に向上させたことにあります。音声AIモデルは各ユーザーのTaobao Live APPに展開されており、ライブ放送室に数千万人のユーザーがいても、AIが聞き逃したり判断が遅れたりすることはありません。」と述べています。

過去数年間、Alibaba Voice AI は基礎研究と応用において一連のブレークスルーを達成してきました。 2019年、アリババ音声AIはMIT Reviewの「世界のブレークスルーテクノロジートップ10」に選ばれ、リストに載った唯一の中国テクノロジー企業となった。今年7月にIDCが発表した「中国AIクラウドサービス市場半期調査レポート」によると、アリババ音声AIはクラウド音声AI市場で44%の市場シェアで第1位となった。

<<:  運輸省は自動運転について「技術革新を歓迎し、支持する」と回答

>>:  小さなロバが勤務中です!アリババの物流ロボットが11月11日に浙江大学菜鳥駅で荷物を配達する契約を締結

ブログ    
ブログ    

推薦する

学ぶ価値のある Github 上の 7 つの AI プロジェクト

「Python を学ぶ大きな楽しみの 1 つは、人工知能を学ぶことです。Lao K が GitHub...

ピュー研究所の報告:2025年までにAIのせいで7500万人が解雇される

[[253650]]テクノロジー専門家の約 37% は、人工知能 (AI) と関連技術の進歩により、...

中飛愛威CEO曹飛氏:自動化からインテリジェンスへ、ドローン検査をよりスマートに

[51CTO.comよりオリジナル記事] 農業、電力、航空写真撮影など、多くの分野でドローンが活躍す...

自動運転マップ構築モデルを1つの記事で理解する

1 高精度地図高精度地図HDMapは自動運転において愛憎入り混じった役割を果たしており、近年、業界の...

エッジコンピューティング、人工知能、サーマルイメージング - スマートセキュリティの未来

スマート セキュリティ業界は急速に進化しており、AI と 4K がスマート カメラで普及するにつれて...

データ管理はAI革命の最大の課題となるでしょうか?

最新のデータへの投資は人工知能の拡張を成功させる上で重要ですが、調査によると、企業の半数がコストの障...

Node.jsを使用してテキストコンテンツをセグメント化し、キーワードを抽出する

Zhongcheng が翻訳した記事にはタグが付けられています。ユーザーはタグに基づいて興味のある記...

...

2021 年と自動化: 完璧な組み合わせ?

[[405206]]時が経つにつれて、技術は変化してきました。自動化に関しては、今年は徐々に成果が...

ControlNetの作者が新作を発表:数百万のデータを使ったトレーニング、レイヤー設計の先駆けとなるAI画像生成

画像を生成するための大規模なモデルがコンピュータービジョンやグラフィックスの基礎となっている一方で、...

ハードウェアとコードを分離し、APIを安定化したPyTorch Lightning 1.0.0が正式リリース

Keras と PyTorch はどちらも初心者にとても優しいディープラーニング フレームワークです...

...

7BモデルはGPT4-Vを超えます! HKUST などが「グラフ推論質問回答」データセットを公開 GITQA: 視覚的なグラフは推論能力を向上させることができます

グラフ ニューラル ネットワーク (GNN) は、グラフの構造情報を推論に活用するのに優れていますが...

ボストン・ダイナミクスの大きな黄色い犬が石油会社に加わる! 「決して疲れない」と主張する

[[314711]]ボストン・ダイナミクス社が開発したスポットは、ノルウェーの石油会社アーケル社で独...