AISpeechの趙恒毅氏:国内のスマート音声産業は幅広い発展の見通しがある

AISpeechの趙恒毅氏:国内のスマート音声産業は幅広い発展の見通しがある

[51CTO.comからのオリジナル記事] 人工知能の急速な発展に伴い、音声インタラクションは人工知能分野の最も初期のアプリケーションの1つとして、多くのデバイスの標準機能になり始めており、ますます多くの人々の注目を集めています。 Microsoft、Apple、IBM、AISpeech、iFlytekなど国内外のメーカーは、音声インタラクション技術の新しい戦略とアルゴリズムを開発しており、人間と音声の自然なインタラクションがますます近づいているようです。

最近、51CTOが主催した2017 WOTIグローバルイノベーションテクノロジーサミットで、記者はAISpeech副社長の趙恒毅氏にインタビューする機会に恵まれ、世界のインテリジェント音声産業の発展状況、AISpeech DUI(AISpeech Dialogue User Interface)オープンプラットフォーム、およびAISpeechの今後の開発計画について詳細な意見交換を行いました。

[[198405]]

AIS副社長 趙衡益

趙衡益氏によると、現在、Sibichenは主に車載、家庭、ロボット/ストーリーマシンなどの垂直分野における会話インタラクションに焦点を当てており、各垂直産業に応じてシナリオベースの音声技術の革新と最適化を行い、差別化された音声ソリューションを提供している。

世界のインテリジェント音声産業の現状

調査会社VoiceLabsが今年初めに発表した「2017年音声レポート」によると、音声制御スマートデバイスの販売台数は2015年と2016年に合計650万台に達し、2017年には2,450万台に達する見込みだ。

現在、国内外のほぼすべてのIT大手が人工知能の分野で積極的に展開しており、インテリジェント音声市場にも相次いで参入しており、世界のインテリジェント音声市場での競争はますます激しくなっています。海外では、アップルがイギリスの会話会社VocalIQを買収し、ケンブリッジに秘密の研究開発拠点があることを明らかにした。AISpeechの主任科学者であるYu Kai氏はケンブリッジ大学の音声学博士であり、VocalIQの創設者の一人でもあることが分かっている。IBM Watsonも英語の音声認識の分野で絶えずアップグレードし、より良い体験をもたらしている。中国では、BATがすでに人工知能の分野で包括的な手配を行っており、インテリジェント音声はその不可欠な部分となっています。専門的な音声会社として、Sibichenの垂直セグメントでの業績は非常に目を引くものです。

国内のスマート音声産業の発展について、趙衡益氏は、一方ではスマート音声産業の観点から、中国の業界全体が非常に重要な役割を果たしていると考えている。現在、中国の業界、特に音声業界の科学者の中には、黄色い肌と黒い目をした黄色人種の人がおり、中国人は業界の発展に重要な役割を果たしています。さらに、中国語は独自の研究開発ルールと特徴を持つ非常に特徴的な言語です。一方、国家の観点から見ると、わが国初の国家人工知能発展計画である「新世代人工知能発展計画」は、新世代人工知能の発展を国家戦略レベルにまで高め、国内のスマート音声産業の発展に良好な環境を提供し、中国がスマート産業をリードする機会も創出しています。

人間と機械はどうすれば会話によるやりとりをより良く実現できるでしょうか?

人工知能技術を通じて、より自然な人間とコンピュータの相互作用を実現することは、すべての企業が望んでいることです。趙衡益氏は、人間とコンピュータの相互作用は今や重要な時期に達したと述べた。モバイルインターネット技術の急速な発展により、人々はマウスとキーボードのインタラクションモードに制限されなくなり、スマート端末のタッチスクリーンのインタラクションモードを実現するようになりました。今日では、モバイルスマートデバイスの急速な発展と、スクリーンレスおよび小型化されたシナリオの開発により、自然言語によるインタラクションが必然的に主流のインタラクション手段の 1 つになるでしょう。しかし、これはまだ始まったばかりであり、Sibichen 氏は音声による対話が非常に重要な手段であると常に信じています。

趙衡益氏は次のように強調した。「音声にはコンテンツが含まれています。音声による会話を通じて、デバイスからより広い世界とつながることができます。デバイスとの良好な接続を実現したいと考えています。サービスに加えて、音声はさまざまなデバイスに接続できます。たとえば、スマートセントラルコントロールで家庭内のすべてのデバイスを制御できますが、これは非常に一般的なシナリオです。ただし、この業界ではまだ実際の接続はありません。まだ長い道のりがあります。業界の同僚は協力して、業界全体の発展を促進する必要があります。」

対話を核としたDUI開発プラットフォーム

音声によるインタラクションにより、人間とコンピュータのインタラクションが人間にとって最も自然で馴染みのある方法で行われるようになるでしょう。これが将来の知的生命にとって唯一の道です。音声業界で影響力のある企業である AISpex は、ワンストップのダイアログカスタマイズ開発プラットフォームである DUI Open Platform を立ち上げました。このプラットフォームは、同社の100人以上の技術チームである趙恒益氏によって完成され、完成までに半年以上かかりました。このプラットフォームは、専門的なスキルストア、マルチシナリオカバレッジ、ワンストップ開発、データ可視化などの利点を統合しており、一般開発者や企業ユーザーだけでなく、サードパーティのプラットフォーム企業も対象としています。音声認識、音声合成、意味理解などの基本的な技術機能を提供し、標準化されたソリューションの完全なセットをもたらし、企業が特定の製品ニーズに基づいて、より微妙なインテリジェントなインタラクションを実現するのに役立ちます。

趙衡益氏は、市場の他のプラットフォームと比較して、DUI プラットフォームの利点は、会話型カスタマイズ プラットフォームであるだけでなく、次のような点であると述べました。

まず、関連する会話をローカルでもクラウドでもカスタマイズできます。現在、音声関連のアプリケーションの多くはクラウドベースです。Sibichen DUI オープン プラットフォームは、クラウド サービスとローカル技術サービスの両方を提供します。車載アプリケーションを例にとると、DUI プラットフォームは弱い接続でも会話やアプリケーションを実現できるため、ネットワークが貧弱な環境やネットワークがない環境でも基本機能が利用可能になります。同時に、DUI プラットフォームは、音声認識、音声認識前の信号処理、音声ウェイクアップ、対話ロジックなど、多くのタスクのパラメータのカスタマイズを含むプロセス全体のカスタマイズをサポートし、対話プロセス全体のすべての技術的詳細の柔軟な設定をサポートできます。

第二に、プロセス全体が制御可能です。音声制御は単なる入り口に過ぎません。ユーザーが音声でデバイスと通信する場合、Sibichen はデバイスがどのように情報を取得するか、どのような情報やコンテンツを取得するかだけでなく、デバイス側で最終的な出発点とフィードバックをどのように形成するかについても懸念しています。実際、これらは DUI オープン プラットフォームで解決する必要があるいくつかの問題です。これらのニーズを満たすには、サードパーティのデバイス、サービス、データに接続し、バックエンドのスキルに基づいて、より多くの大規模なリソースに接続する必要があります。

3番目に、ユーザー操作を行うことができます。 DUI プラットフォームはデータの視覚化をサポートしており、AISpiche ビッグデータ チームはリアルタイムのデータ更新を実現できます。複雑なデータと基本的なデータの両方を管理および提示できます。たとえば、四半期レポートを製品開発者に送信できます。開発者が自分のアカウントをAISpeech WeChatサービスアカウントにバインドすると、携帯電話で製品のデータを表示できるため、常に製品の動作に注意を払うことができ、開発者は研究開発の反復をスピードアップし、ユーザーにさらに大きな価値を提供できるようになります。

将来を見据えて、技術基盤の強化は引き続き最優先事項である

現在、AISpeechは、Alibaba、Tencent、Xiaomi、LeTV、Ingenic、Lenovoなど、業界の多くの一流企業と協力関係を築き、AISpeechの自然言語インタラクション技術を通じて、何億人ものユーザーがスマートホーム、スマートカー、その他のスマート端末とインタラクションできるよう支援し、業界で高い評価を得ています。

AISpeechの今後2~3年の開発計画と目標について、趙衡毅氏は次のように述べた。「まず、当社は技術主導の企業であるため、技術基盤の強化が最優先事項です。当社の研究能力とコアアルゴリズム能力が業界の最前線に留まることを期待しており、それが当社の使命です。第二に、ビジネス面では、業界パートナーと協力してDUIオープンプラットフォームに基づくインタラクションを促進し、より優れた成果を上げたいと考えています。DUIプラットフォーム全体の出力が10億規模に達することを期待しています。」

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  自然言語処理にディープラーニングを使用するにはどうすればよいでしょうか?ベストプラクティスのリストはこちら

>>:  歴史上3大AI失敗事例を徹底解説

ブログ    
ブログ    

推薦する

機械学習の改善: ナレッジグラフがデータに深い意味を与える方法

コンピレーション | ブガッティ編集者 | 薛燕澤[51CTO.com クイック翻訳]多くの企業は、...

...

...

ディープラーニング思考

[[195107]]機械学習ルーチンほとんどの機械学習アルゴリズム(ディープラーニングを含む)は、実...

Pudu Technology、新製品「Hulu」をリリース、4月19日より先行販売開始

人工知能やマルチセンサー情報融合などの技術の進化により、サービスロボットは急速に発展し、さまざまな分...

ビッグデータとAIの連携

人工知能と機械学習は、組織がビッグデータからより優れたビジネス洞察を得るのにどのように役立つのでしょ...

機械学習を知っていれば十分でしょうか?次世代のデータ サイエンティストは「フル スタック」へと移行しています。

[[342168]]データサイエンスは、特にコンピューターサイエンス、統計、ビジネス分析、エンジニ...

...

DeepMind のブラック ボックス解読の第一歩: ニューラル ネットワークの認知原理は人間のものと同じであることが判明しました。

人間は、画像内の物体を認識して推論することから、超人的なレベルで Atari ゲームや囲碁をプレイす...

あなたのバイオテクノロジー研究は影響力がありますか? MITの機械学習フレームワークは期待できる

[[400942]]研究者にとって最も嬉しいことは、論文が「受理」されることです。論文が出版された後...

...

中国におけるAI人材の格差はどれほど大きいのか?教育省の学習基準では高校生にAIを学ぶことを義務付けている

[[220662]] 1956 年、ダートマス大学で開催された会議で、コンピューターの専門家であるジ...

2021 年の優れた 5 つの人工知能フレームワーク

この記事では、上位 5 つのフレームワークとライブラリを実際のアプリケーションとともに紹介したいと思...

2018 CCF BDCIコンペティションのグローバルローンチ:データ駆動型、スマートな未来

8月11日、2018年のCCFビッグデータ&Computational Intelligenceコン...

2021年に注目すべき5つのAIトレンド

リモートワークの規模拡大と、特にサイバーセキュリティに関連する企業による必要なテクノロジーの急速な導...