最近、Oculus は、VR デバイスを使用する際にユーザーがよりインタラクションできるようにすることを目的として、Samsung Gear VR 仮想現実ヘルメットに「Parties」と「Rooms」という 2 つの機能を追加しました。 2016年、Facebookの創設者マーク・ザッカーバーグ氏もカンファレンスで「VRは次世代のコンピューティングプラットフォームとなり、人々を既存のオンラインソーシャルモデルを完全に覆すことになるだろう」と述べた。VRソーシャルネットワーキングの概念は大いに宣伝されているが、VRへの道はそれほど明るいものではない。まず、今日私たちが直面している問題は音声インタラクションの問題である。今日は、VR 音声インタラクションの問題についてお話します。
1. iFLYTEK音声エンジンシステム InterReco音声認識システム iFLYTEK は、世界をリードする InterReco 音声認識システムを発表しました。InterReco は、セルフサービスの音声サービスと音声検索ビジネスを推進し、音声コマース (V-Commerce) のコアとなる原動力となっています。現在、InterReco 音声認識システムは、高度なセルフサービス音声サービス ソリューションを使用して、増大する情報相談、電子取引、顧客サービスのニーズに対応できます。 InterReco ベースのソリューションにより、ユーザーは、すぐに利用できる電話を通じて、いつでもどこでも簡単かつ自然に情報やサービスを入手し、効率的で安定した便利なアプリケーション エクスペリエンスを楽しむことができます。 InterReco 音声認識システムは分散アーキテクチャを採用しており、iFlytek の実績ある通信グレード音声プラットフォームの高い安定性を継承しており、通信グレードアプリケーションの高い信頼性と高可用性の要件を満たすことができます。従来の音声認識製品の統合開発の難しさや煩雑な業務設計に対応して、InterReco 製品は統合開発と業務開発の複雑さを大幅に簡素化し、システム インテグレーターと業務開発者に便利で効率的な開発環境を提供します。 InterReco製品の主な機能モジュールと構造 InterReco 音声認識システムは、主にアプリケーション インターフェイス、認識エンジン、オペレーティング システム適応の 3 つのレベルで構成されています。これら 3 つの論理レイヤーが組み合わさって、完全な InterReco システム アーキテクチャを構成します。 アプリケーション インターフェイスは、InterReco システムによって提供される開発インターフェイスです。統合開発者は、これらのインターフェイスの定義、機能、および使用方法に注意を払う必要があります。認識エンジンは、コアとなる音声認識機能を提供し、アプリケーションインターフェースの機能実装者として機能します。同時に、 開発と使用を容易にするために、システムはこのレイヤーで一連の効率的で使いやすいツールを提供します。オペレーティング システム適応層は、複数のオペレーティング システムの複雑さを遮断し、認識エンジンにオペレーティング システムに関連する基礎的なサポートを提供します。 InterReco 音声認識システムは、その論理構成によって、認識文法 (Grammar)、認識エンジン コア (Recognizer Core)、音声エンドポイント検出 (Voice Activation Detector)、オーディオ入力 (Audio Source) の 4 つのサブシステムに分けられます。システムの主な設計と開発は、これらのサブシステムに従って実行されます。 埋め込み音声 Aisound シリーズ製品 同様に、iFLYTEK は通信グレードの組み込み音声合成技術も提供しています。組み込み音声 Aisound シリーズは、同社の世界をリードする音声合成技術であり、サイズが小さく、リソース使用量が少なく、効率が高く、主に組み込み分野の音声合成ソフトウェア モジュールに使用されています。さまざまな業界の音声放送やアプリケーションのニーズに適しています。 iFLYTEKの組み込み音声ソリューションには、主にXFS3031CNP中国語音声合成チップ、XFS4243CE中国語と英語の音声合成モジュール、XFS5152CE中国語と英語の音声合成チップ、XF-S4240中国語音声合成モジュールと他の4つの音声合成ソリューションが含まれます。これらは、車両ディスパッチャー、情報機器、気象警報機、出勤管理機、待ち行列管理機、ハンドヘルドスマートメーター、税金管理機など、さまざまな情報端末製品にうまく適用されています。さらに、音声エンジンは、幅広い組み込みプラットフォームと機能アプリケーションをサポートする軽量の音声合成ソフトウェア Aisound も提供します。 XFS3031CNP中国語音声チップシステム構造図 iFLYTEK 音声合成システムフレームワーク図 2. ユニサウンドの「遠距離音声認識技術」ソリューション 音声クラウド プラットフォームに関して、Unisound は音声認識、意味理解、音声合成という 3 つの側面で独自の技術的優位性を持っています。雲智盛はVR分野へのインタラクティブな入り口として、さまざまな日常シーンに適応できるインタラクティブ技術を重視しています。現在、雲智盛は主に音声クラウドプラットフォーム、スマートカー、スマートホーム、教育の4つの垂直分野で音声認識技術のソリューションを提供しています。 Unisound の最新の音声テクノロジー - 「デュアルマイクアレイに基づく遠距離音声認識ソリューション」。 このソリューションは、世界をリードする SSP 技術を使用して、ユーザーの音声以外のノイズや残響の影響を効果的に抑制し、95% 以上のシナリオで遠距離音のピックアップを効果的に実行できます。Unisound の遠距離音声認識エンジンと組み合わせることで、5 メートル以内の距離で正確な認識を保証します。同時に、このソリューションでは 2 つのマイクのみが必要なため、設置場所は柔軟であり、デバイスの向きを考慮する必要がありません。 Unisound の「クラウドからチップ」エコシステム Unisoundは、音声認識、意味理解、音声合成、声紋認識など、複数のコア音声技術を提供しています。Unisoundのオープンプラットフォームは、ワンストップの音声アプリケーション開発をサポートしています。音声アプリケーションを独自に作成し、対応するマッチング需要ソリューションを追加できます。プラットフォームタイプ設定を通じてSDK統合パッケージ開発を完了し、音声製品のオンラインリリースを完了できます。 3. Agora.ioリアルタイム音声システム Agora.io 音声 SDK は、世界独自の 32khz 超広帯域音質を採用しており、これは通常の電話の 4 倍の音質です。また、マルチチャンネル サウンド システムを提供し、VR 体験における「聴覚と定位」を実現し、3D サウンド効果に匹敵します。さらに重要なのは、リアルタイムの音声をゲームのバックグラウンドミュージックと完璧に統合できるため、ユーザーの臨場感が大幅に向上することです。 Agora.io は、オーディオ処理の最適化に加えて、世界中に展開された仮想通信ネットワークを利用して、ゲーム アプリケーションにスムーズで中断のない超低遅延エクスペリエンスを提供します。ネットワーク状態が悪い場合の特別な最適化により、ゲーム アプリケーションとライブ ブロードキャストのインタラクティブ性が大幅に向上します。開発者は、この「重量級の武器」をわずか 30 分で簡単に統合できます。 基本的なサウンドポジショニングを実現できないという問題に対処するため、Agora.io はマルチチャンネルサウンドシステムソリューションを開始しました。音声通話 SDK を統合することで、リアルタイムの高精細音質と 32khz オーバー帯域幅を備えた音声コーデック NOVA を取得できます。これにより、VR イメージで 3 次元サラウンド サウンドを実現し、ユーザーはあらゆる方向からの周囲の音を感じることができます。同時に、インテリジェントなエコー キャンセル機能とノイズ低減機能により、ユーザーは音を通じて空間位置を正確に特定し、優れた画像没入感を実現できます。 |
<<: 人工知能を扱うなら必ず知っておくべき音声認識技術の原理
>>: 2016年の音声認識の発展を技術的な観点から振り返る
ホーキング博士は人類に対し、人工知能に対して慎重になるよう警告し続けている。人工知能が発達すると、制...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
昨年の今頃、Red Stone は機械学習の非常に優れた実践ガイドブック「Hands-On Mach...
7B オープンソースモデル、その数学的能力は数千億規模の GPT-4 を超えます。その性能はオープン...
GPT-3で書かれた論文は通過したのでしょうか?教育リソースウェブサイトEduRefがこれに関する...
今日は対称暗号化アルゴリズムの重要な問題についてお話ししましょう。暗号化の基本的な概念に精通していな...
AI関連の学位取得者は高給を得るのが難しいとメディアが以前報じていたのとは全く対照的に、多くの応募...
オープンAIは6月29日水曜日、ロンドンに新オフィスを設立すると発表した。これは同社にとって米国外初...
自然言語処理は AI の最高峰であり、コーパス前処理は自然言語処理の基礎です。 [[336067]]...
[[208000]]ご存知のとおり、Keras-Python ライブラリを使用すると、独自のディー...
今年ドイツで開催された国際自動車・スマートモビリティ博覧会(IAA)では、Amazon、Qualco...