NetEase Cloudのリアルタイムオーディオフレームワークの背後にあるアルゴリズムの最適化により、製品エクスペリエンスが全面的に向上

NetEase Cloudのリアルタイムオーディオフレームワークの背後にあるアルゴリズムの最適化により、製品エクスペリエンスが全面的に向上

2018 年 10 月 19 日、毎年恒例のオーディオおよびビデオ技術カンファレンス LiveVideoStackCon が北京で開催されました。今年のカンファレンスのテーマは「テクノロジーが新しい「視覚」の世界を切り開く」で、上級オーディオおよびビデオ技術エンジニアが集まり、オーディオ、ビデオ、イメージング、その他のテクノロジーの実践と考え方について議論します。教育セッションの基調講演で、NetEase Cloudの上級オーディオアルゴリズムエンジニアであるLi Bei氏は、NetEase Cloud NRTCがソフトウェアレベルのリアルタイムオーディオソリューションにおけるWebRTCのネイティブアルゴリズムの欠陥をどのように最適化するか、また音楽コンテンツを含む特殊なシナリオにおける新しい考え方について語りました。

[[247165]]


NetEase CloudのシニアオーディオアルゴリズムエンジニアであるLi Bei氏が基調講演を行った。

市場の急成長により、オーディオとビデオのアプリケーションシナリオが増えています。
インターネット製品からのリアルタイムオーディオおよびビデオ技術に対する需要は、数千億ドルから数百億ドル規模の市場で爆発的に増加しており、徐々に重要なインフラストラクチャ技術になりつつあります。 Li Bei 氏は、将来的にプレイアビリティがさらに探求されるにつれて、オーディオとビデオのアプリケーションにはまだまだ成長の余地があると考えています。さらに、リアルタイムオーディオおよびビデオ技術は、インターネット製品の革新と進化を促進し、製品に豊かで効率的なシーン表現を与えるとともに、リアルタイムオーディオおよびビデオ技術自体の進化も促進しました。
リアルタイムのオーディオおよびビデオ技術は、業界やアプリケーション シナリオと密接に統合する必要があります。現在そして将来的には、安定性や効率性といった技術的なパフォーマンスに対する要件に加えて、パーソナライゼーションの面でも顧客のコアな要求が高まっています。 Li Bei氏は、NetEase Cloudが自社開発のフル機能の産業グレードのオーディオおよびビデオ技術フレームワークNRTCに基づいて、多くのシナリオベースおよびターゲットを絞った技術最適化を実行し、リアルタイムオーディオアプリケーションに関する観察と考察を形成してきたことを紹介しました。

NetEase Cloud NRTC最適化アルゴリズムはWebRTCネイティブアルゴリズムの限界を補う
李北氏は、一般産業向けの現在のソフトウェア層リアルタイムオーディオフレームワークはますます成熟しているものの、解決すべき明らかな問題点が2つあると強調した。1つは、複雑で変化するネットワーク状況における弱い信号やネットワークの混雑によって引き起こされる遅延やパケット損失であり、もう1つは、端末の種類とアプリケーションシナリオの増加に伴い、異なる種類の端末デバイスと使用環境間の大きな違いにより、全体的なソリューションの適応性に対する要件が高まっていることである。コミュニケーションの目的から、一般業界ではリアルタイム オーディオに対する要件が多数あり、まず重視されるのはフレームワークのスムーズさ、低遅延、そして明らかなエコー、ノイズ、中断のない十分な音量です。上記の要件を満たすことに加えて、ほとんどの人は音質、デュアルトーク体験、その他のパフォーマンスに注目します。
では、上記の問題点を解決し、安定した動作を保証するオーディオ フレームワークをどのように設計すればよいのでしょうか? WEBRTC のオーディオ フレームワーク図を例に挙げます。

(図: WebRTC のスレッド モデルとデータ駆動型アプローチ。異なる色は異なるスレッドを表し、青い矢印はデータ駆動型アプローチを表します)

しかし、リアルタイムオーディオの安定性を確保するためには、各モジュールで注意すべき多くの問題があります。たとえば、収集されたエコーの非線形性、音量、遅延におけるシステム固有の遅延の大きさと変化などです。これらは、プラットフォームでのオーディオ収集と再生でよく見られる問題です。
オーディオの前処理の課題と WebRTC ネイティブ アルゴリズムのいくつかの欠陥により、技術者はフレームワーク全体の技術的パフォーマンスを向上させ、エンド ユーザーの製品エクスペリエンスを確保するために、さらに最適化を行う必要があります。 NetEase Cloud のフル機能の産業グレードのオーディオおよびビデオ技術フレームワーク NRTC は、これらの欠点を解決するために一連の最適化を行いました。たとえば、収集されたエコーの非線形性は、現在オンライン収集が直面している一般的な問題であり、その安定性はエコーの除去と処理効果に直接影響します。この点における WebRTC の欠点により、一部のベンダーはエコーキャンセル サービスを提供するために音量を下げざるを得なくなりました。ネイティブ WebRTC 遅延推定の安定性の問題に対応して、NetEase Cloud Communication の NRTC は遠端と近端の遅延の調整を最適化し、エコー、ノイズ、ノイズ除去における全体的なフレームワークのパフォーマンスを向上させました。
たとえば、コミュニケーション中にユーザーが発する呼吸音の収集と処理も、オーディオ フレームワークが直面する一般的な課題の 1 つです。息遣いの音はエネルギーが低く、エコーが大きく、エネルギーが中周波数と高周波数の範囲に集中しているため、通常のアルゴリズムでは処理要件を満たすことができません。 iPhone6P の気息発音におけるネイティブ WebRTC AEC と NRTC のパフォーマンスを比較すると、NRTC フレームワークを使用したアルゴリズム最適化後の効果が大幅に優れています。


iPhone6p の息切れ発音でのネイティブ WebRTC AEC と NRTC のパフォーマンス

音楽シーンにおけるリアルタイムオーディオソリューションの選択方法に関するNetEase Cloudの新しい考え方
一般的な通信シナリオにおけるオーディオおよびビデオのアプリケーションに加えて、音楽コンテンツとそのアプリケーション シナリオには、テクノロジに対するより特殊な要件があります。 Li Bei氏は、通常のシーンと比較して、音楽コンテンツのシーンにおけるサウンドに対する要件はかなり異なると紹介しました。たとえば、人間の耳は音楽に対して敏感で、音質のわずかな低下も感知できるため、サウンド処理に対する要求が高くなります。コミュニケーションを目的とした一般的なシナリオと比較すると、リアルタイム オーディオ技術の要件に対する音楽コンテンツの優先順位も異なります。安定性と音質が最優先の要件となり、ノイズ低減と低遅延は二次的な要件に格下げされます。
音楽コンテンツ シナリオの上記のような特殊性により、一般的なリアルタイム オーディオ フレームワークでは、音楽コンテンツ シナリオに一定の制限が見られます。たとえば、一般的なシナリオに適したオーディオ フレームワークの低いサンプリング レート、非フルバンド処理、近端音とダブル トークの粗い処理、低いビット レート設定、シンプルなオーディオ QoS は、音楽コンテンツの特殊なシナリオをサポートするには不十分です。たとえば、より高いビット レートを採用するときに一般的な戦略を引き続き使用すると、より深刻な輻輳やパケット損失が発生します。では、こうした新たな要求、問題点、制限に直面して、限られたリソースでどのように選択を行えばよいのでしょうか。Li Bei 氏は、NetEase Cloud Communication の 4 つの新たな考えを共有しました。
• AGC(自動ゲインコントロール)は、音楽コンテンツに新たな需要をもたらします。音楽シーンには、感情が落ち着くときには音量を下げ、感情が激しいときには音量を上げるなど、感情の注入に対する特別な需要があるためです。したがって、AGC アルゴリズムでエネルギーが同様に処理されると、音楽コンテンツの送信に非常に悪影響を及ぼします。
• 音楽シナリオにおけるハウリング制御の弊害:音楽デモを処理する際に、特定の周波数帯域のエコーが過度に除去されると、人々の聴覚に大きな影響を与えます。
• 音楽コンテンツにおける NS (ノイズ抑制) の問題点 -音楽シーンによっては楽器が多く、NS 処理によって特定のサウンドに損傷が生じる可能性があります。元の音の最高の体験を追求するために、一部のエンジニアは音楽効果を失うよりもノイズに耐えることを好み、NS モジュールをオフにします。李北氏は、NetEase Cloudはこの技術的問題が製品とユーザーに引き起こしたトラブルを十分に認識しており、実際にNSアルゴリズムを継続的に最適化し、顧客により良い技術サービスを提供するよう努めていると紹介しました。
• 音楽シナリオにおける TSM (タイムスケール変更) の影響 -一般的なシナリオで使用される TSM アルゴリズムを音楽コンテンツのシナリオに直接コピーすると、音楽コンテンツのビートが送信中に変化するため、音楽シナリオに特化して適合した TSM アルゴリズムを作成する必要があります。

「今日、垂直分野がますます多様化するにつれて、さまざまなシナリオに合わせて戦略を調整することは、すべての基礎技術プロバイダーが考えるべきことです。それはまた、NetEase Cloudが目指してきた方向でもあります」とLi Bei氏は結論付けた。テクノロジーと顧客をマッチングさせ、サービスをよりきめ細かくすることは、業界エコシステム全体の追求の結果であるだけでなく、業界エコシステムの進歩の原動力でもあります。

<<:  IBM、AI導入を加速しAIの透明性を向上するオープンプラットフォームを発表

>>:  T1000が実現:我が国は液体金属駆動ロボットを開発中

推薦する

データセンターにおける AI の未来

人工知能 (AI) はもはや未来的な概念ではなく、スーパーマーケットの物流から医療研究まで、ビジネス...

これら5つのコアテクノロジーを理解すれば、人工知能はもうあなたの身近な存在に

人工知能は現在最も注目されている産業であり、将来的にはロボット、スマートセンサー、ウェアラブルデバイ...

春節祭でロボットが書道を行う。書道家は職を失うことになるのか?

毎年、春節の祝祭舞台ではさまざまな「ブラックテクノロジー」が必ず使われています。2021年の丑年春節...

ロボット工学と自動化の台頭:スマートホームセキュリティの変革

スマートホーム セキュリティに関しては、テクノロジーは最先端技術を駆使し、住宅の保護方法に革命をもた...

...

...

3Dを理解する言語モデルが登場! UCLA、上海交通大学、MITなどが共同で3D-LLMを提案:パフォーマンスが9%向上

大規模言語モデル (LLM) と視覚言語モデル (VLM) は、画像からの発話や常識的な推論の実行な...

柔らかいロボットの進化:優しくて怖い

[[387359]] 30年以上前、エドワード・シザーハンズの「ナイフがなければ、君を守ることはでき...

チャットボット vs モバイルアプリ: 未来はどちらの手に?

[[272171]]チャットボットとモバイルアプリの戦いは、常に業界で最も議論されているトピックの...

...

ネットワークインテリジェンスに関する誤解は4つある

夕食後に AI について話さないと、社会の一員ではないような気がします。しかし、ネットワーク インテ...

2023年に出現するサイバー脅威、AI、量子コンピューティング、データ汚染まで

ハッカーや詐欺師が新しいテクノロジーを入手したり、古い脆弱性を悪用する新しい方法を考え出したりするに...

...

自動車業界における人工知能の活用方法

[[431746]]自動車業界は、新しい技術の最前線に立つことが多いです。業界では数十年にわたって組...

消費者がリアルなAIを信頼しない理由

Amazon Alexaのような音声アシスタントの台頭にもかかわらず、人々は本物そっくりのAIに不安...