タオバオライブストリーミングにおける機械学習に基づく帯域幅推定の探求と実践

タオバオライブストリーミングにおける機械学習に基づく帯域幅推定の探求と実践

背景

メディア伝送における一般的な帯域幅推定アルゴリズムには、GCC/BBR/PCC/QUBIC などがあります。これらは主に、履歴ネットワーク データとアクティブ検出方法に基づいて現在のネットワークの利用可能な帯域幅を推測する従来のポリシーベースのホワイト ボックス アルゴリズムに基づいています。この厳格なアルゴリズム ロジックでは、複雑なネットワーク特性に対処するのが難しく、輻輳によるパケット損失とランダムなパケット損失を区別できません。そのため、私たちは機械学習のアイデアを活用し、大量のオンラインネットワークデータを使用してブラックボックスモデルをトレーニングし、従来のアルゴリズムに代わるものとして、さまざまなネットワーク環境に柔軟に対応したいと考えています。

この記事は主に、タオバオ技術コンテンツミドルプラットフォームオーディオとビデオ基本技術チームが2018年から2021年にかけてタオバオライブのビジネスコンテキストで機械学習ベースの帯域幅予測アルゴリズムの探索と大規模な実践を行った結果を共有します。

協奏曲: メディアトランスポート層とメディアコーデック層の間の協奏曲

2018 年、WebRTC をベースとした Taobao Live のライブ プッシュ プル ストリーミング ソリューションは非常に成熟しました。アンカーエンドと Taobao ライブ ブロードキャスト サーバーは両方とも、オープン ソース WebRTC に基づいて、リアルタイムのオーディオおよびビデオ ストリームのメディア エンコード、デコード、および送信を実装します。アンカーのカメラとマイクでキャプチャされたオーディオとビデオは、メディアエンコーダーによって圧縮され、メディア転送プロトコル RTP/RTCP によってデータパケットにカプセル化されて MCU サーバーに送信され、CDN を通じて Taobao Live 視聴者に配信されます。通常、サーバー間のネットワークは比較的安定しているため、ホストのモバイル デバイスから MCU までの「ファースト マイル」の伝送品質によって、CDN がライブ ブロードキャスト ルームのすべての視聴者に配信するビデオ品質の上限が決まります。

タオバオライブの「ファーストマイル」のオーディオとビデオの伝送パフォーマンスを評価するために、2018年6月全体のライブストリーミングデータを収集して分析しました。このデータは、5つのネットワーク規格(WiFi、4G、3G、LTE、2G)、512の通信事業者、934の携帯電話モデルをカバーし、世界57か国749都市で合計100万時間以上のライブストリーミング時間を記録しました。追跡データは、実際のネットワーク環境における遅延スパイクやバーストパケット損失状況を完全に反映できるため、低遅延ライブブロードキャストのパフォーマンスを評価するためにも重要です。 ITU G.114 規格によれば、リアルタイム ビデオ通話のサービス品質を実現するには、エンドツーエンドのフル リンクでパケット損失率が 1% 以下、RTT (ラウンド トリップ時間) が 300 ミリ秒以下である必要があります。ライブ ブロードキャストのシナリオでは、セッションの約 20% で平均パケット損失率が 1% を超え、セッションの約 10% で平均 RTT が 300 ミリ秒を超えました。パケット損失率が 1% を超えるセッション、または RTT が 300 ミリ秒を超えるセッションを、伝送品質が正常でないセッションと定義します。地理的分布の観点から見ると、すべての国で正常でないセッションの割合が 12% を超えています。ネットワーク標準の観点から見ると、WiFi ネットワークでの正常でないセッションの割合は 12% で最も低く、4G (34%) や 3G (54%) ネットワークよりもはるかに低く、WiFi ネットワークがセッション全体の 73% を占めています。

ライブ ブロードキャストのシナリオでは、ホストからネットワークに送信されるデータの量は、主にメディア コーデック層のビデオ エンコーダーとメディア トランスポート層の輻輳制御アルゴリズムによって決まります。 WebRTC のネットワーク トランスポート層輻輳制御アルゴリズム GCC (Google Congestion Control) をトランスポート プロトコルのみに使用すると、非常に低いレイテンシとほぼゼロのパケット損失を維持できることがわかりました。ビデオ伝送のシナリオでは、帯域幅が短時間減少すると、数分間低品質のビデオが続く可能性があります。その理由としては、ビデオ エンコーディング ビット レートを GCC の評価に厳密に従って実装することが難しいこと、ビデオ エンコーディング ビット レートの変更が GCC の変更に追いつけないこと、断続的なビデオ トラフィック パターンが GCC の帯域幅の評価にも影響を与えることなどが挙げられます。

そこで、トランスポート層との相互作用を強化して帯域幅を評価する機械学習メカニズムをベースにしたConcertoを設計・実装しました。入力には、トランスポート層のパケット損失率、パケット間遅延、コーディング層のコーディング ビット レート、受信ビット レートの履歴が含まれます。その出力は、次の期間(この設計では 1 秒)の帯域幅予測値です。この予測値は、次のステージのエンコード ビット レートと送信ビット レートの両方になります。高レベルのロジックの観点から、Concerto は両方のレイヤーの状態を同時に認識し、各会話の特性を推測できます。この機能を実現するには、巨大な状態空間で各セッションの特徴をどのように抽出するか、そしてあらゆるネットワーク条件下で最適なビットレートをどのように決定するかという 2 つの問題を解決する必要があります。 Concerto では、この課題に対処するために深層模倣学習モデルを設計します。実際のネットワーク環境からの膨大なデータを使用することで、模倣学習モデルがトレーニングフェーズ中にさまざまなセッションの特性を学習し、実際のネットワーク帯域幅のガイダンスに従って適切なビットレートを自動的に生成できるようになります。

各セッションのデータをリアルタイムで使用する場合、Concerto が収束するまでに長い時間がかかります。代わりに、ネットワーク シナリオを再現するための高度なデータ駆動型シミュレーターを設計および実装します。シミュレーターは、ffmpeg に基づいてビデオ フレームを圧縮するビデオ フレーム処理モジュール、Concerto/GCC/Salsify およびその他の機械学習ベースのアルゴリズムを実装するビデオ セッション制御モジュール、および帯域幅制御パスを介して送信するためにビデオ フレームを RTP パケットに分解する送信モジュールで構成されています。小規模な制御された実験シナリオでは、3 台のラップトップを使用して実験ベッドを構築し、2 つのノードをビデオ通話に使用し、3 番目のノードをルーティングに使用しました。Linux カーネルに基づくフロー制御ツールを使用して、ネットワーク トレースを復元しました。また、Taobao アンカー アプリに Concerto を組み込みました。このアプリはビット レート制御モジュールによって呼び出され、ミリ秒レベルの意思決定を実現します。

シミュレーターでの 10 時間を超えるネットワーク トレース環境のテスト結果によると、Concerto は、フレーム遅延が無視できる状態で、受信スループットの点で 3 つのベースライン アルゴリズムをそれぞれ 54.9%、53.9%、37.3% 上回り、ビデオ品質が向上しました。また、Taobao Live に組み込まれた Concerto アルゴリズムの実験に参加するボランティア 6 名を招待しました。実験シナリオには、自宅、オフィス、キャンパス、店舗、路上、移動中の車内などが含まれます。屋内シーンのボランティアは主に WiFi を使用し、屋外シーンのボランティアは主に 4G を使用します。実験は合計300回行われ、69時間続きました。ベースライン アルゴリズム GCC と比較すると、Concerto はすべてのシナリオでスループットを 13.1% 削減し、ジャム率を大幅に削減しました (約 3 倍)。

OnRL: 柔軟なオンライン学習

Concerto の調査と実践経験に基づいて、「オフライン トレーニング、オンライン推論」の戦略はシミュレータでは良好な結果を達成できるものの、実際のオンライン環境での効果は満足のいくものではないことがわかりました。主な理由は 2 つあります。マルチフロー競合やバースト パケット損失などの実際のネットワーク ダイナミクスを完全にシミュレートすることは非常に困難であり、データ駆動型アルゴリズムは学習環境に厳密に制限されています。シミュレータと実際のネットワーク環境のギャップを縮めるために、オンライン強化学習モデルOnRLを設計し実装しました。タオバオアンカーのライブ放送中に実行され、学習を続け、実際のネットワーク環境に関するリアルタイムのフィードバックを提供します。

オンライン学習の目標を達成するには、3 つの課題に対処する必要があります。

1 つは、順次的なオフライン トレーニングから、大規模なビデオ通話による同時学習への移行です。従来のオフライン トレーニングでは、異なる独立したユーザーのネットワーク軌跡をマージし、シミュレーターに入力してモデルをトレーニングできます。オンライントレーニング中は、多数のビデオ会話が同時に発生するため、各会話に基づいてアルゴリズムをリアルタイムで進化させる必要があります。この課題に対処するために、PPO アルゴリズムとフェデレーテッド ラーニングのルールを組み合わせて個々のセッションの機能を集約する 2 段階のオンライン学習フレームワークを設計します。

2 つ目は、実際の動的ネットワーク シナリオで RL アルゴリズムを完全に有効にすることです。理想的には、OnRL アルゴリズムが送信レートを決定したら、エンコーダーは同じビットレートでビデオ ストリームを生成する必要があります。しかし、現実には、ビデオ エンコーダーは、画像の動的度合い、圧縮戦略、さらにはデバイスの計算能力に応じて制御ロジックに影響を与え、RL ビット レートの決定から逸脱することになります。この問題を解決するには、このバイアスを RL ニューラル ネットワークに入力して、フィードバック操作を調整します。

3つ目は、堅牢なハイブリッド学習を実現することです。強化学習ネットワークは試行錯誤を通じて学習するため、システムに混乱が生じる可能性があります。特にトレーニングの初期段階では、アルゴリズムが誤った検出動作を実行する可能性があり、それが壊滅的な結果をもたらす可能性があります。この問題に対処するために、異常と判断された場合に OnRL が従来のルールベースのレート制御アルゴリズムに戻り、それ以外の場合は RL モデルに戻ることができるハイブリッド学習メカニズムを設計しました。このような切り替えを実現するために、アルゴリズムのパフォーマンスを識別するための動的トレンド予測アルゴリズムを設計しました。モデルが独立した堅牢なアルゴリズムに進化するように促すために、切り替え動作を RL フィードバックのペナルティとしてカウントします。

実験では、実際の Taobao アンカー 151 名を選択し、1 か月間のグレースケール実験を実施し、合計 543 時間のライブ放送時間を実現しました。グレースケールの結果により、オンライン トレーニングの有効性が確認され、QoE 関連の指標が大幅に最適化されました。たとえば、OnRL では、ビデオ ビット レートを同じに保ちながら、フリーズ率が 14.22% 削減されました。

Loki: ロングテールのパフォーマンス問題を解決する

従来のルールベースのアルゴリズムとは異なり、学習ベースの輻輳制御方法では通常、さまざまなネットワーク状態をカバーする大規模なデータセットを使用してニューラル ネットワーク モデルをトレーニングします。このデータ駆動型モデルは、平均指標の点では優れたパフォーマンスを発揮します。ただし、ニューラル ネットワークのブラック ボックス意思決定モードによって生じる堅牢性の欠如は、実稼働システムへの大規模な導入の大きな障害となっています。平均的にはパフォーマンスが期待どおりであったとしても、一度でも QoE パフォーマンスが破滅的になると、ユーザーがアプリを放棄してしまう可能性があります。

リアルタイムビデオ伝送シナリオのロングテールパフォーマンスを調査するために、最先端のルールベースおよび学習ベースのアルゴリズムの比較実験を実施しました。実験結果によると、一方では、学習ベースのアルゴリズムは、低レイテンシを維持しながらスループットを高め、トランスポート層指標で優位性を示しています。ただし、このような優位性は QoE 指標の改善に効果的に変換できず、一部のアプリケーション層でのフレーム遅延とジッターが悪化する可能性もあります。さらに詳しく分析したところ、その理由はトランスポート層インジケーターのロングテールパフォーマンスの問題にあることが判明しました。一方、学習ベースの方法では、不正確な帯域幅予測が生成されることがあります。深刻な過負荷予測によっては、フレームのスキップや途切れなど、壊滅的なパフォーマンスを引き起こす可能性があります。問題の根本は、これらの帯域幅推定アルゴリズム、特に広く使用されている強化学習アルゴリズムが「試行錯誤」モデルを通じて学習することにあることがわかりました。長期的な累積フィードバックを最大化することを目指しているため、予測結果の過負荷または過少負荷が時々発生しても許容され、その結果、ロングテールの結果のパフォーマンスが低下します。

上記の 2 つの観察から着想を得て、私たちは重要な問題を解決したいと考えています。それは、満足のいく平均パフォーマンスとロングテール パフォーマンスを備えたリアルタイム ビデオ伝送アルゴリズムを設計することは可能か、ということです。この目的のために、ハイブリッド モデルである Loki を設計し、実装しました。ルールベースのアプローチの決定論と学習ベースのアプローチの予測力の両方を活用します。ネットワークの状態が不安定な場合、Loki は保守的かつルールベースの方法を使用してレート決定を行い、QoE の壊滅的な低下を回避します。その他の場合、Loki は学習のような検出を通じてネットワーク帯域幅を最大限に活用します。

トップレベルの設計アイデアは比較的シンプルですが、Loki は依然として 2 つの重要な課題を解決する必要があります。

まず、ルールベースのアルゴリズムと学習ベースのモデルを互換性のあるものにし、より具体的には、混合可能にするにはどうすればよいでしょうか。前者はハードコアな if-then 条件文で実装できますが、後者はニューラル ネットワークに基づくブラック ボックス表現を必要とします。前者は 2 つのアルゴリズムの時分割多重化に重点を置いていますが、Loki はより深いレベルの統合を実現します。 Loki は、カスタマイズされた模倣学習ネットワーク モデルを通じて、ホワイト ボックス ルール ベース アルゴリズム (GCC など) を同等のブラック ボックス ニューラル ネットワーク モデルに変換します。このようにして、2 つのアルゴリズムは互換性を持つようになり、決定レベルではなく「機能レベル」で共有できるようになります。

第二に、「機能レベル」ハイブリッドが意思決定ベースのアルゴリズムと学習ベースのアルゴリズムの利点を本当に保持できるようにするにはどうすればよいでしょうか。この目的を達成するために、私たちはこの要件を満たすデュアルウェイト機能混合メカニズムを設計しました。詳細には、Loki は 2 つのニューラル ネットワーク モデルのトレーニングされた高レベルの特徴を信頼係数として使用します。 2 つのアルゴリズムの共同意思決定中に、より良い QoE を実現できる機能セットを優先し、重視します。このような重み付けメカニズムを実装するために、インタラクティブなトレーニングのために、現在のトップの強化学習アルゴリズムに基づくモデルを Taobao アンカー側に構築しました。最終的に、Loki は新しい環境に対応できる信頼性の高い独立したモデルへと進化しました。

最後に、ベースライン比較として、上位 3 つのソリューション (GCC、OnRL、Orca) を Taobao アンカーに適用しました。ベースラインと比較すると、Loki はスタッター率を平均で 13.98%~27.27% 削減し、ビデオ品質を 1.37%~5.71% 向上させます。同時に、Lokiはロングテールの割合を大幅に削減しました。たとえば、95ポイントのラグ率は26.3%〜44.24%削減されました。ロングテールコンテンツの割合を減らすことで、Loki は GCC と比較して視聴時間を 2.62%~4.68% 増加させました。予備的な検証作業の結果、視聴時間は最終的にはかなりの商業的価値に変換されることがわかりました。

要約と展望

リアルタイムメディア伝送の研究が深まるにつれ、タオバオコンテンツセンターのオーディオおよびビデオ技術部門の学生と国内の大学の共同の努力により、業界初のニューラルネットワークベースの帯域幅予測アルゴリズムを共同で完成し、商用システムで広く使用されています。研究成果はトップクラスの国際学術会議で何度も認められ、CCF A級会議論文3本が発表された。他の協力プロジェクトとともに、2020年中国電子学会科学技術賞の科学技術進歩部門一等賞を受賞した。

モバイル デバイスの計算能力の制限により、当社の最新の成果である Loki モデルは、現在でも多数のモデル トレーニング プロセスをサポートするためにクラウド サービスに依存しています。 Taobao Live のビジネスが発展するにつれて、クラウド内のオンライントレーニング リソースのコストも大幅に増加します。そこで、私たちの最近の取り組みは、大量のネットワーク状態を収集するLokiモデルを固定化して集約し、モバイル端末に転送してオンライン推論することで、クラウドの計算電力コストを削減することです。固め作業は初期成果を達成しており、今後機会があれば概要と概要を共有する予定です。

CCF Aレベル会議で発表された論文

  1. Huanhuan Zhang、Anfu Zhou、Yuhan Hu、Chaoyue Li、Guangping Wang、Xinyu Zhang、Huadong Ma、Leilei Wu、Aiyun Chen、Changhui Wu。2021。Loki:ルールベースモデルを融合することで、学習ベースのリアルタイムビデオ適応のロングテールパフォーマンスを向上させる。第27回モバイルコンピューティングおよびネットワーキングに関する国際会議(MobiCom '21)の議事録。米国ニューヨーク市コンピューティング機械協会、775–788。DOI:https://doi.org/10.1145/3447993.3483259
  2. Huanhuan Zhang、Anfu Zhou、Jiamin Lu、Ruoxuan Ma、Yuhan Hu、Cong Li、Xinyu Zhang、Huadong Ma、Xiaojiang Chen。2020。OnRL:オンライン強化学習によるモバイルビデオテレフォニーの改善。第26回モバイルコンピューティングおよびネットワーキングに関する国際会議(MobiCom '20)の議事録。米国ニューヨーク市計算機協会、記事29、1~14。DOI:https://doi.org/10.1145/3372224.3419186
  3. Anfu Zhou、Huanhuan Zhang、Guangyuan Su、Leilei Wu、Ruoxuan Ma、Zhen Meng、Xinyu Zhang、Xiufeng Xie、Huadong Ma、Xiaojiang Chen。2019。モバイルビデオテレフォニー用のビデオコーデックとトランスポートプロトコルの調整方法の学習。第25回モバイルコンピューティングとネットワーキングに関する国際会議(MobiCom '19)。米国ニューヨーク市コンピューティング機械協会、記事29、1~16。DOI:https://doi.org/10.1145/3300061.3345430

国内受賞歴

2020年中国電子学会科学技術賞、科学技術進歩第一賞。

​​https://www.cie.org.cn/system/upload/file/20201211/1607675713758483.pdf​​

チームについて

Taobao テクニカル コンテンツ ミドル プラットフォーム オーディオおよびビデオ テクノロジー チームは、Taobao Live、DianTao、GuanGuang、Xianyu、ICBU など、グループ内の多くの企業にリアルタイムのオーディオおよびビデオ通信とメディア処理の基盤となるコア機能を提供することを担っており、数千万の商人、インフルエンサー、消費者に豊富なコンテンツ、高品質、スムーズなオーディオおよびビデオ エクスペリエンスを提供しています。

<<:  アイウェア市場は1000億円規模を超えるか? 3Dプリントで「顔のカスタマイズ」を実現

>>:  ディープラーニングで知っておくべき活性化関数トップ10

ブログ    
ブログ    

推薦する

ディープ ニューラル ネットワークを構築するための 20 の「未熟な」ヒント

当社の機械学習ラボでは、数多くの高性能マシンで何万時間ものトレーニングを行って豊富な経験を蓄積してき...

三国志を例に挙げて分散アルゴリズムについて語るのって、気楽なことでしょうか?

[[357046]]序文「三国殺し」は、中国の三国時代を背景に、身分を手がかりにカードを形にした人...

音声認識システムが裁判にかけられる

舒城県裁判所杭埠法廷は最近、建設工事契約紛争事件の審理に法廷音声認識システムを使用した。これは、杭埠...

LLM収益化プラットフォームが登場! LangChain+DemoGPT 協力: アイデアがあればお金が稼げる、「プログラマーが足りない」時代は終わった

大規模な言語モデルのサポートにより、開発者は多くの新しい機能を実装し、より幅広いアプリケーション シ...

3.15を利用して、あなたの周りの偽の人工知能を数えましょう

他のインターネットの概念と同様に、AI は人気が出ると数え切れないほどの支持者を獲得しました。彼らは...

人工知能技術はどのようにビジネスに統合されるのでしょうか?

AI技術の発展の歴史は数十年前に遡りますが、1970年代から1980年代までの初期段階では、ビジネ...

...

RPAとは何ですか?ビジネスプロセス自動化の革命

CISO は、日常的なタスクを排除し、従業員がより価値の高い仕事に集中できるようにするために、ロボ...

ロボットによるカスタマーサービスが本物か偽物かを見分けるのは難しいですか? !

[51CTO.com 速訳] 海外メディアの報道によると、ニュージーランドのソウルマシーンズ社は最...

人工ニューラルネットワークとBPアルゴリズムについての簡単な説明

[[338555]] 【51CTO.comオリジナル記事】 1 はじめに現在、機械学習技術とも呼ばれ...

人工知能をより賢くするにはどうすればいいでしょうか?オープンソースプラットフォームが必要です

[[332916]]ニーダーザクセン州オスナブリュック、2020年6月19日:メラニー・プロッパ先生...

データマイニングのコアアルゴリズムの一つである回帰

[[192284]]回帰は幅広い概念です。その基本的な概念は、変数のグループを使用して別の変数を予測...

...

産業用拡張現実(AR)は、機器のメンテナンス、現場サービス、従業員のトレーニングを容易にします。

拡張現実技術の可能性は、小売、エンターテインメント、教育などのクリエイティブ産業を超えて広がります。...