タオバオライブストリーミングにおける機械学習に基づく帯域幅推定の探求と実践

背景

メディア伝送における一般的な帯域幅推定アルゴリズムには、GCC/BBR/PCC/QUBIC などがあります。これらは主に、履歴ネットワークデータとアクティブ検出方法に基づいて現在のネットワークの利用可能な帯域幅を推測する従来のポリシーベースのホワイトボックスアルゴリズムに基づいています。この厳格なアルゴリズムロジックでは、複雑なネットワーク特性に対処するのが難しく、輻輳によるパケット損失とランダムなパケット損失を区別できません。そのため、私たちは機械学習のアイデアを活用し、大量のオンラインネットワークデータを使用してブラックボックスモデルをトレーニングし、従来のアルゴリズムに代わるものとして、さまざまなネットワーク環境に柔軟に対応したいと考えています。

この記事は主に、タオバオ技術コンテンツミドルプラットフォームオーディオとビデオ基本技術チームが2018年から2021年にかけてタオバオライブのビジネスコンテキストで機械学習ベースの帯域幅予測アルゴリズムの探索と大規模な実践を行った結果を共有します。

協奏曲: メディアトランスポート層とメディアコーデック層の間の協奏曲

2018 年、WebRTC をベースとした Taobao Live のライブプッシュプルストリーミングソリューションは非常に成熟しました。アンカーエンドと Taobao ライブブロードキャストサーバーは両方とも、オープンソース WebRTC に基づいて、リアルタイムのオーディオおよびビデオストリームのメディアエンコード、デコード、および送信を実装します。アンカーのカメラとマイクでキャプチャされたオーディオとビデオは、メディアエンコーダーによって圧縮され、メディア転送プロトコル RTP/RTCP によってデータパケットにカプセル化されて MCU サーバーに送信され、CDN を通じて Taobao Live 視聴者に配信されます。通常、サーバー間のネットワークは比較的安定しているため、ホストのモバイルデバイスから MCU までの「ファーストマイル」の伝送品質によって、CDN がライブブロードキャストルームのすべての視聴者に配信するビデオ品質の上限が決まります。

タオバオライブの「ファーストマイル」のオーディオとビデオの伝送パフォーマンスを評価するために、2018年6月全体のライブストリーミングデータを収集して分析しました。このデータは、5つのネットワーク規格（WiFi、4G、3G、LTE、2G）、512の通信事業者、934の携帯電話モデルをカバーし、世界57か国749都市で合計100万時間以上のライブストリーミング時間を記録しました。追跡データは、実際のネットワーク環境における遅延スパイクやバーストパケット損失状況を完全に反映できるため、低遅延ライブブロードキャストのパフォーマンスを評価するためにも重要です。 ITU G.114 規格によれば、リアルタイムビデオ通話のサービス品質を実現するには、エンドツーエンドのフルリンクでパケット損失率が 1% 以下、RTT (ラウンドトリップ時間) が 300 ミリ秒以下である必要があります。ライブブロードキャストのシナリオでは、セッションの約 20% で平均パケット損失率が 1% を超え、セッションの約 10% で平均 RTT が 300 ミリ秒を超えました。パケット損失率が 1% を超えるセッション、または RTT が 300 ミリ秒を超えるセッションを、伝送品質が正常でないセッションと定義します。地理的分布の観点から見ると、すべての国で正常でないセッションの割合が 12% を超えています。ネットワーク標準の観点から見ると、WiFi ネットワークでの正常でないセッションの割合は 12% で最も低く、4G (34%) や 3G (54%) ネットワークよりもはるかに低く、WiFi ネットワークがセッション全体の 73% を占めています。

ライブブロードキャストのシナリオでは、ホストからネットワークに送信されるデータの量は、主にメディアコーデック層のビデオエンコーダーとメディアトランスポート層の輻輳制御アルゴリズムによって決まります。 WebRTC のネットワークトランスポート層輻輳制御アルゴリズム GCC (Google Congestion Control) をトランスポートプロトコルのみに使用すると、非常に低いレイテンシとほぼゼロのパケット損失を維持できることがわかりました。ビデオ伝送のシナリオでは、帯域幅が短時間減少すると、数分間低品質のビデオが続く可能性があります。その理由としては、ビデオエンコーディングビットレートを GCC の評価に厳密に従って実装することが難しいこと、ビデオエンコーディングビットレートの変更が GCC の変更に追いつけないこと、断続的なビデオトラフィックパターンが GCC の帯域幅の評価にも影響を与えることなどが挙げられます。

そこで、トランスポート層との相互作用を強化して帯域幅を評価する機械学習メカニズムをベースにしたConcertoを設計・実装しました。入力には、トランスポート層のパケット損失率、パケット間遅延、コーディング層のコーディングビットレート、受信ビットレートの履歴が含まれます。その出力は、次の期間（この設計では 1 秒）の帯域幅予測値です。この予測値は、次のステージのエンコードビットレートと送信ビットレートの両方になります。高レベルのロジックの観点から、Concerto は両方のレイヤーの状態を同時に認識し、各会話の特性を推測できます。この機能を実現するには、巨大な状態空間で各セッションの特徴をどのように抽出するか、そしてあらゆるネットワーク条件下で最適なビットレートをどのように決定するかという 2 つの問題を解決する必要があります。 Concerto では、この課題に対処するために深層模倣学習モデルを設計します。実際のネットワーク環境からの膨大なデータを使用することで、模倣学習モデルがトレーニングフェーズ中にさまざまなセッションの特性を学習し、実際のネットワーク帯域幅のガイダンスに従って適切なビットレートを自動的に生成できるようになります。

各セッションのデータをリアルタイムで使用する場合、Concerto が収束するまでに長い時間がかかります。代わりに、ネットワークシナリオを再現するための高度なデータ駆動型シミュレーターを設計および実装します。シミュレーターは、ffmpeg に基づいてビデオフレームを圧縮するビデオフレーム処理モジュール、Concerto/GCC/Salsify およびその他の機械学習ベースのアルゴリズムを実装するビデオセッション制御モジュール、および帯域幅制御パスを介して送信するためにビデオフレームを RTP パケットに分解する送信モジュールで構成されています。小規模な制御された実験シナリオでは、3 台のラップトップを使用して実験ベッドを構築し、2 つのノードをビデオ通話に使用し、3 番目のノードをルーティングに使用しました。Linux カーネルに基づくフロー制御ツールを使用して、ネットワークトレースを復元しました。また、Taobao アンカーアプリに Concerto を組み込みました。このアプリはビットレート制御モジュールによって呼び出され、ミリ秒レベルの意思決定を実現します。

シミュレーターでの 10 時間を超えるネットワークトレース環境のテスト結果によると、Concerto は、フレーム遅延が無視できる状態で、受信スループットの点で 3 つのベースラインアルゴリズムをそれぞれ 54.9%、53.9%、37.3% 上回り、ビデオ品質が向上しました。また、Taobao Live に組み込まれた Concerto アルゴリズムの実験に参加するボランティア 6 名を招待しました。実験シナリオには、自宅、オフィス、キャンパス、店舗、路上、移動中の車内などが含まれます。屋内シーンのボランティアは主に WiFi を使用し、屋外シーンのボランティアは主に 4G を使用します。実験は合計300回行われ、69時間続きました。ベースラインアルゴリズム GCC と比較すると、Concerto はすべてのシナリオでスループットを 13.1% 削減し、ジャム率を大幅に削減しました (約 3 倍)。

OnRL: 柔軟なオンライン学習

Concerto の調査と実践経験に基づいて、「オフライントレーニング、オンライン推論」の戦略はシミュレータでは良好な結果を達成できるものの、実際のオンライン環境での効果は満足のいくものではないことがわかりました。主な理由は 2 つあります。マルチフロー競合やバーストパケット損失などの実際のネットワークダイナミクスを完全にシミュレートすることは非常に困難であり、データ駆動型アルゴリズムは学習環境に厳密に制限されています。シミュレータと実際のネットワーク環境のギャップを縮めるために、オンライン強化学習モデルOnRLを設計し実装しました。タオバオアンカーのライブ放送中に実行され、学習を続け、実際のネットワーク環境に関するリアルタイムのフィードバックを提供します。

オンライン学習の目標を達成するには、3 つの課題に対処する必要があります。

1 つは、順次的なオフライントレーニングから、大規模なビデオ通話による同時学習への移行です。従来のオフライントレーニングでは、異なる独立したユーザーのネットワーク軌跡をマージし、シミュレーターに入力してモデルをトレーニングできます。オンライントレーニング中は、多数のビデオ会話が同時に発生するため、各会話に基づいてアルゴリズムをリアルタイムで進化させる必要があります。この課題に対処するために、PPO アルゴリズムとフェデレーテッドラーニングのルールを組み合わせて個々のセッションの機能を集約する 2 段階のオンライン学習フレームワークを設計します。

2 つ目は、実際の動的ネットワークシナリオで RL アルゴリズムを完全に有効にすることです。理想的には、OnRL アルゴリズムが送信レートを決定したら、エンコーダーは同じビットレートでビデオストリームを生成する必要があります。しかし、現実には、ビデオエンコーダーは、画像の動的度合い、圧縮戦略、さらにはデバイスの計算能力に応じて制御ロジックに影響を与え、RL ビットレートの決定から逸脱することになります。この問題を解決するには、このバイアスを RL ニューラルネットワークに入力して、フィードバック操作を調整します。

3つ目は、堅牢なハイブリッド学習を実現することです。強化学習ネットワークは試行錯誤を通じて学習するため、システムに混乱が生じる可能性があります。特にトレーニングの初期段階では、アルゴリズムが誤った検出動作を実行する可能性があり、それが壊滅的な結果をもたらす可能性があります。この問題に対処するために、異常と判断された場合に OnRL が従来のルールベースのレート制御アルゴリズムに戻り、それ以外の場合は RL モデルに戻ることができるハイブリッド学習メカニズムを設計しました。このような切り替えを実現するために、アルゴリズムのパフォーマンスを識別するための動的トレンド予測アルゴリズムを設計しました。モデルが独立した堅牢なアルゴリズムに進化するように促すために、切り替え動作を RL フィードバックのペナルティとしてカウントします。

実験では、実際の Taobao アンカー 151 名を選択し、1 か月間のグレースケール実験を実施し、合計 543 時間のライブ放送時間を実現しました。グレースケールの結果により、オンライントレーニングの有効性が確認され、QoE 関連の指標が大幅に最適化されました。たとえば、OnRL では、ビデオビットレートを同じに保ちながら、フリーズ率が 14.22% 削減されました。

Loki: ロングテールのパフォーマンス問題を解決する

従来のルールベースのアルゴリズムとは異なり、学習ベースの輻輳制御方法では通常、さまざまなネットワーク状態をカバーする大規模なデータセットを使用してニューラルネットワークモデルをトレーニングします。このデータ駆動型モデルは、平均指標の点では優れたパフォーマンスを発揮します。ただし、ニューラルネットワークのブラックボックス意思決定モードによって生じる堅牢性の欠如は、実稼働システムへの大規模な導入の大きな障害となっています。平均的にはパフォーマンスが期待どおりであったとしても、一度でも QoE パフォーマンスが破滅的になると、ユーザーがアプリを放棄してしまう可能性があります。

リアルタイムビデオ伝送シナリオのロングテールパフォーマンスを調査するために、最先端のルールベースおよび学習ベースのアルゴリズムの比較実験を実施しました。実験結果によると、一方では、学習ベースのアルゴリズムは、低レイテンシを維持しながらスループットを高め、トランスポート層指標で優位性を示しています。ただし、このような優位性は QoE 指標の改善に効果的に変換できず、一部のアプリケーション層でのフレーム遅延とジッターが悪化する可能性もあります。さらに詳しく分析したところ、その理由はトランスポート層インジケーターのロングテールパフォーマンスの問題にあることが判明しました。一方、学習ベースの方法では、不正確な帯域幅予測が生成されることがあります。深刻な過負荷予測によっては、フレームのスキップや途切れなど、壊滅的なパフォーマンスを引き起こす可能性があります。問題の根本は、これらの帯域幅推定アルゴリズム、特に広く使用されている強化学習アルゴリズムが「試行錯誤」モデルを通じて学習することにあることがわかりました。長期的な累積フィードバックを最大化することを目指しているため、予測結果の過負荷または過少負荷が時々発生しても許容され、その結果、ロングテールの結果のパフォーマンスが低下します。

上記の 2 つの観察から着想を得て、私たちは重要な問題を解決したいと考えています。それは、満足のいく平均パフォーマンスとロングテールパフォーマンスを備えたリアルタイムビデオ伝送アルゴリズムを設計することは可能か、ということです。この目的のために、ハイブリッドモデルである Loki を設計し、実装しました。ルールベースのアプローチの決定論と学習ベースのアプローチの予測力の両方を活用します。ネットワークの状態が不安定な場合、Loki は保守的かつルールベースの方法を使用してレート決定を行い、QoE の壊滅的な低下を回避します。その他の場合、Loki は学習のような検出を通じてネットワーク帯域幅を最大限に活用します。

トップレベルの設計アイデアは比較的シンプルですが、Loki は依然として 2 つの重要な課題を解決する必要があります。

まず、ルールベースのアルゴリズムと学習ベースのモデルを互換性のあるものにし、より具体的には、混合可能にするにはどうすればよいでしょうか。前者はハードコアな if-then 条件文で実装できますが、後者はニューラルネットワークに基づくブラックボックス表現を必要とします。前者は 2 つのアルゴリズムの時分割多重化に重点を置いていますが、Loki はより深いレベルの統合を実現します。 Loki は、カスタマイズされた模倣学習ネットワークモデルを通じて、ホワイトボックスルールベースアルゴリズム (GCC など) を同等のブラックボックスニューラルネットワークモデルに変換します。このようにして、2 つのアルゴリズムは互換性を持つようになり、決定レベルではなく「機能レベル」で共有できるようになります。

第二に、「機能レベル」ハイブリッドが意思決定ベースのアルゴリズムと学習ベースのアルゴリズムの利点を本当に保持できるようにするにはどうすればよいでしょうか。この目的を達成するために、私たちはこの要件を満たすデュアルウェイト機能混合メカニズムを設計しました。詳細には、Loki は 2 つのニューラルネットワークモデルのトレーニングされた高レベルの特徴を信頼係数として使用します。 2 つのアルゴリズムの共同意思決定中に、より良い QoE を実現できる機能セットを優先し、重視します。このような重み付けメカニズムを実装するために、インタラクティブなトレーニングのために、現在のトップの強化学習アルゴリズムに基づくモデルを Taobao アンカー側に構築しました。最終的に、Loki は新しい環境に対応できる信頼性の高い独立したモデルへと進化しました。

最後に、ベースライン比較として、上位 3 つのソリューション (GCC、OnRL、Orca) を Taobao アンカーに適用しました。ベースラインと比較すると、Loki はスタッター率を平均で 13.98%～27.27% 削減し、ビデオ品質を 1.37%～5.71% 向上させます。同時に、Lokiはロングテールの割合を大幅に削減しました。たとえば、95ポイントのラグ率は26.3％〜44.24％削減されました。ロングテールコンテンツの割合を減らすことで、Loki は GCC と比較して視聴時間を 2.62%～4.68% 増加させました。予備的な検証作業の結果、視聴時間は最終的にはかなりの商業的価値に変換されることがわかりました。

要約と展望

リアルタイムメディア伝送の研究が深まるにつれ、タオバオコンテンツセンターのオーディオおよびビデオ技術部門の学生と国内の大学の共同の努力により、業界初のニューラルネットワークベースの帯域幅予測アルゴリズムを共同で完成し、商用システムで広く使用されています。研究成果はトップクラスの国際学術会議で何度も認められ、CCF A級会議論文3本が発表された。他の協力プロジェクトとともに、2020年中国電子学会科学技術賞の科学技術進歩部門一等賞を受賞した。

モバイルデバイスの計算能力の制限により、当社の最新の成果である Loki モデルは、現在でも多数のモデルトレーニングプロセスをサポートするためにクラウドサービスに依存しています。 Taobao Live のビジネスが発展するにつれて、クラウド内のオンライントレーニングリソースのコストも大幅に増加します。そこで、私たちの最近の取り組みは、大量のネットワーク状態を収集するLokiモデルを固定化して集約し、モバイル端末に転送してオンライン推論することで、クラウドの計算電力コストを削減することです。固め作業は初期成果を達成しており、今後機会があれば概要と概要を共有する予定です。

CCF Aレベル会議で発表された論文

Huanhuan Zhang、Anfu Zhou、Yuhan Hu、Chaoyue Li、Guangping Wang、Xinyu Zhang、Huadong Ma、Leilei Wu、Aiyun Chen、Changhui Wu。2021。Loki：ルールベースモデルを融合することで、学習ベースのリアルタイムビデオ適応のロングテールパフォーマンスを向上させる。第27回モバイルコンピューティングおよびネットワーキングに関する国際会議（MobiCom '21）の議事録。米国ニューヨーク市コンピューティング機械協会、775–788。DOI：https://doi.org/10.1145/3447993.3483259
Huanhuan Zhang、Anfu Zhou、Jiamin Lu、Ruoxuan Ma、Yuhan Hu、Cong Li、Xinyu Zhang、Huadong Ma、Xiaojiang Chen。2020。OnRL：オンライン強化学習によるモバイルビデオテレフォニーの改善。第26回モバイルコンピューティングおよびネットワーキングに関する国際会議（MobiCom '20）の議事録。米国ニューヨーク市計算機協会、記事29、1～14。DOI：https://doi.org/10.1145/3372224.3419186
Anfu Zhou、Huanhuan Zhang、Guangyuan Su、Leilei Wu、Ruoxuan Ma、Zhen Meng、Xinyu Zhang、Xiufeng Xie、Huadong Ma、Xiaojiang Chen。2019。モバイルビデオテレフォニー用のビデオコーデックとトランスポートプロトコルの調整方法の学習。第25回モバイルコンピューティングとネットワーキングに関する国際会議（MobiCom '19）。米国ニューヨーク市コンピューティング機械協会、記事29、1～16。DOI：https://doi.org/10.1145/3300061.3345430

国内受賞歴

2020年中国電子学会科学技術賞、科学技術進歩第一賞。

https://www.cie.org.cn/system/upload/file/20201211/1607675713758483.pdf

チームについて

Taobao テクニカルコンテンツミドルプラットフォームオーディオおよびビデオテクノロジーチームは、Taobao Live、DianTao、GuanGuang、Xianyu、ICBU など、グループ内の多くの企業にリアルタイムのオーディオおよびビデオ通信とメディア処理の基盤となるコア機能を提供することを担っており、数千万の商人、インフルエンサー、消費者に豊富なコンテンツ、高品質、スムーズなオーディオおよびビデオエクスペリエンスを提供しています。

<<: アイウェア市場は1000億円規模を超えるか？ 3Dプリントで「顔のカスタマイズ」を実現

>>: ディープラーニングで知っておくべき活性化関数トップ10