トラフィックを30%削減し、鮮明度を向上: MITが新しいAIビデオキャッシュアルゴリズムを提案

トラフィックを30%削減し、鮮明度を向上: MITが新しいAIビデオキャッシュアルゴリズムを提案

オンラインビデオの読み込み速度と鮮明さに対する人々の要求は常に尽きることがありません。最近、マサチューセッツ工科大学 (MIT) の研究者らが、機械学習を使用してビデオ キャッシュを最適化する新しい方法を実証しました。実際には、Pensieve と呼ばれるこの新しいキャッシュ システムは、他の一般的な方法よりもビデオ トラフィックを 10 ~ 30% 削減しながら、「エクスペリエンスの品質」を 10 ~ 25% 向上させ、ユーザー エクスペリエンスを大幅に向上させます。

YouTube やその他の動画サイトでは、ネットワークの混雑により動画が突然フリーズしたり、ピクセル化されたりするといったジレンマによく遭遇します。

どちらの状況も、ビデオを小さな断片に分割する特別なアルゴリズムが原因で発生します。接続速度が遅い場合、ビデオサイトは、ビデオを視聴し続けることができるように、数秒間ビデオの解像度を下げることがあります。もちろん、品質は保証されません。進行状況バーを戻そうとしたときにそのセグメントがまだ読み込まれていない場合は、対応するセグメントがキャッシュされるまでビデオの再生が中断されます。

最大の動画サイトである YouTube は、アダプティブ ビットレート (ABR) アルゴリズムを使用して、すべての視聴者に最高の体験を提供するよう努めています。このサイトでは帯域幅の使用量も削減されます。通常、ユーザーはビデオ全体を視聴しませんが、インターネットでは毎日約 10 億時間のビデオが再生されるため、最適化アルゴリズムを使用せずにビデオ全体を読み込むと、かなりの量のリソースが無駄になります。

ABR アルゴリズムは通常は機能しますが、視聴者のビデオ品質に対する要求は無限であり、現在 Netflix や YouTube などのサイトでは品質と速度の間で妥協する必要があります。

「研究によると、ビデオセッションの品質が低すぎると、ユーザーは視聴を中止することが多く、コンテンツプロバイダーにとっては大きな損失となる」とMITのモハマド・アリザデ教授は語った。 「動画サイトは、より高度な最適化手法を模索し続ける必要がある。」

このような状況に直面して、アリザデ氏とMITのコンピュータサイエンスおよび人工知能研究所(CSAIL)の研究チームは、機械学習アルゴリズムを使用してさまざまなネットワーク状況を処理するAIビデオキャッシュシステムであるPensieveを開発しました。研究の過程で、彼らはこのシステムが現在普及しているすべてのシステムを上回る高品質のビデオ体験を提供できることを実証しました。

具体的には、研究チームは実験で、Pensieve は他の方法と比較して再キャッシュを 10% ~ 30% 削減し、主要な「エクスペリエンス品質」(QoE) 指標でユーザーから 10% ~ 25% 高い評価を得たことを発見しました。

Pensieve は、コンテンツ プロバイダーの優先順位に基づいてカスタマイズすることもできます。たとえば、地下鉄に乗っているユーザーが信号が途絶えるゾーンに入ろうとしている場合、YouTube はビットレートを下げてできるだけ多くのビデオを読み込むことができるため、ネットワークが利用できないときにビデオを再バッファリングする必要がなくなります。

「私たちのシステムは非常に柔軟性が高く、最適化したいあらゆるシナリオに適応できます」と、博士課程の学生であり、関連論文の筆頭著者であるホンジ・マオ氏は言う(他の2人の著者はアリザデ氏と博士課程の学生ラヴィ・ネトラバリ氏)。 「ユーザーが、再バッファリングと解像度のどちらを優先するかに基づいて、ストリーミング体験をカスタマイズすることも想像できます。」

この論文は来週ロサンゼルスで開催されるSIGCOMMカンファレンスで発表される予定だ。チームはプロジェクトのコードもオープンソース化する予定です。

アダプティブビットレートの仕組み

大まかに言えば、ABR アルゴリズムには 2 つの種類があります。ネットワークがデータを送信できる速度を測定するレートベースのアルゴリズムと、一定量の将来のビデオがキャッシュされることを保証するキャッシュベースのアルゴリズムです。

どちらのアルゴリズムも、包含率とバッファリングに関する情報を使用しないという単純な事実によって制限されています。その結果、これらのアルゴリズムは最適ではないビットレート決定を行うことが多く、さまざまなネットワーク条件に適応するために人間の専門家による手動調整が必要になります。

研究者らは、2つのアプローチを組み合わせることも試みた。カーネギーメロン大学のシステムは、時間の経過とともに状況がどのように変化するかを予測することで意思決定を最適化することを目的とした手法であるモデル予測制御(MPC)を使用することで、両方のアルゴリズムを上回る性能を示した。これは大きな改善ですが、ネットワーク速度などの要素をモデル化するのが困難であるという問題がまだ残っています。

「ネットワークのダイナミクスをモデル化するのは非常に難しく、MPC のような方法を使用すると、モデルと同じパフォーマンスしか得られません」と Alizadeh 氏は述べています。 Pensieve では、ネットワーク速度に関するモデルや既存の仮定は必要ありません。 Pensieve の ABR アルゴリズムはニューラル ネットワークのように動作し、Pensieve はキャッシュとネットワーク速度の条件が異なる複数のシナリオでアルゴリズムを繰り返しテストします。

システムは報酬とペナルティのメカニズムを通じてアルゴリズムを調整します。たとえば、アルゴリズムがキャッシュを必要としない高解像度のエクスペリエンスを提供する場合は評価されますが、キャッシュを大量に使用する場合はペナルティが課せられます。

「さまざまな戦略がパフォーマンスにどう影響するかを学習し、実際の過去のパフォーマンスを観察することで、意思決定戦略をより堅牢に改善する」と論文の筆頭著者であるマオ氏は述べた。 YouTube などのコンテンツ プロバイダーは、ユーザーに対して優先させたい指標に基づいて、Pensieve の報酬とペナルティのメカニズムをカスタマイズできます。たとえば、研究によると、ユーザーは動画の早い段階での再バッファリングに対して寛容であるため、動画の後半での再バッファリングに対してより厳しいペナルティを課すようにアルゴリズムを設定できます。

機械学習とディープラーニングの技術を組み合わせる

チームは、カフェの Wi-Fi や路上の LTE ネットワークなど、さまざまな環境で Pensieve をテストしました。実験では、Pensieve は MPC と同じビデオ解像度を実現できるものの、再バッファリングが 10% ~ 30% 削減されることが示されています。

「これまでのアプローチは、人間の専門家の直感に基づいた制御ロジックの使用を試みてきた」と、この研究には関与していないカーネギーメロン大学の電気・コンピュータ工学助教授、ビアズ・セカール氏は述べた。 「この研究は、新しい『ディープラーニング』技術を使用した機械学習アプローチの可能性を示しています。

マオ氏は、チームの実験により、ペンシーブがこれまで見たことのないシナリオでもうまく機能することが示されていると信じている。

「合成データを使用して「ブートキャンプ」設定で Pensieve をテストしたところ、ABR アルゴリズムが実際のネットワークに対して十分に堅牢であることがわかりました」と Mao 氏は言います。「このストレス テストは、Pensieve が現実世界の新しいシナリオにうまく一般化できることを証明しています。」

アリザデ氏はまた、Pensive はわずか 1 か月分のダウンロードされたビデオでトレーニングされたと指摘しました。研究チームが Netflix や YouTube と同規模のリソースにアクセスできれば、システムのパフォーマンスはさらに向上するでしょう。

次に、アリザデ氏のチームは VR ビデオで Pensieve のパフォーマンスをテストする予定です。

「4K 品質の VR ビデオは、1 秒あたり数百メガバイトのトラフィックを簡単に消費しますが、これは今日のネットワーク帯域幅では到底サポートできません」とアリザデ氏は言います。 「Pensieve のようなシステムが VR を実用化に一歩近づけることに非常に興奮しています。これは全体像のほんの一部にすぎません。」

オリジナル: http://www.csail.mit.edu/high_quality_online_video_with_less_rebuffering

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  愚かではないチャットボットを構築したいですか? 6つの実用的なガイドラインをご紹介します

>>:  「何千人もの人々の何千もの顔」を解読し、ユーザーのポートレートを深く解釈する方法

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

PyTorch はどのようにしてデータ並列トレーニングを高速化するのでしょうか?分散型チートが明らかに

[[333298]]現在、チップのパフォーマンスの向上は限られているため、分散トレーニングは超大規模...

人工知能とビッグデータは私たちの生活をこのように変えるだろう

現在、知能ロボットが急速に発展していますが、機械を知能化するための鍵は実はビッグデータです。ビッグデ...

我が国の5G基地局は718,000台に達し、人工知能の発展を促進

2020年中国人工知能サミットフォーラム及び中国人工知能競技会結果発表会が23日、厦門で開催された。...

...

マスク氏のニューラリンクが人間の脳にインターフェースを挿入するにはどれくらいの時間がかかるのでしょうか?

マスク氏は常にその知名度の高さで知られている。彼はテスラとスペースXという2つの大企業を所有している...

誇大広告か、効率か?サイバーセキュリティにおける人工知能の実用的応用

サイバーセキュリティにおける人工知能をめぐる誇大宣伝は、多くの専門家の間で不満を引き起こしています。...

顔認識技術とマスクが出会うと...

機能は完全に破綻。一目見るだけで解錠や支払いができた人工知能は、今や「役立たずのゴミ」のようになって...

60年ぶり! AI が新しい抗生物質の最初のバッチを発見し、MIT の主要な研究が Nature に掲載されました。人類はスーパーバグとの戦いに希望を持っている

60年間、人類は抗生物質の研究において大きな進歩を遂げていません。しかし、このギャップはAIによって...

Java ME での衝突検出アルゴリズムの実装

Java ME ゲーム開発では、衝突検出アルゴリズムを実装する必要があることがよくあります。たとえば...

...

スイスマイルは、立って都市部での配達に使用できる四足歩行の車輪付きロボットを披露した。

New Atlas によると、ETH チューリッヒの ANYmal ロボットは、4 本足で歩くだけ...

AI に関する知っておくべき 29 の統計とトレンド

ChatGPTは2022年11月の爆発的なリリースに続いて世界を席巻し、2023年には人工知能(AI...

AIコミック: 人工知能の3つの主要分野とその産業応用について1つの記事で学ぶ

音声認識 「音声認識」は、私たちが日常生活で使える iPhone の Siri など、コンピューター...