トラフィックを30%削減し、鮮明度を向上: MITが新しいAIビデオキャッシュアルゴリズムを提案

トラフィックを30%削減し、鮮明度を向上: MITが新しいAIビデオキャッシュアルゴリズムを提案

オンラインビデオの読み込み速度と鮮明さに対する人々の要求は常に尽きることがありません。最近、マサチューセッツ工科大学 (MIT) の研究者らが、機械学習を使用してビデオ キャッシュを最適化する新しい方法を実証しました。実際には、Pensieve と呼ばれるこの新しいキャッシュ システムは、他の一般的な方法よりもビデオ トラフィックを 10 ~ 30% 削減しながら、「エクスペリエンスの品質」を 10 ~ 25% 向上させ、ユーザー エクスペリエンスを大幅に向上させます。

YouTube やその他の動画サイトでは、ネットワークの混雑により動画が突然フリーズしたり、ピクセル化されたりするといったジレンマによく遭遇します。

どちらの状況も、ビデオを小さな断片に分割する特別なアルゴリズムが原因で発生します。接続速度が遅い場合、ビデオサイトは、ビデオを視聴し続けることができるように、数秒間ビデオの解像度を下げることがあります。もちろん、品質は保証されません。進行状況バーを戻そうとしたときにそのセグメントがまだ読み込まれていない場合は、対応するセグメントがキャッシュされるまでビデオの再生が中断されます。

最大の動画サイトである YouTube は、アダプティブ ビットレート (ABR) アルゴリズムを使用して、すべての視聴者に最高の体験を提供するよう努めています。このサイトでは帯域幅の使用量も削減されます。通常、ユーザーはビデオ全体を視聴しませんが、インターネットでは毎日約 10 億時間のビデオが再生されるため、最適化アルゴリズムを使用せずにビデオ全体を読み込むと、かなりの量のリソースが無駄になります。

ABR アルゴリズムは通常は機能しますが、視聴者のビデオ品質に対する要求は無限であり、現在 Netflix や YouTube などのサイトでは品質と速度の間で妥協する必要があります。

「研究によると、ビデオセッションの品質が低すぎると、ユーザーは視聴を中止することが多く、コンテンツプロバイダーにとっては大きな損失となる」とMITのモハマド・アリザデ教授は語った。 「動画サイトは、より高度な最適化手法を模索し続ける必要がある。」

このような状況に直面して、アリザデ氏とMITのコンピュータサイエンスおよび人工知能研究所(CSAIL)の研究チームは、機械学習アルゴリズムを使用してさまざまなネットワーク状況を処理するAIビデオキャッシュシステムであるPensieveを開発しました。研究の過程で、彼らはこのシステムが現在普及しているすべてのシステムを上回る高品質のビデオ体験を提供できることを実証しました。

具体的には、研究チームは実験で、Pensieve は他の方法と比較して再キャッシュを 10% ~ 30% 削減し、主要な「エクスペリエンス品質」(QoE) 指標でユーザーから 10% ~ 25% 高い評価を得たことを発見しました。

Pensieve は、コンテンツ プロバイダーの優先順位に基づいてカスタマイズすることもできます。たとえば、地下鉄に乗っているユーザーが信号が途絶えるゾーンに入ろうとしている場合、YouTube はビットレートを下げてできるだけ多くのビデオを読み込むことができるため、ネットワークが利用できないときにビデオを再バッファリングする必要がなくなります。

「私たちのシステムは非常に柔軟性が高く、最適化したいあらゆるシナリオに適応できます」と、博士課程の学生であり、関連論文の筆頭著者であるホンジ・マオ氏は言う(他の2人の著者はアリザデ氏と博士課程の学生ラヴィ・ネトラバリ氏)。 「ユーザーが、再バッファリングと解像度のどちらを優先するかに基づいて、ストリーミング体験をカスタマイズすることも想像できます。」

この論文は来週ロサンゼルスで開催されるSIGCOMMカンファレンスで発表される予定だ。チームはプロジェクトのコードもオープンソース化する予定です。

アダプティブビットレートの仕組み

大まかに言えば、ABR アルゴリズムには 2 つの種類があります。ネットワークがデータを送信できる速度を測定するレートベースのアルゴリズムと、一定量の将来のビデオがキャッシュされることを保証するキャッシュベースのアルゴリズムです。

どちらのアルゴリズムも、包含率とバッファリングに関する情報を使用しないという単純な事実によって制限されています。その結果、これらのアルゴリズムは最適ではないビットレート決定を行うことが多く、さまざまなネットワーク条件に適応するために人間の専門家による手動調整が必要になります。

研究者らは、2つのアプローチを組み合わせることも試みた。カーネギーメロン大学のシステムは、時間の経過とともに状況がどのように変化するかを予測することで意思決定を最適化することを目的とした手法であるモデル予測制御(MPC)を使用することで、両方のアルゴリズムを上回る性能を示した。これは大きな改善ですが、ネットワーク速度などの要素をモデル化するのが困難であるという問題がまだ残っています。

「ネットワークのダイナミクスをモデル化するのは非常に難しく、MPC のような方法を使用すると、モデルと同じパフォーマンスしか得られません」と Alizadeh 氏は述べています。 Pensieve では、ネットワーク速度に関するモデルや既存の仮定は必要ありません。 Pensieve の ABR アルゴリズムはニューラル ネットワークのように動作し、Pensieve はキャッシュとネットワーク速度の条件が異なる複数のシナリオでアルゴリズムを繰り返しテストします。

システムは報酬とペナルティのメカニズムを通じてアルゴリズムを調整します。たとえば、アルゴリズムがキャッシュを必要としない高解像度のエクスペリエンスを提供する場合は評価されますが、キャッシュを大量に使用する場合はペナルティが課せられます。

「さまざまな戦略がパフォーマンスにどう影響するかを学習し、実際の過去のパフォーマンスを観察することで、意思決定戦略をより堅牢に改善する」と論文の筆頭著者であるマオ氏は述べた。 YouTube などのコンテンツ プロバイダーは、ユーザーに対して優先させたい指標に基づいて、Pensieve の報酬とペナルティのメカニズムをカスタマイズできます。たとえば、研究によると、ユーザーは動画の早い段階での再バッファリングに対して寛容であるため、動画の後半での再バッファリングに対してより厳しいペナルティを課すようにアルゴリズムを設定できます。

機械学習とディープラーニングの技術を組み合わせる

チームは、カフェの Wi-Fi や路上の LTE ネットワークなど、さまざまな環境で Pensieve をテストしました。実験では、Pensieve は MPC と同じビデオ解像度を実現できるものの、再バッファリングが 10% ~ 30% 削減されることが示されています。

「これまでのアプローチは、人間の専門家の直感に基づいた制御ロジックの使用を試みてきた」と、この研究には関与していないカーネギーメロン大学の電気・コンピュータ工学助教授、ビアズ・セカール氏は述べた。 「この研究は、新しい『ディープラーニング』技術を使用した機械学習アプローチの可能性を示しています。

マオ氏は、チームの実験により、ペンシーブがこれまで見たことのないシナリオでもうまく機能することが示されていると信じている。

「合成データを使用して「ブートキャンプ」設定で Pensieve をテストしたところ、ABR アルゴリズムが実際のネットワークに対して十分に堅牢であることがわかりました」と Mao 氏は言います。「このストレス テストは、Pensieve が現実世界の新しいシナリオにうまく一般化できることを証明しています。」

アリザデ氏はまた、Pensive はわずか 1 か月分のダウンロードされたビデオでトレーニングされたと指摘しました。研究チームが Netflix や YouTube と同規模のリソースにアクセスできれば、システムのパフォーマンスはさらに向上するでしょう。

次に、アリザデ氏のチームは VR ビデオで Pensieve のパフォーマンスをテストする予定です。

「4K 品質の VR ビデオは、1 秒あたり数百メガバイトのトラフィックを簡単に消費しますが、これは今日のネットワーク帯域幅では到底サポートできません」とアリザデ氏は言います。 「Pensieve のようなシステムが VR を実用化に一歩近づけることに非常に興奮しています。これは全体像のほんの一部にすぎません。」

オリジナル: http://www.csail.mit.edu/high_quality_online_video_with_less_rebuffering

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  愚かではないチャットボットを構築したいですか? 6つの実用的なガイドラインをご紹介します

>>:  「何千人もの人々の何千もの顔」を解読し、ユーザーのポートレートを深く解釈する方法

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

DeepMindがニューラルネットワークと強化学習ライブラリをリリース、ネットユーザー:JAXの開発を促進

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AIは「メイおばさん」を見つけられるのか?

[[283120]]インターネット全体が「メイおばさん」を探しているが、彼女が誰なのかは謎のままだ...

モジュラー大型モデルが登場! IBMがWatsonXコアアーキテクチャの技術的詳細を公開

大規模言語モデル (LLM) は強力なパフォーマンスを備えていますが、既存のモデルのトレーニングと展...

人間の脳神経を模倣してAIを開発!ケンブリッジ大学の最新研究がネイチャー誌に掲載:人工脳がAIの新たな方向性となる

地球上で最も複雑な知能の担い手である人間の脳の最大の特徴の 1 つは、高いエネルギー効率で知能を生み...

1.2兆パラメータ:Googleの汎用スパース言語モデルGLaM、小サンプル学習がGPT-3を上回る

[[439859]]近年、モデルの規模はどんどん大きくなっています。例えば、2018年に登場したGP...

...

このアルゴリズムチームは 2020 年に何をしましたか?

[[383980]]冒頭に書いた私自身、毎年まとめを書く習慣があります。2020年は、私の職務が垂...

最終的にAIによってモザイクが見破られたとき、私たちのプライバシーはどこに隠されるのでしょうか?

[[239842]]モザイクといえば、多くのオタクがそれに腹を立てていると思います。1、2時間かけ...

...

ニューラルネットワークのトレーニングではCPUはGPUより10倍以上高速。インテル:行列演算はもう使わない

ディープラーニングやニューラルネットワークの分野では、研究者は通常、GPU なしでは作業できません。...

誰かが匿名ソフトウェアで私の学校を爆破したいと言っていたので、私はすぐに先生と警察に通報しました。xdm、私は正しいことをしたのでしょうか?

ビッグデータダイジェスト制作著者: カレブ空には太陽が輝き、花々は私に微笑みかけ、鳥たちは「おはよう...

Python に基づく簡単な自然言語処理の練習

Python によるシンプルな自然言語処理この記事は、Python をベースにした簡単な自然言語処理...

2020~2030年:人工知能が主流となる10年

ロボット工学者でありSF作家でもあるアイザック・アシモフは、小説『ロボット』(1950年)の中で、2...

ChatGPT Civilization Simulator が再びオンラインになりました!クリックひとつで、火山噴火の日の古代都市ポンペイにタイムスリップ

GPT-4のアップデート機能により、AIを使って歴史をシミュレートすることは、単なる「テキストロール...