ライブ放送室で見る高解像度1080Pは720Pほど良くないかもしれない

ライブ放送室で見る高解像度1080Pは720Pほど良くないかもしれない

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

ライブ放送をよく見る友人は、次のような経験をしたことがあるかもしれません。

異なる生放送室では、可愛いキャスターのシャオユウとキャスターのシャオメイがともに1080Pの高解像度を使用している。しかし、放送環境が暗く、生放送設備が貧弱で、美肌機能が不自然だったため、シャオユウが見た映像の視覚効果はシャオメイの映像に比べてはるかに劣っていた。

時間が経つにつれて、シャオユウのライブ放送ルームの人気はどんどん低下し、ファンもどんどん減っていった。

より良いライブ放送体験を提供し、さまざまなハードウェアや放送環境の欠陥を補うために、Agora の最新の「リアルタイム HD スーパー画質」がこの問題を解決します。

これには、画質向上アルゴリズム人間の目の知覚の最適化モバイル端末でのリアルタイムの多重超解像など、多くのビデオブラックテクノロジーが含まれており、数秒で360Pビデオを1080Pに変換したり、インテリジェントなフィルライティングやビデオ品質の色彩強化を行ったり、ビデオの解像度、画質、スムーズな体験を総合的に向上させることができます。

画像の色と補助光のインテリジェントな調整:リストのトッププレーヤー全員が、これは良いと評価しました。

ライブ放送でも、音声通話やビデオ通話でも、ビデオ品質はユーザー体験を大きく左右します。この点で、Agora のビデオ技術チームは過去数年間、リアルタイムのビデオ品質向上に深く取り組んでおり、AI 品質を発表しました。

AI 画質は、ビデオキャプチャおよび再生デバイスのプラットフォーム機能を最大限に活用し、色、鮮明度、様式化など、ビデオ品質に影響を与えるさまざまな側面に関してワンストップソリューションを提供します。これには、暗部強調、色強調、ビデオノイズ低減などの多次元画質向上アルゴリズムの組み合わせが含まれます。

  • インテリジェントな補助光: 多くのアンカーは、ライブ放送中に暗い照明条件や逆光の放送環境に遭遇することが多く、その結果、シーンの画像が暗く不明瞭になり、有効な詳細情報が見えなくなります。これに対応して、SoundNet のダーク ライト強化アルゴリズムは、暗い照明条件、逆光、照明が不均一な環境でインテリジェントな補助光を実行し、ビデオ画像の明るさを適応的に改善し、画像の詳細な輪郭を復元し、画像の鮮明度を高めます。
    アンカーが補助光などの機器を使用する場合、露出オーバーの問題に遭遇することがよくあります。Agora の「暗光強調」アルゴリズムは、この問題を回避し、通常の露出の領域が過度に強調されることを防ぎ、パフォーマンスと画質のバランスを最大限に高めます。このアルゴリズムはインテリジェントなシーン検出もサポートしており、照明条件に応じて動的かつ適応的にオン/オフを切り替えます。
  • 色の彩度をインテリジェントに調整: ライブ ブロードキャスト中に、ホストの画面が灰色に変わり、歪んで見えることがあります。これは、画面の色の彩度に問題があることが原因であることが多いです。この点で、色彩強調アルゴリズムは、ビデオ画像の彩度をインテリジェントに調整し、画像の品質を向上させ、画像の色をより豊かでリアルにし、人々の主観的な視覚体験を向上させることができます。このアルゴリズムは、複数の肌色認識アルゴリズムも統合しており、色の強調によって人物の肌の色が不自然にならないようにします。
  • ビデオノイズ低減により BUFF ゲインが 2 倍に増加: 暗い場所でビデオを撮影する場合、携帯電話は光不足を補うために ISO 値を自動的に増加させ、画像にノイズが発生します。ビデオのライブ放送/通話シナリオでもノイズが発生します。Agora の「ビデオ ノイズ低減」機能は、ローエンドの取得デバイスや低照度のシーンでのちらつきノイズを大幅に低減し、「スミアリング」などのビデオ ノイズ低減の最も一般的な悪影響を最小限に抑えることができます。
    さらに、ビデオノイズ低減には別のバフレイヤーがあり、これをオンにすると伝送ビットレートが 28 ~ 35% 節約され、ビデオ受信側の画質と鮮明度がさらに向上します。

最適化された人間の目の知覚:高解像度に注意を払う

ビデオや画像を見るとき、主観的に関心のある領域や興味のある領域はより鮮明に表示されてほしいと願うことがよくありますが、関心のない領域では、基本的な視覚要件を満たすだけで十分です。

人間の視覚特性に基づいて、ビデオコーディングでは、関心領域を低い比率で圧縮するか、ロスレスで圧縮して高品質の再構成画像を取得し、関心領域以外の領域には高い圧縮率を使用します。これがROI (Regions of Interest)ビデオコーディング技術です。

ライブ放送/ビデオ通話のシナリオでは、Agora は ROI と PVC アルゴリズムを使用して、人間の目で認識される画像の詳細を改善します。ROI は主に画像の詳細を強調し、PVC は色の最適化を強調して、視聴者の画質の主観的な体験を総合的に向上させます。 Agora SDK は主にライブ ブロードキャスト/ビデオ ソーシャル/会議アプリケーションを対象としているため、画像内の顔は関心領域または視覚的な焦点となることが多く、Agora AI 認識処理アルゴリズムは顔検出に基づくビデオ エンコーディング テクノロジです。

実装原理は、顔領域を検出して関心領域を決定することです。エンコード処理中に、画像内の顔領域の量子化パラメータ値を減らし、より多くのビットレートを割り当てて関心領域の画質を向上させ、非顔領域の量子化パラメータ値を増やして、より少ないビットレートを割り当てます。画像の全体的な主観品質を失わないという前提の下で、ビデオのビットレートが削減され、ビデオ品質が向上します。

△ ROIエンコード処理後の画像比較

360Pが数秒で720Pに: 画質が飛躍的に向上

色、暗所での強調、ROI の人間の目の知覚の最適化など、ビデオ解像度を変えずに画質が向上します。一部の海外の未開発地域やスマートハードウェア端末では、デバイスの性能、伝送コスト、ユーザーの帯域幅などの制限により、低解像度のビデオが送信されることがよくあります。そのため、ビデオの品質を向上させてユーザーの視聴体験を向上させるには、解像度を救済する「魔法」を使用する必要があります。

ビデオ超解像技術は、ユーザー側で受信した低解像度のビデオを、豊かな質感、鮮明なディテール、優れた視聴体験を備えた高解像度のビデオに再構築するもので、超解像技術と呼ばれます。

現在、業界で主流の端末リアルタイム超解像アルゴリズムの多くは、PC 側に集中しています。PC 側のデバイスは、比較的強力なコンピューティング パワーを提供して、ビデオ品質の高性能リアルタイム強化を実現できます。

しかし、ライブ放送やビデオ通話などの現在のシナリオは、ユーザーデバイスのパフォーマンスが大きく異なるモバイル端末に徐々に集中しています。これにより、モバイル端末でのリアルタイム超解像の複雑さを極めて低く抑え、ほとんどのモバイルデバイスでリアルタイム処理を実現し、超低コンピューティングパワーで優れたビデオ超解像効果を維持する必要があります。

これに対応して、Agoraの人工知能アルゴリズムチームは、継続的な技術研究を経て、業界初のモバイル端末に基づくリアルタイム多重超解像アルゴリズムを発表しました。 このアルゴリズムの利点は、低コストと低消費電力です。 GPUサーバーの導入を必要とせず、モバイルデバイス自身のCPU、GPU、またはNPUのみに依存してリアルタイム超解像を実現します。 より少ないアルゴリズム計算量でビデオ解像度の多重超解像を実現し、ビデオ品質を効果的に向上させ、ビデオ伝送コストを削減します。 通常の360P画質は、超解像によって540P効果を実現できます。

SoundNetのモバイルリアルタイム超解像の技術原理は、ディープラーニングアルゴリズムに基づいて豊富なビデオデータをトレーニングし、教師あり方式で多数の低解像度と高解像度の画像ペアから低解像度から高解像度へのマッピング関係を学習し、画像拡大後の豊富なディテールと鮮明な画像の効果を実現することです。その超解像効果と適応能力は、従来の超解像方法よりも大幅に優れています。

性能と適応性の観点から見ると、Agora の多重超解像アルゴリズムは、中低価格モデルでもリアルタイムで処理でき、iOS ビデオ ユーザーの 95% 以上と Android ユーザーの 85% 以上をカバーできます。さらに、CPU 消費量と SDK メモリ消費量が低く、平均 1 フレームの処理時間は 10 ミリ秒未満です。1 対 1 のビデオ通話シナリオで複数の超解像度を有効にした後でも、SDK メモリ消費量は約 10% しか増加しません。

動画が超高精細時代に入るにつれ、人々はライブ放送や動画インタラクションにおいて、より高精細で、より美しく、より自然な動画品質を求めています。アプリメーカーも時代の流れに乗り、動画の高解像度を確保しながら画質の細部を改善することに注力する必要があります。そうすることでのみ、より多くのユーザー市場を獲得し、より多くの収益をもたらすことができます。

ライブ放送/ソーシャルプラットフォームの画質をリアルタイムで向上させる必要がある場合は、Agora の「リアルタイム HD スーパー画質」をお試しください。 「リアルタイムHDとスーパー画質」についてさらに詳しく知りたい場合は、バックグラウンドでメッセージを残していただければ、当社のスタッフからご連絡いたします。

<<:  大規模モデルは16,000以上の実世界のAPIを習得しており、清華大学などのToolLLMのツール使用能力はChatGPTに劣らない。

>>:  韓国の常温超伝導体の著者が論文撤回を要求!論文には欠陥があり、改善された後、通常のジャーナルに移されました

ブログ    

推薦する

人工知能の未来は人間・機械・環境のシステム知能である

軍事情報は戦争と同様、不確実性の多い霧です。予測不可能で、予測不可能です。現在の人工知能の発展傾向か...

2022 RPA認定ランキング

ロボティック・プロセス・オートメーション (RPA) は、ビジネス プロセスの合理化に役立つ重要なテ...

AI時代の南北格差を埋める

[[427918]]周其浦松陽人工知能(AI)の発展は世界に変革をもたらしましたが、同時に発展途上国...

マスク氏はオープンAIの主任科学者に質問した。「いったい何を見てそんなに怖くなったのですか?」

2015年11月27日、イーロン・マスクはイリヤ・スツケヴァー氏がOpenAIの主任科学者として参...

ドローンは農業にも活用されており、植物保護ドローンは侵入の防止と制御に非常に効果的です。

今日のドローンは、ビデオ録画だけでなく、害虫や病気の問題を防ぐための農業での使用など、幅広い用途に使...

...

...

機械学習にはどのプログラミング言語を選択すればよいでしょうか?

機械学習やデータサイエンスの分野で仕事を得るために、開発者はどのプログラミング言語を学ぶべきでしょう...

人工知能は10の新たな雇用を生み出す

25秒で何ができるでしょうか?人間の記者たちがまだショックを受けている間に、ロボットはデータマイニン...

ビジネスマーケティングにおける人工知能の6つの応用

[[378540]] [51CTO.com クイック翻訳] 今日、人工知能(AI)に基づくソリューシ...

2020年のIEEEフェローリストが発表:約30%が中国人で、葉潔平、張同、周博文、熊慧などのAI専門家が選出

本日、IEEE 2020フェローのリストが発表されました。統計によると、280人以上が選出され、その...

スーパーマリオをプレイする3本の機械指がサイエンス誌に掲載された

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能は、大規模なビデオ操作における CDN ハードディスクの障害をどのように予測するのでしょうか?

現在の大規模なビデオ運用および保守プロセスでは、CDN の故障したハード ドライブの交換が大きな問題...