ライブ放送室で見る高解像度1080Pは720Pほど良くないかもしれない

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

ライブ放送をよく見る友人は、次のような経験をしたことがあるかもしれません。

異なる生放送室では、可愛いキャスターのシャオユウとキャスターのシャオメイがともに1080Pの高解像度を使用している。しかし、放送環境が暗く、生放送設備が貧弱で、美肌機能が不自然だったため、シャオユウが見た映像の視覚効果はシャオメイの映像に比べてはるかに劣っていた。

時間が経つにつれて、シャオユウのライブ放送ルームの人気はどんどん低下し、ファンもどんどん減っていった。

より良いライブ放送体験を提供し、さまざまなハードウェアや放送環境の欠陥を補うために、Agora の最新の「リアルタイム HD スーパー画質」がこの問題を解決します。

これには、画質向上アルゴリズム、人間の目の知覚の最適化、モバイル端末でのリアルタイムの多重超解像など、多くのビデオブラックテクノロジーが含まれており、数秒で360Pビデオを1080Pに変換したり、インテリジェントなフィルライティングやビデオ品質の色彩強化を行ったり、ビデオの解像度、画質、スムーズな体験を総合的に向上させることができます。

画像の色と補助光のインテリジェントな調整：リストのトッププレーヤー全員が、これは良いと評価しました。

ライブ放送でも、音声通話やビデオ通話でも、ビデオ品質はユーザー体験を大きく左右します。この点で、Agora のビデオ技術チームは過去数年間、リアルタイムのビデオ品質向上に深く取り組んでおり、AI 品質を発表しました。

AI 画質は、ビデオキャプチャおよび再生デバイスのプラットフォーム機能を最大限に活用し、色、鮮明度、様式化など、ビデオ品質に影響を与えるさまざまな側面に関してワンストップソリューションを提供します。これには、暗部強調、色強調、ビデオノイズ低減などの多次元画質向上アルゴリズムの組み合わせが含まれます。

インテリジェントな補助光: 多くのアンカーは、ライブ放送中に暗い照明条件や逆光の放送環境に遭遇することが多く、その結果、シーンの画像が暗く不明瞭になり、有効な詳細情報が見えなくなります。これに対応して、SoundNet のダークライト強化アルゴリズムは、暗い照明条件、逆光、照明が不均一な環境でインテリジェントな補助光を実行し、ビデオ画像の明るさを適応的に改善し、画像の詳細な輪郭を復元し、画像の鮮明度を高めます。
アンカーが補助光などの機器を使用する場合、露出オーバーの問題に遭遇することがよくあります。Agora の「暗光強調」アルゴリズムは、この問題を回避し、通常の露出の領域が過度に強調されることを防ぎ、パフォーマンスと画質のバランスを最大限に高めます。このアルゴリズムはインテリジェントなシーン検出もサポートしており、照明条件に応じて動的かつ適応的にオン/オフを切り替えます。
色の彩度をインテリジェントに調整: ライブブロードキャスト中に、ホストの画面が灰色に変わり、歪んで見えることがあります。これは、画面の色の彩度に問題があることが原因であることが多いです。この点で、色彩強調アルゴリズムは、ビデオ画像の彩度をインテリジェントに調整し、画像の品質を向上させ、画像の色をより豊かでリアルにし、人々の主観的な視覚体験を向上させることができます。このアルゴリズムは、複数の肌色認識アルゴリズムも統合しており、色の強調によって人物の肌の色が不自然にならないようにします。
ビデオノイズ低減により BUFF ゲインが 2 倍に増加: 暗い場所でビデオを撮影する場合、携帯電話は光不足を補うために ISO 値を自動的に増加させ、画像にノイズが発生します。ビデオのライブ放送/通話シナリオでもノイズが発生します。Agora の「ビデオノイズ低減」機能は、ローエンドの取得デバイスや低照度のシーンでのちらつきノイズを大幅に低減し、「スミアリング」などのビデオノイズ低減の最も一般的な悪影響を最小限に抑えることができます。
さらに、ビデオノイズ低減には別のバフレイヤーがあり、これをオンにすると伝送ビットレートが 28 ～ 35% 節約され、ビデオ受信側の画質と鮮明度がさらに向上します。

最適化された人間の目の知覚：高解像度に注意を払う

ビデオや画像を見るとき、主観的に関心のある領域や興味のある領域はより鮮明に表示されてほしいと願うことがよくありますが、関心のない領域では、基本的な視覚要件を満たすだけで十分です。

人間の視覚特性に基づいて、ビデオコーディングでは、関心領域を低い比率で圧縮するか、ロスレスで圧縮して高品質の再構成画像を取得し、関心領域以外の領域には高い圧縮率を使用します。これがROI (Regions of Interest)ビデオコーディング技術です。

ライブ放送/ビデオ通話のシナリオでは、Agora は ROI と PVC アルゴリズムを使用して、人間の目で認識される画像の詳細を改善します。ROI は主に画像の詳細を強調し、PVC は色の最適化を強調して、視聴者の画質の主観的な体験を総合的に向上させます。 Agora SDK は主にライブブロードキャスト/ビデオソーシャル/会議アプリケーションを対象としているため、画像内の顔は関心領域または視覚的な焦点となることが多く、Agora AI 認識処理アルゴリズムは顔検出に基づくビデオエンコーディングテクノロジです。

実装原理は、顔領域を検出して関心領域を決定することです。エンコード処理中に、画像内の顔領域の量子化パラメータ値を減らし、より多くのビットレートを割り当てて関心領域の画質を向上させ、非顔領域の量子化パラメータ値を増やして、より少ないビットレートを割り当てます。画像の全体的な主観品質を失わないという前提の下で、ビデオのビットレートが削減され、ビデオ品質が向上します。

△ ROIエンコード処理後の画像比較

360Pが数秒で720Pに: 画質が飛躍的に向上

色、暗所での強調、ROI の人間の目の知覚の最適化など、ビデオ解像度を変えずに画質が向上します。一部の海外の未開発地域やスマートハードウェア端末では、デバイスの性能、伝送コスト、ユーザーの帯域幅などの制限により、低解像度のビデオが送信されることがよくあります。そのため、ビデオの品質を向上させてユーザーの視聴体験を向上させるには、解像度を救済する「魔法」を使用する必要があります。

ビデオ超解像技術は、ユーザー側で受信した低解像度のビデオを、豊かな質感、鮮明なディテール、優れた視聴体験を備えた高解像度のビデオに再構築するもので、超解像技術と呼ばれます。

現在、業界で主流の端末リアルタイム超解像アルゴリズムの多くは、PC 側に集中しています。PC 側のデバイスは、比較的強力なコンピューティングパワーを提供して、ビデオ品質の高性能リアルタイム強化を実現できます。

しかし、ライブ放送やビデオ通話などの現在のシナリオは、ユーザーデバイスのパフォーマンスが大きく異なるモバイル端末に徐々に集中しています。これにより、モバイル端末でのリアルタイム超解像の複雑さを極めて低く抑え、ほとんどのモバイルデバイスでリアルタイム処理を実現し、超低コンピューティングパワーで優れたビデオ超解像効果を維持する必要があります。

これに対応して、Agoraの人工知能アルゴリズムチームは、継続的な技術研究を経て、業界初のモバイル端末に基づくリアルタイム多重超解像アルゴリズムを発表しました。このアルゴリズムの利点は、低コストと低消費電力です。 GPUサーバーの導入を必要とせず、モバイルデバイス自身のCPU、GPU、またはNPUのみに依存してリアルタイム超解像を実現します。より少ないアルゴリズム計算量でビデオ解像度の多重超解像を実現し、ビデオ品質を効果的に向上させ、ビデオ伝送コストを削減します。通常の360P画質は、超解像によって540P効果を実現できます。

SoundNetのモバイルリアルタイム超解像の技術原理は、ディープラーニングアルゴリズムに基づいて豊富なビデオデータをトレーニングし、教師あり方式で多数の低解像度と高解像度の画像ペアから低解像度から高解像度へのマッピング関係を学習し、画像拡大後の豊富なディテールと鮮明な画像の効果を実現することです。その超解像効果と適応能力は、従来の超解像方法よりも大幅に優れています。

性能と適応性の観点から見ると、Agora の多重超解像アルゴリズムは、中低価格モデルでもリアルタイムで処理でき、iOS ビデオユーザーの 95% 以上と Android ユーザーの 85% 以上をカバーできます。さらに、CPU 消費量と SDK メモリ消費量が低く、平均 1 フレームの処理時間は 10 ミリ秒未満です。1 対 1 のビデオ通話シナリオで複数の超解像度を有効にした後でも、SDK メモリ消費量は約 10% しか増加しません。

動画が超高精細時代に入るにつれ、人々はライブ放送や動画インタラクションにおいて、より高精細で、より美しく、より自然な動画品質を求めています。アプリメーカーも時代の流れに乗り、動画の高解像度を確保しながら画質の細部を改善することに注力する必要があります。そうすることでのみ、より多くのユーザー市場を獲得し、より多くの収益をもたらすことができます。

ライブ放送/ソーシャルプラットフォームの画質をリアルタイムで向上させる必要がある場合は、Agora の「リアルタイム HD スーパー画質」をお試しください。「リアルタイムHDとスーパー画質」についてさらに詳しく知りたい場合は、バックグラウンドでメッセージを残していただければ、当社のスタッフからご連絡いたします。

<<: 大規模モデルは16,000以上の実世界のAPIを習得しており、清華大学などのToolLLMのツール使用能力はChatGPTに劣らない。

>>: 韓国の常温超伝導体の著者が論文撤回を要求！論文には欠陥があり、改善された後、通常のジャーナルに移されました