AIを使ってコーデックの退化を打破するクアルコムの最新のトップカンファレンス論文には大きなアイデアが盛り込まれている

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

AI を使用してビデオコーデックを開発するのは、現時点では少々「無謀」です。

補間、オーバーフィッティング、意味認識、GAN...これらの「脳の穴」や AI アルゴリズムがコーデックでも使用できると考えたことはありますか?

たとえば、元のアルゴリズムで各フレームを 16.4 KB に圧縮した後、森は非常にぼやけ始めました。

しかし、 GANを使用した後は、画像がより鮮明になるだけでなく、各フレームも小さくなり、必要なサイズはわずか14.5 KBになりました。

たとえば、ニューラルコーデックと組み合わせた補間のアイデアにより、最新の圧縮アルゴリズムをより効果的に機能させることができます...

この一連のアルゴリズムの背後にある原理は何ですか? AI を使用してコーデックを開発する可能性はどれほど大きいですか?

Qualcomm のエンジニアリングテクノロジー担当副社長であり、Qualcomm の AI 研究責任者でもあるJilei Hou 博士にインタビューし、Qualcomm の AI コーデックのアルゴリズムの詳細と原理について学びました。

コーデック規格は徐々に内向きになりつつある

もちろん、AI アルゴリズムの原理を理解する前に、まずビデオがどのように圧縮されるかを理解する必要があります。

圧縮されていない場合、毎秒 30 フレーム、8 ビットのシングルチャネルカラー深度を持つ 480p ビデオでは、毎秒80 Mbps 以上のデータを送信する必要があります。インターネット上で高解像度のビデオをリアルタイムで視聴することはほぼ不可能です。

現在、主にクロマサブサンプリング、フレーム内予測（空間的冗長性）、フレーム間予測（時間的冗長性）といった複数の次元での圧縮方法が存在します。

クロマサブサンプリングは、人間の目は色よりも明るさに敏感であるという原理に基づいています。画像の色データを圧縮しながらも、元の画像に近い視覚効果を維持します。

フレーム内予測では、同じフレーム内の同じ色の大きなブロック (下の図の床など) を使用して、画像内の隣接するピクセルの値を予測します。その結果、元のデータよりも圧縮しやすくなります。

フレーム間予測とは、隣接するフレーム間（下図の背景）の大量の重複データを除去するために使用される手法です。動き補償と呼ばれる方法を使用して、動きベクトルと予測値を使用して 2 つのフレーム間のピクセル差を計算します。

これらのビデオ圧縮方式をビデオコーデックに具体的に適用すると、パーティション分割、量子化、エントロピーコーディングなど、多くの圧縮作業を実行できます。

しかし、Hou Jilei博士によると、H.265からH.266では圧縮性能が約30%向上しているものの、エンコードの複雑さは30倍、デコードの複雑さは2倍に増加したとのことです。

これは、コーデック規格が徐々に「退化」の状態に入っていることを意味します。圧縮効果の向上は、本質的にコーデックの複雑さと引き換えにされており、これは本当の革新とはみなされません。

そのため、Qualcomm は既存の圧縮方式の原理とコーデックの構造から出発し、いくつかの興味深い AI ビデオエンコードおよびデコード方式を開発しました。

3方向の圧縮性能を向上

具体的には、現在の AI 研究には、フレーム間予測方法、デコードの複雑さの軽減、圧縮品質の向上という 3 つの方向性があります。

「Bフレームの予測」

クアルコムはフレーム間予測の観点から、Bフレームのエンコードとデコードに関する新しいアイデアを提案し、その論文がICCV 2021に掲載されました。

I フレーム: イントラピクチャ、P フレーム: 予測フレーム、B フレーム: 双方向補間予測フレーム

現在のコーデックのほとんどは I フレーム (フレーム内予測) と P フレームに重点を置いていますが、B フレームは I フレームと P フレームの両方の双方向動き補償を使用して圧縮パフォーマンスを向上させます。これは H.265 で正式にサポートされています (H.264 ではサポートされていません)。

B フレームを使用するとビデオ圧縮のパフォーマンスは向上しますが、まだ 2 つの問題が残っています。

1 つは、ビデオを事前にロードする必要があることです (B フレームを取得するには、後続の P フレームを事前にエンコードする必要があります)。もう 1 つは、冗長性が残ることです。I フレームと P フレームの相関性が高い場合、双方向の動き補正を使用するのは無駄になります。

たとえば、I フレーム → B フレーム → P フレームの順に、一定の距離を直線で移動するボールが 1 つだけの場合、双方向の動き補正を使用するのは無駄になります。

この場合、タイムスタンプを通じて物体の移動状態を直接予測でき、エンコードの計算量も少なくなるため、補間を使用する方がよいと思われます。

しかし、これにより新たな問題が発生します。I フレームと P フレームの間に非常に大きな変化がある場合、たとえば、ボールが B フレームで突然跳ね返った場合、補間を使用した効果は非常に低くなります (B フレームの跳ね返りを直接無視するのと同じです)。

そのため、Qualcomm は、ニューラルネットワークベースの P フレーム圧縮と補間補正を組み合わせ、AI を使用して補間後に必要な動き補正を予測するという 2 つを組み合わせることを選択しました。

確かにその効果は非常に良好で、以前 CVPR 2020 で Google が保持していた SOTA 記録よりも優れており、H.265 標準に基づく現在のオープンソースコーデックの圧縮性能よりも優れています。

さらに、Qualcomm は他の AI アルゴリズムもいくつか試しました。

「オーバーフィッティング」を使用してデコードの複雑さを軽減する

コーデック規格の退化に対応して、Qualcomm は、ビデオビットストリームに基づいてモデルの重み増分を「オーバーフィッティング」のように更新する適応アルゴリズムとして AI を使用することも検討しました。関連論文は ICLR 2021 で公開されています。

このアプローチは、単一のモデルを「オーバーフィッティング」し、ビットストリーム内の重みの増分をエンコードして、それを元のビットストリームと比較することを意味します。効果がより高ければ、この送信方法を使用してください。

このアプローチにより、圧縮パフォーマンスを低下させることなく、デコードの複雑さを 72% 削減しながら、以前の B フレームモデルで達成された SOTA 結果を維持できることがわかりました。

もちろん、ビデオ圧縮のパフォーマンスに加えて、圧縮された単一フレーム画像の品質も考慮する必要があります。結局のところ、視覚効果もビデオ圧縮で追求される基準の 1 つです。

意味認識とGANによる圧縮品質の向上

意味認識と GAN を使用するというアイデアは比較的単純です。

セマンティック認識により、AI は人間の視覚に基づいて考慮し、ビデオを視聴するときに最も注目する部分を選択し、その部分のビット割り当てに焦点を当てることができます。

例えば、テニスの試合を観戦しているとき、試合の横にいる観客の様子や景色がどうなっているかよりも、選手の動きや打ち方などに注目することが多いです。

次に、次のように、対象の人物にさらに多くのビットを配置するように AI をトレーニングします。

構造も比較的単純で、一般的なセマンティックセグメンテーションマスクです。

この方法により、ビデオが圧縮されたときに画像全体が「モザイク」として表示されるのではなく、関心のあるローカル領域のフレーム品質が効果的に向上し、より優れた視聴体験が得られます。

Qualcomm によれば、この意味を考慮した画像圧縮は現在、ビデオ圧縮にも拡張されており、ローカル領域にも焦点を当てており、非常に良好な結果が得られています。

GAN ベースの方法は、より少ないビットを使用して同じ視覚品質の画像を生成することに重点を置いています。

Qualcomm によると、データセットは CVPR での画像圧縮のためのワークショップ CLIC から提供されたもので、約 1,600 枚の高解像度画像が提供されています。独自に開発したモデルを使用して、それをトレーニングすることで、良好な結果が得られます。

これが冒頭の写真の効果です。サイズが圧縮された後でも、GAN ベースの画像はより優れた視覚品質を実現できます。

これらの技術がすぐに携帯電話やその他のデバイスに適用され、遅延なく動画を視聴できるようになることを期待しています。

関連論文:
[1] https://arxiv.org/abs/2104.00531
[2] https://arxiv.org/abs/2101.08687

<<: 公共の場での顔認識は全面的に禁止される可能性があります。ちょうど今、欧州議会はAI規制を強化することを決定した

>>: Pytorch Lightning の 6 つのヒントを使用して、ディープラーニングパイプラインを 10 倍高速化します。

人工知能が幼稚園のキャンパスに参入し、あらゆる面でキャンパスの安全を確保

ブログ

26億のパラメータ、智源と清華が中国の大規模事前トレーニングモデルをオープンソース化

AIを使ってコーデックの退化を打破するクアルコムの最新のトップカンファレンス論文には大きなアイデアが盛り込まれている

コーデック規格は徐々に内向きになりつつある

3方向の圧縮性能を向上

「Bフレームの予測」

「オーバーフィッティング」を使用してデコードの複雑さを軽減する

意味認識とGANによる圧縮品質の向上

人工知能が幼稚園のキャンパスに参入し、あらゆる面でキャンパスの安全を確保

26億のパラメータ、智源と清華が中国の大規模事前トレーニングモデルをオープンソース化

人工知能が他に何ができるか知りたいですか?明確な「ベイジアン意識」を持たなければならない

AIは人間の脳を模倣しています！ 2021年のトップ10の会議論文: 脳は「教師なし」でも学習する

Web攻撃検出のための機械学習の深層実践

Google が使用する 4 つのデータ指標モデル

2019 ディープラーニングフレームワーク対決: PyTorch がトップ AI カンファレンスを席巻し、NeurIPS 2019 で再び優勝!

Jupyterは、コードを書くだけでなく、さまざまな大規模モデルを呼び出すことができる無料のAIアシスタントをリリースしました

推薦する

ロボット工学、自動化、AIでイノベーションを加速

AIが材料科学に革命を起こす！ Google DeepMindの新しい研究がNatureに掲載され、一度に220万の新素材を予測した。

上位985大学の「人工知能」関連学部・専攻一覧！ぜひ集めてみてください！

AIとGo言語をシームレスに統合する方法を学ぶ

Facebook Research、ディープラーニングを容易にする3つの新しいフレームワークを公開

GMIC 2018: DataVisor が成長中の企業に AI 不正防止機能を導入する方法

CLIP と LLM を使用したマルチモーダル RAG システムの構築

アリババAIは1日1兆回以上呼び出され、中国を代表する人工知能企業に

LLaMA、BERT などの導入課題を解決: 初の 4 ビット浮動小数点量子化 LLM が登場

GPT-2からGPT-4まで、大規模言語モデルの革新を探る

リアルタイム6自由度オブジェクトトラッキングを実現するDeepACが登場

人工知能業界が「再始動」：2021年の5つの主要トレンドに関する洞察

注目の話題 | 3年生が独力でAIモデルを解読