AIを使ってコーデックの退化を打破するクアルコムの最新のトップカンファレンス論文には大きなアイデアが盛り込まれている

AIを使ってコーデックの退化を打破するクアルコムの最新のトップカンファレンス論文には大きなアイデアが盛り込まれている

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

AI を使用してビデオ コーデックを開発するのは、現時点では少々「無謀」です。

補間、オーバーフィッティング、意味認識、GAN...これらの「脳の穴」や AI アルゴリズムがコーデックでも使用できると考えたことはありますか?

たとえば、元のアルゴリズムで各フレームを 16.4 KB に圧縮した後、森は非常にぼやけ始めました。

しかし、 GANを使用した後は、画像がより鮮明になるだけでなく、各フレームも小さくなり、必要なサイズはわずか14.5 KBになりました。

たとえば、ニューラル コーデックと組み合わせた補間のアイデアにより、最新の圧縮アルゴリズムをより効果的に機能させることができます...

この一連のアルゴリズムの背後にある原理は何ですか? AI を使用してコーデックを開発する可能性はどれほど大きいですか?

Qualcomm のエンジニアリング テクノロジー担当副社長であり、Qualcomm の AI 研究責任者でもあるJilei Hou 博士にインタビューし、Qualcomm の AI コーデックのアルゴリズムの詳細と原理について学びました。

コーデック規格は徐々に内向きになりつつある

もちろん、AI アルゴリズムの原理を理解する前に、まずビデオがどのように圧縮されるかを理解する必要があります。

圧縮されていない場合、毎秒 30 フレーム、8 ビットのシングル チャネル カラー深度を持つ 480p ビデオでは、毎秒80 Mbps 以上のデータを送信する必要があります。インターネット上で高解像度のビデオをリアルタイムで視聴することはほぼ不可能です。

現在、主にクロマサブサンプリング、フレーム内予測(空間的冗長性)、フレーム間予測(時間的冗長性)といった複数の次元での圧縮方法が存在します。

クロマサブサンプリングは、人間の目は色よりも明るさに敏感であるという原理に基づいています。画像の色データを圧縮しながらも、元の画像に近い視覚効果を維持します。

フレーム内予測では、同じフレーム内の同じ色の大きなブロック (下の図の床など) を使用して、画像内の隣接するピクセルの値を予測します。その結果、元のデータよりも圧縮しやすくなります。

[[427514]]

フレーム間予測とは、隣接するフレーム間(下図の背景)の大量の重複データを除去するために使用される手法です。動き補償と呼ばれる方法を使用して、動きベクトルと予測値を使用して 2 つのフレーム間のピクセル差を計算します。

これらのビデオ圧縮方式をビデオ コーデックに具体的に適用すると、パーティション分割、量子化、エントロピー コーディングなど、多くの圧縮作業を実行できます。

しかし、Hou Jilei博士によると、H.265からH.26​​6では圧縮性能が約30%向上しているものの、エンコードの複雑さは30倍、デコードの複雑さは2倍に増加したとのことです。

これは、コーデック規格が徐々に「退化」の状態に入っていることを意味します。圧縮効果の向上は、本質的にコーデックの複雑さと引き換えにされており、これは本当の革新とはみなされません。

そのため、Qualcomm は既存の圧縮方式の原理とコーデックの構造から出発し、いくつかの興味深い AI ビデオ エンコードおよびデコード方式を開発しました。

3方向の圧縮性能を向上

具体的には、現在の AI 研究には、フレーム間予測方法、デコードの複雑さの軽減、圧縮品質の向上という 3 つの方向性があります。

「Bフレームの予測」

クアルコムはフレーム間予測の観点から、Bフレームのエンコードとデコードに関する新しいアイデアを提案し、その論文がICCV 2021に掲載されました。

I フレーム: イントラピクチャ、P フレーム: 予測フレーム、B フレーム: 双方向補間予測フレーム

現在のコーデックのほとんどは I フレーム (フレーム内予測) と P フレームに重点を置いていますが、B フレームは I フレームと P フレームの両方の双方向動き補償を使用して圧縮パフォーマンスを向上させます。これは H.265 で正式にサポートされています (H.264 ではサポートされていません)。

B フレームを使用するとビデオ圧縮のパフォーマンスは向上しますが、まだ 2 つの問題が残っています。

1 つは、ビデオを事前にロードする必要があることです (B フレームを取得するには、後続の P フレームを事前にエンコードする必要があります)。もう 1 つは、冗長性が残ることです。I フレームと P フレームの相関性が高い場合、双方向の動き補正を使用するのは無駄になります。

たとえば、I フレーム → B フレーム → P フレームの順に、一定の距離を直線で移動するボールが 1 つだけの場合、双方向の動き補正を使用するのは無駄になります。

この場合、タイムスタンプを通じて物体の移動状態を直接予測でき、エンコードの計算量も少なくなるため、補間を使用する方がよいと思われます。

しかし、これにより新たな問題が発生します。I フレームと P フレームの間に非常に大きな変化がある場合、たとえば、ボールが B フレームで突然跳ね返った場合、補間を使用した効果は非常に低くなります (B フレームの跳ね返りを直接無視するのと同じです)。

そのため、Qualcomm は、ニューラル ネットワーク ベースの P フレーム圧縮と補間補正を組み合わせ、AI を使用して補間後に必要な動き補正を予測するという 2 つを組み合わせることを選択しました。

確かにその効果は非常に良好で、以前 CVPR 2020 で Google が保持していた SOTA 記録よりも優れており、H.265 標準に基づく現在のオープンソース コーデックの圧縮性能よりも優れています。

さらに、Qualcomm は他の AI アルゴリズムもいくつか試しました。

「オーバーフィッティング」を使用してデコードの複雑さを軽減する

コーデック規格の退化に対応して、Qualcomm は、ビデオ ビットストリームに基づいてモデルの重み増分を「オーバーフィッティング」のように更新する適応アルゴリズムとして AI を使用することも検討しました。関連論文は ICLR 2021 で公開されています。

このアプローチは、単一のモデルを「オーバーフィッティング」し、ビットストリーム内の重みの増分をエンコードして、それを元のビットストリームと比較することを意味します。効果がより高ければ、この送信方法を使用してください。

このアプローチにより、圧縮パフォーマンスを低下させることなく、デコードの複雑さを 72% 削減しながら、以前の B フレーム モデルで達成された SOTA 結果を維持できることがわかりました。

もちろん、ビデオ圧縮のパフォーマンスに加えて、圧縮された単一フレーム画像の品質も考慮する必要があります。結局のところ、視覚効果もビデオ圧縮で追求される基準の 1 つです。

意味認識とGANによる圧縮品質の向上

意味認識と GAN を使用するというアイデアは比較的単純です。

セマンティック認識により、AI は人間の視覚に基づいて考慮し、ビデオを視聴するときに最も注目する部分を選択し、その部分のビット割り当てに焦点を当てることができます。

例えば、テニスの試合を観戦しているとき、試合の横にいる観客の様子や景色がどうなっているかよりも、選手の動きや打ち方などに注目することが多いです。

次に、次のように、対象の人物にさらに多くのビットを配置するように AI をトレーニングします。

構造も比較的単純で、一般的なセマンティックセグメンテーションマスクです。

この方法により、ビデオが圧縮されたときに画像全体が「モザイク」として表示されるのではなく、関心のあるローカル領域のフレーム品質が効果的に向上し、より優れた視聴体験が得られます。

Qualcomm によれば、この意味を考慮した画像圧縮は現在、ビデオ圧縮にも拡張されており、ローカル領域にも焦点を当てており、非常に良好な結果が得られています。

GAN ベースの方法は、より少ないビットを使用して同じ視覚品質の画像を生成することに重点を置いています。

Qualcomm によると、データセットは CVPR での画像圧縮のためのワークショップ CLIC から提供されたもので、約 1,600 枚の高解像度画像が提供されています。独自に開発したモデルを使用して、それをトレーニングすることで、良好な結果が得られます。

これが冒頭の写真の効果です。サイズが圧縮された後でも、GAN ベースの画像はより優れた視覚品質を実現できます。

これらの技術がすぐに携帯電話やその他のデバイスに適用され、遅延なく動画を視聴できるようになることを期待しています。

関連論文:
[1] https://arxiv.org/abs/2104.00531
[2] https://arxiv.org/abs/2101.08687

<<:  公共の場での顔認識は全面的に禁止される可能性があります。ちょうど今、欧州議会はAI規制を強化することを決定した

>>:  Pytorch Lightning の 6 つのヒントを使用して、ディープラーニング パイプラインを 10 倍高速化します。

ブログ    
ブログ    

推薦する

...

チューリング賞受賞者のベンジオが新論文を発表、Redditがクラッシュ: アイデアがクラッシュ

[[403771]]機械学習における重要な研究はモデルの一般化を改善することであり、モデルをトレーニ...

...

Googleなどのテクノロジー大手が新技術を発表:人工知能が自ら進化できるようにする

ニューヨーク・タイムズの最近の報道によると、Googleなどのテクノロジー大手は、人工知能の専門家不...

人工知能の「指紋採取」が検出困難な癌と闘う

検出が難しい膠芽腫などの癌の生存率は1桁ですが、早期治療には検出、治療、監視のための高度な技術が必要...

...

ディープラーニングの最適化手法の簡単な紹介: 勾配降下法

実際、ディープラーニングは多くの厄介な最適化問題を解決しています。ニューラル ネットワークは、問題に...

研究者は、現在のAIトレーニングの効率が低すぎると不満を述べている

海外メディアによると、グーグルの研究者は以前、グーグルが現在検索やその他のテキスト分析製品に使用して...

将来、人工知能に置き換えられない仕事が最も収益性が高くなるでしょう。それがどれか見てみましょう。

誰もが知っているように、昔は銀行に行って業務を処理するには長い列に並ばなければなりませんでした。業務...

ChatGPTはオンラインモードを緊急にシャットダウンし、有料のウェブページに無料でアクセスできることが一度明らかになった。

ChatGPT を使用して有料の Web コンテンツに無料でアクセスすることは、まもなくできなくな...

...

有名な文系大学が人工知能の分野に参入すると、何をもたらすことができるのでしょうか?

[[263482]]老舗の文系大学が人工知能人材育成分野への参入を正式に発表した。 「中国人民大学...

どのAIダンスが一番いいですか? Google の 3D ダンサーが音楽に合わせて踊り、DanceNet に挑戦

今回、トランスフォーマーはダンス生成タスクに参加しました。芸術分野では、AIが生成した音楽やAIが描...

人工知能と機械学習の違いと機能は何ですか?

人工知能と機械学習。これらの言葉だけでも、意思決定を行うコンピューターが部署や課全体に取って代わる世...

...