生成的ビデオ圧縮を有効にする: Google は GAN を使用して HEVC に匹敵するパフォーマンスを実現

[[416911]]

一般的に、ビデオ圧縮の目的は、時間的および空間的な冗長性を活用して視覚コンテンツを保持しながらビデオの保存に必要なビットレートを削減することであり、現在広く使用されているアプローチは、非ニューラル標準コーデック (H.264/AVC、H.265/HEVC など) です。いくつかの研究では、ニューラルネットワークがビデオ圧縮の学習において優れた進歩を遂げており、最新の方法はピーク信号対雑音比 (PSNR) の点では HEVC に匹敵し、MS-SSIM の点では HEVC よりも優れていることが示されています。しかし、リマスターされたビデオを公開した研究者はほとんどいないため、これらの方法は主観的な視覚品質の観点から評価されていません。

Google の研究者は、生成的敵対ネットワーク (GAN) に基づくニューラルビデオ圧縮方式を提案しました。この方式は、従来のニューラルビデオ圧縮方式よりも優れており、ユーザー調査では HEVC に匹敵するパフォーマンスを示しました。スペクトル解析によって駆動されるランダムシフトと非シフトを使用して、再帰フレーム圧縮によって発生する時間的累積誤差を削減する方法を提案します。この論文では、ネットワーク設計の選択と重要性について詳しく説明し、ユーザー調査でビデオ圧縮方法を評価する際の課題について説明します。

論文アドレス: https://arxiv.org/pdf/2107.12038.pdf

この論文の主な貢献は次のとおりです。

この研究では、ユーザー調査で測定された視覚品質の点で HEVC と競合する初のニューラル圧縮方式が提示されています。研究によれば、PSNR の点では競争力のある方法は、視覚品質の点ではパフォーマンスがはるかに劣ることがわかっています。
この研究では、残差入力をランダムにシフトし、出力を変更せずに維持することで、拡張中の一時的なエラーの蓄積を減らす手法を提案し、スペクトル分析を促進します。この研究では、この手法がシステムとトイ線形 CNN モデルの両方で有効であることが示されています。
この研究では、ユーザー調査によって測定された視覚品質と利用可能なビデオ品質メトリックとの相関関係を調査します。将来の研究を容易にするために、MCL-JCV ビデオデータセットの再構築とユーザースタディから取得したすべてのデータを公開します (リンクは付録 B にあります)。

研究方法

下の図は、本研究で使用したネットワークアーキテクチャを示しています。ここで、x = {x_1、x_2、...} はフレームシーケンスであり、x_1 は初期フレーム (I) です。この研究は低遅延モードで動作し、後続の (P) フレームを前のフレームから予測できるようにします。

復元動画です。

灰色のボックスは中間テンソルを視覚化したものです。灰色の線の左側が I フレームブランチ (青は CNN による学習を表します)、右側が P フレームブランチ (緑は CNN による学習を表します) です。破線はデコード中にはアクティブ化されず、識別器 D_I、D_P はトレーニング中にのみアクティブ化されます。 CNN のサイズは、その容量を大まかに示します。 SG は停止勾配操作、Blur はスケール空間ぼかし、Warp はバイキュービックワープ、UFlow は凍結オプティカルフローモデルです。

研究者たちは、忠実度の高い再構成ビデオを得るために以下の戦略を採用しました。

I フレームで信頼できる詳細を合成します。
これらの信憑性のある詳細をできるだけ明確に伝えます。
Pフレームに現れる新しいコンテンツについては、研究者は信頼できる詳細を合成できることを期待しています。

論文中の式はHiFiCに基づいています。条件付き GAN を使用すると、ジェネレータと識別器の両方が追加のラベルにアクセスできます。定式化では、データポイント x とラベル s が結合分布 p(x, s) に従うと想定されています。ジェネレータはサンプルy∼p(y)を分布p(x|y)にマッピングし、ディスクリミネータは与えられたペア(x, s)がジェネレータからではなくp(x|s)から来ているかどうかを予測するために使用されます。

セットアップでは、フレームシーケンスと再構築を処理する必要があります。 HiFiC の後、ジェネレータとディスクリミネータを潜在変数 y に基づいて条件付けします。I フレームの場合は y = yI、P フレームの場合は y = y_t,r です。問題を単純化するために、本研究の目的は各フレームの分布を一致させることです。つまり、長さ T のビデオシーケンスの場合、モデル st を取得することが目的です。

ランダムシフトによる展開時のエラー蓄積の防止

論文で述べられているように、「低レイテンシ」設定の反復的な性質は時間領域で一般化するのが難しく、エラーの伝播につながる可能性があります。理想的には、評価されるコンテンツが少なくとも T = 60 フレームである限り、トレーニングにシーケンスを使用しますが、実際には、メモリの制約により、現在のハードウェアではこれは実現できません。アクセラレータには最大 T = 12 を収めることができますが、これによりモデルのトレーニングが非常に遅くなります。

新しいモデルのプロトタイピングとトレーニングを加速し、アンローリング問題を防ぐために、本研究では以下のトレーニングスキームを採用しています。

1) ランダムに選択されたフレームのみで E_I、G_I、D_I を 1 000000 ステップトレーニングします。

2) E_I、G_I、D_Iをフリーズし、E_I、G_IからE_res、G_resの重みを初期化します。段階的アンローリングを使用して、E_flow、G_flow、E_res、G_res、D_P を 450000 ステップでトレーニングします。つまり、80k ステップまでは T = 2、300 ステップまでは T = 3、350 ステップまでは T = 4、400k までは T = 6、450k までは T = 9 を使用します。

この研究では、トレーニング済みの E_I、G_I は P フレームブランチの多くのバリエーションに再利用でき、実行間で E_I、G_I を共有することで比較しやすくなるため、ステップ 1) と 2) に分割しています。

比率コントローラを使用してトレーニング中のレートを制御します。ハイパーパラメータ λ_R は、ビットレートとその他の損失項 (GAN 損失など) 間のトレードオフを制御するために使用されます。

実験結果

データセット: トレーニングデータは、YouTube の公開ビデオから取得された、長さ T が 12 フレーム、フレームサイズが 256×256 の約 992,000 個の時空間的に切り取られたビデオセットで構成されています。これらのビデオの解像度は 1080p 以上、アスペクト比は 16:9 以上、フレームレートは 30 fps 以上である必要があります。

モデルとベースライン: ベースラインは「MSE のみ」と呼ばれ、研究で使用されたものと同じアーキテクチャとトレーニング手順を使用しますが、GAN 損失はありません。実験は、PSNR の点で HEVC に匹敵する最近のニューラル圧縮方式である Scale-Space Flow (SSF) とも比較されます。最後に、この研究では学習なしの HEVC と比較します。

研究者は、評価者の好みを図 1 にまとめ、パフォーマンスメトリックを図 7 に示しています。この研究では、3 つのビットレートで HEVC を比較し、その結果、研究で使用された方法は、0.064 bpp (14vs12) では HEVC と同等、0.13bpp (18vs9) ではより優れており、0.22bpp (16vs9) でも良好なパフォーマンスを発揮することが示されました。

GAN 損失が視覚品質に与える影響を評価するために、研究者らは GAN 損失を MSE のみおよび低レート (≈ 0.064 bpp) の SSF と比較しました。図 1 に示すように、MSE のみの場合、30 の結果のうち 4 つだけが優れており、4 つは同点です。これは、GAN 損失の重要性を示しており、SSF は最初の選択肢ではなく、同点はありません。研究者らは、MSE のみは PSNR の点では HEVC に匹敵するが (図 7)、視覚品質の点では大幅に劣ることを強調しています。

調査の結果、パフォーマンスの向上には次の要素が重要であることがわかりました。「自由潜在」を使用しないと、再構成効果がぼやけますが、これは図 3 の上部に示すように、MSE のみのベースラインによって生成される効果に似ています。研究では、条件付き識別器なしで「自由潜在値」を使用すると、再構成結果がぼやける可能性があることも判明しました。情報が UFlow に渡されない場合、実験結果は矛盾します。情報が UFlow に渡されても、フロー損失正規化 (つまり、式 6) が使用されない場合、実験結果も理想的ではありません。したがって、いずれかのコンポーネントを削除すると、時間的な一貫性が損なわれます (図 3 の下部を参照)。

全体として、図 1 の結果を予測する単一の指標はありませんが、PIM と LPIPS はいくつかの比較を正しくランク付けします。この結果はニューラル画像圧縮の分野で観察されたもので、主観的な品質に基づいてこれらの方法を正確にランク付けできる基準が現在存在しないため、最良の方法は人間によってランク付けされます。

<<: 私の国のAI技術は世界をリードしており、人工知能時代のリーダーになるでしょう。アメリカは今回も準優勝になるのでしょうか？

>>: OpenAIのライブ放送で音声コマンドAI自動プログラミングが披露されるが、Lao Luo TNTよりわずかに優れているだけ