生成的ビデオ圧縮を有効にする: Google は GAN を使用して HEVC に匹敵するパフォーマンスを実現

生成的ビデオ圧縮を有効にする: Google は GAN を使用して HEVC に匹敵するパフォーマンスを実現

[[416911]]

一般的に、ビデオ圧縮の目的は、時間的および空間的な冗長性を活用して視覚コンテンツを保持しながらビデオの保存に必要なビットレートを削減することであり、現在広く使用されているアプローチは、非ニューラル標準コーデック (H.264/AVC、H.265/HEVC など) です。いくつかの研究では、ニューラル ネットワークがビデオ圧縮の学習において優れた進歩を遂げており、最新の方法はピーク信号対雑音比 (PSNR) の点では HEVC に匹敵し、MS-SSIM の点では HEVC よりも優れていることが示されています。しかし、リマスターされたビデオを公開した研究者はほとんどいないため、これらの方法は主観的な視覚品質の観点から評価されていません。

Google の研究者は、生成的敵対ネットワーク (GAN) に基づくニューラル ビデオ圧縮方式を提案しました。この方式は、従来のニューラル ビデオ圧縮方式よりも優れており、ユーザー調査では HEVC に匹敵するパフォーマンスを示しました。スペクトル解析によって駆動されるランダムシフトと非シフトを使用して、再帰フレーム圧縮によって発生する時間的累積誤差を削減する方法を提案します。この論文では、ネットワーク設計の選択と重要性について詳しく説明し、ユーザー調査でビデオ圧縮方法を評価する際の課題について説明します。

論文アドレス: https://arxiv.org/pdf/2107.12038.pdf

この論文の主な貢献は次のとおりです。

  • この研究では、ユーザー調査で測定された視覚品質の点で HEVC と競合する初のニューラル圧縮方式が提示されています。研究によれば、PSNR の点では競争力のある方法は、視覚品質の点ではパフォーマンスがはるかに劣ることがわかっています。
  • この研究では、残差入力をランダムにシフトし、出力を変更せずに維持することで、拡張中の一時的なエラーの蓄積を減らす手法を提案し、スペクトル分析を促進します。この研究では、この手法がシステムとトイ線形 CNN モデルの両方で有効であることが示されています。
  • この研究では、ユーザー調査によって測定された視覚品質と利用可能なビデオ品質メトリックとの相関関係を調査します。将来の研究を容易にするために、MCL-JCV ビデオ データセットの再構築とユーザー スタディから取得したすべてのデータを公開します (リンクは付録 B にあります)。

研究方法

下の図は、本研究で使用したネットワークアーキテクチャを示しています。ここで、x = {x_1、x_2、...} はフレームシーケンスであり、x_1 は初期フレーム (I) です。この研究は低遅延モードで動作し、後続の (P) フレームを前のフレームから予測できるようにします。

復元動画です。

灰色のボックスは中間テンソルを視覚化したものです。灰色の線の左側が I フレーム ブランチ (青は CNN による学習を表します)、右側が P フレーム ブランチ (緑は CNN による学習を表します) です。破線はデコード中にはアクティブ化されず、識別器 D_I、D_P はトレーニング中にのみアクティブ化されます。 CNN のサイズは、その容量を大まかに示します。 SG は停止勾配操作、Blur はスケール空間ぼかし、Warp はバイキュービックワープ、UFlow は凍結オプティカルフローモデルです。

研究者たちは、忠実度の高い再構成ビデオを得るために以下の戦略を採用しました。

  • I フレームで信頼できる詳細を合成します。
  • これらの信憑性のある詳細をできるだけ明確に伝えます。
  • Pフレームに現れる新しいコンテンツについては、研究者は信頼できる詳細を合成できることを期待しています。

論文中の式はHiFiCに基づいています。条件付き GAN を使用すると、ジェネレータと識別器の両方が追加のラベルにアクセスできます。定式化では、データ ポイント x とラベル s が結合分布 p(x, s) に従うと想定されています。ジェネレータはサンプルy∼p(y)を分布p(x|y)にマッピングし、ディスクリミネータは与えられたペア(x, s)がジェネレータからではなくp(x|s)から来ているかどうかを予測するために使用されます。

セットアップでは、フレームシーケンスと再構築を処理する必要があります。 HiFiC の後、ジェネレータとディスクリミネータを潜在変数 y に基づいて条件付けします。I フレームの場合は y = yI、P フレームの場合は y = y_t,r です。問題を単純化するために、本研究の目的は各フレームの分布を一致させることです。つまり、長さ T のビデオ シーケンスの場合、モデル st を取得することが目的です。

ランダムシフトによる展開時のエラー蓄積の防止

論文で述べられているように、「低レイテンシ」設定の反復的な性質は時間領域で一般化するのが難しく、エラーの伝播につながる可能性があります。理想的には、評価されるコンテンツが少なくとも T = 60 フレームである限り、トレーニングにシーケンスを使用しますが、実際には、メモリの制約により、現在のハードウェアではこれは実現できません。アクセラレータには最大 T = 12 を収めることができますが、これによりモデルのトレーニングが非常に遅くなります。

新しいモデルのプロトタイピングとトレーニングを加速し、アンローリング問題を防ぐために、本研究では以下のトレーニングスキームを採用しています。

1) ランダムに選択されたフレームのみで E_I、G_I、D_I を 1 000000 ステップトレーニングします。

2) E_I、G_I、D_Iをフリーズし、E_I、G_IからE_res、G_resの重みを初期化します。段階的アンローリングを使用して、E_flow、G_flow、E_res、G_res、D_P を 450000 ステップでトレーニングします。つまり、80k ステップまでは T = 2、300 ステップまでは T = 3、350 ステップまでは T = 4、400k までは T = 6、450k までは T = 9 を使用します。

この研究では、トレーニング済みの E_I、G_I は P フレーム ブランチの多くのバリエーションに再利用でき、実行間で E_I、G_I を共有することで比較しやすくなるため、ステップ 1) と 2) に分割しています。

比率コントローラを使用してトレーニング中のレートを制御します。ハイパーパラメータ λ_R は、ビットレートとその他の損失項 (GAN 損失など) 間のトレードオフを制御するために使用されます。

実験結果

データセット: トレーニング データは、YouTube の公開ビデオから取得された、長さ T が 12 フレーム、フレーム サイズが 256×256 の約 992,000 個の時空間的に切り取られたビデオ セットで構成されています。これらのビデオの解像度は 1080p 以上、アスペクト比は 16:9 以上、フレーム レートは 30 fps 以上である必要があります。

モデルとベースライン: ベースラインは「MSE のみ」と呼ばれ、研究で使用されたものと同じアーキテクチャとトレーニング手順を使用しますが、GAN 損失はありません。実験は、PSNR の点で HEVC に匹敵する最近のニューラル圧縮方式である Scale-Space Flow (SSF) とも比較されます。最後に、この研究では学習なしの HEVC と比較します。

研究者は、評価者の好みを図 1 にまとめ、パフォーマンス メトリックを図 7 に示しています。この研究では、3 つのビット レートで HEVC を比較し、その結果、研究で使用された方法は、0.064 bpp (14vs12) では HEVC と同等、0.13bpp (18vs9) ではより優れており、0.22bpp (16vs9) でも良好なパフォーマンスを発揮することが示されました。

GAN 損失が視覚品質に与える影響を評価するために、研究者らは GAN 損失を MSE のみおよび低レート (≈ 0.064 bpp) の SSF と比較しました。図 1 に示すように、MSE のみの場合、30 の結果のうち 4 つだけが優れており、4 つは同点です。これは、GAN 損失の重要性を示しており、SSF は最初の選択肢ではなく、同点はありません。研究者らは、MSE のみは PSNR の点では HEVC に匹敵するが (図 7)、視覚品質の点では大幅に劣ることを強調しています。

調査の結果、パフォーマンスの向上には次の要素が重要であることがわかりました。「自由潜在」を使用しないと、再構成効果がぼやけますが、これは図 3 の上部に示すように、MSE のみのベースラインによって生成される効果に似ています。研究では、条件付き識別器なしで「自由潜在値」を使用すると、再構成結果がぼやける可能性があることも判明しました。情報が UFlow に渡されない場合、実験結果は矛盾します。情報が UFlow に渡されても、フロー損失正規化 (つまり、式 6) が使用されない場合、実験結果も理想的ではありません。したがって、いずれかのコンポーネントを削除すると、時間的な一貫性が損なわれます (図 3 の下部を参照)。

全体として、図 1 の結果を予測する単一の指標はありませんが、PIM と LPIPS はいくつかの比較を正しくランク付けします。この結果はニューラル画像圧縮の分野で観察されたもので、主観的な品質に基づいてこれらの方法を正確にランク付けできる基準が現在存在しないため、最良の方法は人間によってランク付けされます。

<<:  私の国のAI技術は世界をリードしており、人工知能時代のリーダーになるでしょう。アメリカは今回も準優勝になるのでしょうか?

>>:  OpenAIのライブ放送で音声コマンドAI自動プログラミングが披露されるが、Lao Luo TNTよりわずかに優れているだけ

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

AIが麻雀をプレイする論文:理系の学生にとって麻雀はこう見える

AI 研究の初期の頃から、チェッカー、チェス、囲碁、ポーカーから StarCraft II に至るま...

顔認識の乱用は顔だけでなく他の部分にも害を及ぼす

[[432791]]中国消費者協会(以下、「中国消費者協会」)は10月28日、事業者に対し、個人情報...

アプリケーション管理における AI/ML のユースケース

[[320826]]概要人工知能ベースの運用 (AIOps) は、人工知能と従来の AM/IM 運用...

ロボット兵士はもはやSFではない

ロボット兵士はまもなく現実のものとなり、戦争作戦の遂行において人間の兵士を支援し、負傷した兵士に医療...

2021年第1四半期のロボット産業の新製品在庫

2021 年の最初の 3 か月間にロボット業界ではどのような新製品が登場しましたか? [[38857...

AIが教育技術分野にもたらす変化 パーソナライズされた学習が従来の教育方法を超える

最近のコロナ時代では、教育は大きなビジネスへと変貌しました。初等、中等、高等教育機関における学習は目...

ロボットは感染症の蔓延を抑制するためにどのように役立つのでしょうか?

COVID-19の時代において、ロボット工学とテクノロジーは協力して伝染性ウイルスの拡散を防いでい...

2018 年に人工知能を変える 5 つのビッグデータ トレンド

[[211908]]ビッグデータや人工知能の広範な導入を通じて、これらの新興技術の大きな影響が世界経...

データが少ないとディープラーニングは使えないなんて誰が言ったのでしょうか?私はこのことについて責任を負わないよ!

ある観点から見ると、激しい競争は業界の人気を示しています。最近、人気のディープラーニングも論争を引き...

米メディア:人工知能の発展には5つの大きなトレンドが予想される

3月15日、アメリカの隔週刊ウェブサイト「フォーブス」は「2021年の人工知能:期待できる(または期...

現在のディープラーニングが人工知能にとって行き詰まりとなっている理由を20の理由から説明します。

ディープラーニングが初めて登場したとき、ほとんどの AI 研究者はそれを嘲笑しましたが、わずか数年で...

アメリカのショッピングプラットフォームStitch Fixの王建強氏:データ主導の意思決定サポートと製品インテリジェンス

[51CTO.comより] 最近、51CTOが主催するWOTAグローバルアーキテクチャと運用技術サミ...

自動運転車がコーナーを「見通し」できるようにする

自動運転車がその名に恥じない性能を発揮するには、満たすべき要件が数多くありますが、環境の認識と理解が...

プログラマのための基本アルゴリズム: 再帰の説明

[[346111]]序文再帰は非常に重要なアルゴリズムの考え方です。フロントエンド開発者であっても、...