74KBの写真も高解像度です。Googleはニューラルネットワークを使用して新しい画像圧縮アルゴリズムを作成しました

74KBの写真も高解像度です。Googleはニューラルネットワークを使用して新しい画像圧縮アルゴリズムを作成しました

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

画像の読み込みについてまだ心配ですか?

最新の朗報としては、Google チームが、GAN とニューラル ネットワーク ベースの圧縮アルゴリズムを組み合わせたHiFiCという画像圧縮方式を採用したことです。この方式では、ビット レートが高度に圧縮されていても、高い忠実度で画像を復元できます。

名前が示すように、GAN (Generative Adversarial Networks) では、2 つのニューラル ネットワークが相互に「トレーニング」できます。1 つのニューラル ネットワークは現実世界に近いデータを生成する役割を担い、もう 1 つのニューラル ネットワークは実際のデータと生成されたデータを区別する役割を担います。

簡単に言えば、1 つのニューラル ネットワークは「偽物」であり、もう 1 つのニューラル ネットワークは「偽物」です。システムがバランスに達すると、生成されたデータは実際のデータに非常に近くなり、「偽物でありながら本物」という効果が得られます。

以下は、このアルゴリズムによって表示される画像と JPG 形式の画像の比較です。

画像サイズが似ている場合(HiFiC サイズは 74kB、JPG 画像サイズは 78kB)、アルゴリズムによって示される画像圧縮効果がはるかに優れていることがわかります。

元の画像と比較すると、HiFiC による復元効果は依然として優れています。 (元の絵の真ん中に線が引かれていたのではないですか?)

現在は特別な時期であり、多くの外国人ネットユーザーが依然として自宅隔離中だ。NetflixやYouTubeの視聴回数は急増し、一部の動画サイトではデータ量の急増に対応するため、オンライン動画の再生画質を落とさざるを得ない状況にまでなっている。

しかし、高解像度の動画を観ることに慣れているネットユーザーらは、当然ながら突然の「ぼやけ攻撃」に不満を漏らした。

あるネットユーザーの言葉を借りれば、同様の技術が動画業界に応用されれば、Netflix や YouTube は特に喜ぶだろう。結局のところ、この高解像度、低ビットレートの画像復元は本当に魅力的だ。

すごいですね。ビデオでも同じことができたら、Netflix や YouTube もきっと喜ぶでしょう。

実際、HiFiC アルゴリズムの原理を理解すれば、実装するのはそれほど難しくないことがわかります。

元の画像に近い画像再構成アルゴリズム

これまで、関連研究ではニューラルネットワークを使用して画像を圧縮してきました。近年、敵対的生成ネットワークの台頭により、 GANを使用してリアルな画像を生成するアルゴリズムも数多くあります。

この 2 つを組み合わせる方法があれば、画像圧縮効果はより良くなり、人間の知覚に近くなるでしょうか?

画像圧縮モデルは、この 2 つの特性に基づいて設計されています。ニューラル ネットワーク ベースの画像圧縮アルゴリズムに基づいて、GAN を使用して生成された画像をさらに人間の視覚に近づけ、画像サイズと視覚のバランスを実現します。

HiFiC のアーキテクチャは 4 つの主要部分に分かれており、E はエンコーダ、G はジェネレータ、D はディスクリミネーター、P は E の出力 E(x) (ここでは y で表されます) の確率モデル、つまり P は y の確率分布をシミュレートするために使用されます。

GAN の動作の核となる考え方は、アーキテクチャ内のジェネレーター G が、何らかの方法でサンプルが本物であると判断するように、識別器 D を「だます」必要があるということです。

確率モデル P は、この操作を実現するための条件です。

次に、E、G、P は畳み込みニューラル ネットワークとしてパラメータ化され、レート歪み最適化の条件下で共同でトレーニングできるようになります。

同時に、研究者らはいくつかの既存の GAN アルゴリズム アーキテクチャを微調整し、HiFiC アーキテクチャにより適したものにしました。

研究では、GAN とディープラーニングを組み合わせた HiFiC アルゴリズムが予想外の結果を達成したことが判明しました。

モデル評価

下の図は、現在主流となっているいくつかの画質評価基準を使用して、いくつかの最先端の画像圧縮アルゴリズムと HiFiC アルゴリズムを比較したものです。

図中、評価基準の後ろの矢印は、データが低いほど(↓)、データが高いほど(↑)画質が良いことを示しています。

比較しやすいように、結果には HiFiC アルゴリズム (図の赤い点)、GAN を使用しない比較アルゴリズム (図のオレンジ色の四角)、現在より進化した M&S アルゴリズム (図の青い四角)、および BPG アルゴリズム (図の青い点) が使用されました。

結果から判断すると、HiFiC アルゴリズムは FID、KID、NIQE、および LPIPS 評価基準では最高ですが、MS-SSIM および PSNR 基準では平均的なパフォーマンスを示します。

評価基準の違いからもわかるように、それぞれの画質基準が必ずしも圧縮技術を判断する最良の方法というわけではありません。

ユーザーレビューの比較

結局のところ、画像は閲覧するためのものであり、最終的な意思決定権はユーザーに委ねられる必要があります。

画像が「鮮明」であるかどうかは、ある程度は人間の目によって判断されます。

これを念頭に置いて、チームは研究モデルを採用し、ボランティアのグループがアルゴリズムの比較に参加できるようにしました。

まず、テスト画像のランダムな切り抜き画像を見せ、ボランティアが切り抜き画像の1つに興味を持ったら、その部分を使ってすべてのアルゴリズムを比較しました。

ボランティアたちは、元の画像とアルゴリズムで処理された画像を比較した後、元の画像に「視覚的に」近いと思われる圧縮アルゴリズムを選択しました。

すべてのアルゴリズムが選択されると、HiFiC の実際の効果を測定するランキングが表示されます。 (HiFiCの添え字Hi、Mi、Loは、高から低までの3つの異なるビットレートしきい値を設定するアルゴリズムを表します)

上の図では、スコアが低いほど、ユーザーの目には画像が「鮮明」に見えます。図から、圧縮効果 0.237bpp の HiFiC(Mi) は、ビット レートが 2 倍の 0.504bpp の BPG アルゴリズムよりもユーザーの目に優れていることがわかります。

圧縮効果が 0.120bpp に達したとしても、0.390bpp の BPG アルゴリズムよりも優れています。

この研究は、画像圧縮技術の発展を再び促進しました。ネットユーザーが言うように、画像圧縮技術の発展により、4K映画をオンラインで視聴することが本当に可能になるかもしれません。

著者について

[[340920]]

Fabian Mentzer は現在、スイスの ETH Zurich でコンピューター ビジョンの研究を行っています。彼の研究対象には、ディープラーニング、画像圧縮、フィードフォワード ニューラル ネットワーク、画像分類などがあります。

この論文の主な作業は、Fabian Mentzer が Google でのインターンシップ中に完成させたもので、他の 3 人の著者はすべて Google チームのメンバーです。

このプロジェクトのソースコードとトレーニング済みモデルは近日中に公開されます。最新の進捗状況を確認するには、以下のポータルをクリックしてください。

ポータル

プロジェクトリンク
https://hific.github.io/

<<:  企業が人工知能を応用する際に直面する課題

>>:  AIスタートアップの構築から得た3つの重要な教訓

ブログ    
ブログ    
ブログ    

推薦する

なぜ人工知能にはブロックチェーンが必要なのでしょうか?

この記事では、人工知能にブロックチェーンが必要な理由、人工知能がブロックチェーンに与える影響、ブロッ...

...

人工知能を背景にした教育の未来を探る

教育の分野では、人工知能の倫理に関する人々の考え方には複数の道が存在します。例えば、主観に基づく検討...

「怠け者」を助ける掃除ロボットの規模は600億台を超える

近年、世界経済の発展に伴い、人間の生活環境は徐々に改善され、人口も増加傾向にありますが、急速な人口増...

崑崙Core2が量産開始:性能が2~3倍向上し、中国の産業知能に強力な「コア」を注入

8月18日、百度とCCTVニュースは共同で「百度ワールド2021」カンファレンスを開催し、AIが何千...

...

...

ハーバード大学のロボット魚は、知的に協力し、集団で「泳ぎ」、サイエンス誌の表紙に登場しました。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

人工知能研究は行き詰まりに陥っているかもしれない

[51CTO.com クイック翻訳]フィリップ・K・ディックの1968年の小説『アンドロイドは電気羊...

今後のネットワーク分野におけるハイブリッド脅威の3大トレンド

人工知能の破壊的応用の増加、危機時のネットワークの役割の拡大、ポリシーとテクノロジー間の依存関係の高...

宜蘭グループインテリジェンスが再び認められ、認知インテリジェンスの飛躍的発展を促進

【原文は51CTO.comより】このほど、工業情報化部中国電子情報産業発展研究所が指導し、51CTO...

...

機械学習: Python でベイズ分類器をゼロから実装する

ナイーブ ベイズ アルゴリズムはシンプルで効率的であり、分類問題を扱う際に最初に検討すべき方法の 1...

建築設計におけるスマートビルディングと IoT の統合

技術が急速に進歩する時代において、私たちと建築との関係は大きな変化を遂げています。もはやレンガやモル...