中国の博士が、パラメータのわずか 33% で画像復元フィールドを圧縮するモデル SwinIR を提案しました。

[[421559]]

パラメータの数とモデルのパフォーマンスの間には絶対的な関係がありますか?チューリッヒの中国人博士が SwinIR モデルを提案しました。実験結果から、モデルが小さいほど強力になる可能性があることがわかります。 SwinIR は Transformer を使用して CNN を上回り、画像復元分野を支配しています。モデルパラメータの数は 67% 削減されました。パラメータの数だけでヒーローを判断することはもうありません。

画像復元は、長年注目され研究されてきた基本的な CV 問題です。サムネイル、ノイズの多い画像、圧縮された画像などの低品質の画像を、元の高品質の画像に復元できます。

しかし、画像復元の分野における現在のSOTA手法はすべて畳み込みニューラルネットワーク（CNN）に基づいており、ViTが長年にわたり高レベルの視覚タスクのランキングでトップを占めているにもかかわらず、Transformerの使用を試みた人はほとんどいません。

ETH チューリッヒの中国人博士が、画像復元に適したモデル SwinIR を提案しました。このモデルは、主に浅い特徴抽出、深い特徴抽出、高品質の画像再構成の 3 つの部分で構成されています。

実験結果によると、SwinIR のパフォーマンスは現在の sota 方式よりも 0.14 ～ 0.45 dB 高く、パラメータの数は 67% 削減されました。

論文アドレス: https://arxiv.org/abs/2108.10257

プロジェクトアドレス: https://github.com/JingyunLiang/SwinIR

CNN ベースの方法のほとんどは、残差学習や高密度学習などの洗練されたアーキテクチャ設計に重点を置いており、巧妙なモデル設計を通じてパフォーマンスを向上させ、モデル容量を増やします。

CNN は従来のモデルベースのアプローチに比べて大幅なパフォーマンスの向上を実現していますが、畳み込み層に起因する 2 つの基本的な問題に悩まされることがよくあります。

1) 画像と畳み込みカーネル間の相互作用はコンテンツとは無関係です。同じ畳み込みカーネルを使用して異なる画像領域を復元することは、最善の選択ではない可能性があります。

2) CNN はローカルな特徴に重点を置いているため、畳み込みは長期依存の特徴やグローバルな特徴をモデル化するのに効果的ではありません。

この場合、Transformer を CNN の代わりとして考えるのは簡単です。 Transformer の自己注意メカニズムは、コンテキスト間のグローバルな相互作用を適切にキャプチャでき、複数の視覚タスクで優れたパフォーマンスを実現しています。

ただし、画像修復用の ViT では、入力画像を固定サイズ (例: 48×48) のパッチに分割し、各部分を個別に処理する必要があります。

この戦略は必然的に 2 つの欠点をもたらします。

1) 境界ピクセルは、ブロック外の隣接ピクセルを画像復元に使用できません。

2) 復元された画像では、各画像パッチの周囲に境界アーティファクトが発生する可能性があります。

この問題はパッチのオーバーラップによって軽減できますが、追加の計算負荷がかかります。

モデル設計

SwinIR の設計は Swin Transformer に基づいており、次の 3 つの部分で構成されています。

1) 浅い特徴抽出

浅い特徴抽出モジュールは、畳み込み層を使用して浅い特徴を抽出し、浅い特徴を再構成モジュールに直接転送して低周波情報を保持します。

2) 深層特徴抽出

ディープフィーチャ抽出モジュールは主に残差 Swin Transformer ブロック (RSTB) で構成され、各ブロックはローカルアテンションとウィンドウ間の相互作用のために複数の Swin Transformer レイヤー (STL) を使用します。さらに、ブロックの最後に畳み込み層を追加して特徴を強化し、残差接続を使用して特徴集約のショートカットを提供します。つまり、RSTB は複数の STL と畳み込み層で構成され、残差ブロックを形成します。

3) 高品質（HQ）画像再構成

再構築モジュールは最後のステップであり、浅い特徴と深い特徴を組み合わせて高品質の画像を復元します。

実験に関しては、著者らはまず、チャネル数、RSTB 数、STL 数が結果に与える影響を調査しました。 PSNR はこれら 3 つのハイパーパラメータと正の相関関係にあることがわかります。チャンネル数に関しては、パフォーマンスは向上し続けていますが、パラメータの数は2乗的に増加しています。パフォーマンスとモデルサイズのバランスをとるために、残りの実験ではチャネル数として 180 が選択されます。パフォーマンスの向上は RSTB とレイヤーの数とともに徐々に飽和するため、後続の実験では比較的小さなモデルを取得するために 6 に設定されています。

また、DBPN、RCAN、RRDB、SAN、IGNN、HAN、NLSA、IPT などの従来の画像超解像 (SR) モデルペアもあります。 DIV2K データでトレーニングすると、SwinIR は 5 つのベンチマークデータセットのほぼすべてのスケールファクターで最高のパフォーマンスを達成し、Manga109 では 4 倍のスケーリングで最大 PSNR ゲインが 0.26dB に達することがわかります。

ただし、RCAN と HAN はチャネルと空間の注意を導入し、IGNN は適応パッチ機能集約を提案し、NLSA は非局所的注意メカニズムに基づいていることに注意する必要があります。これらの CNN ベースの注意メカニズムはすべて、提案された Transformer ベースの SwinIR よりもパフォーマンスが劣りますが、これも提案されたモデルの有効性を示しています。

SwinIR をより大きなデータセット (DIV2K+Flickr2K) でトレーニングすると、パフォーマンスがさらに大幅に向上し、Transformer ベースのモデル IPT よりも優れた精度 (0.47dB に達する) も達成されます。 IPT はトレーニングに ImageNet (130 万枚以上の画像) を使用し、1 億を超えるパラメータを持っています。対照的に、SwinIR は、CNN ベースの sota モデルと比較しても、パラメーターが非常に少ないです (1500 万〜 4430 万)。

実行時間に関して言えば、代表的な CNN ベースのモデル RCAN と比較して、IPT と SwinIR は 1024×1024 でそれぞれ約 0.2、4.5、1.1 秒かかります。

実験結果

SwinIR は、視覚化結果から高周波の詳細を復元し、ぼやけたアーティファクトを軽減し、シャープで自然なエッジを生成します。

対照的に、CNN ベースの方法のほとんどは、ぼやけた画像や不正確なテクスチャを生成します。 CNN ベースの方法と比較すると、IPT はより優れた画像を生成しますが、画像の歪みや境界アーティファクトが発生します。

画像ノイズ除去タスクでは、従来のモデル BM3D と WNNM、および CNN ベースのモデル DnCNN、IR-CNN、FFDNet、N3Net、NLRN、FOC-Net、RNAN、MWCNN、DRUNet が比較手法として挙げられます。 SwinIR モデルはすべての方法よりも強力であることがわかります。

特に、100 枚の高解像度テスト画像を含む大規模な Urban100 データセットでは、最先端の DRUNet モデルを最大 0.3dB 上回ります。SwinIR のパラメータは 1,200 万個しかありませんが、DRUNet には 3 億個のパラメータがあり、これは SwinIR のアーキテクチャが画像復元のための特徴表現の学習に効率的であることを間接的に証明しています。

SwinIR モデルは、深刻なノイズ干渉を除去し、高周波画像の詳細を保持できるため、よりシャープなエッジとより自然なテクスチャが得られます。対照的に、他の方法は滑らかすぎたり鋭すぎたりして、豊かなテクスチャを復元できません。

<<: 女性用メイクアップムスク！超楽しいモデルStyleCLIPがオープンソースになりました。急いで自分の顔を変えてみましょう

>>: 1 つのニューロンには 5 ～ 8 層のニューラルネットワークがあります。ディープラーニングの計算の複雑さは生物学によって克服されています。