中国の博士が、パラメータのわずか 33% で画像復元フィールドを圧縮するモデル SwinIR を提案しました。

中国の博士が、パラメータのわずか 33% で画像復元フィールドを圧縮するモデル SwinIR を提案しました。

[[421559]]

パラメータの数とモデルのパフォーマンスの間には絶対的な関係がありますか?チューリッヒの中国人博士が SwinIR モデルを提案しました。実験結果から、モデルが小さいほど強力になる可能性があることがわかります。 SwinIR は Transformer を使用して CNN を上回り、画像復元分野を支配しています。モデル パラメータの数は 67% 削減されました。パラメータの数だけでヒーローを判断することはもうありません。

画像復元は、長年注目され研究されてきた基本的な CV 問題です。サムネイル、ノイズの多い画像、圧縮された画像などの低品質の画像を、元の高品質の画像に復元できます。

しかし、画像復元の分野における現在のSOTA手法はすべて畳み込みニューラルネットワーク(CNN)に基づいており、ViTが長年にわたり高レベルの視覚タスクのランキングでトップを占めているにもかかわらず、Transformerの使用を試みた人はほとんどいません。

ETH チューリッヒの中国人博士が、画像復元に適したモデル SwinIR を提案しました。このモデルは、主に浅い特徴抽出、深い特徴抽出、高品質の画像再構成の 3 つの部分で構成されています。

実験結果によると、SwinIR のパフォーマンスは現在の sota 方式よりも 0.14 ~ 0.45 dB 高く、パラメータの数は 67% 削減されました。

論文アドレス: https://arxiv.org/abs/2108.10257

プロジェクトアドレス: https://github.com/JingyunLiang/SwinIR

CNN ベースの方法のほとんどは、残差学習や高密度学習などの洗練されたアーキテクチャ設計に重点を置いており、巧妙なモデル設計を通じてパフォーマンスを向上させ、モデル容量を増やします。

CNN は従来のモデルベースのアプローチに比べて大幅なパフォーマンスの向上を実現していますが、畳み込み層に起因する 2 つの基本的な問題に悩まされることがよくあります。

1) 画像と畳み込みカーネル間の相互作用はコンテンツとは無関係です。同じ畳み込みカーネルを使用して異なる画像領域を復元することは、最善の選択ではない可能性があります。

2) CNN はローカルな特徴に重点を置いているため、畳み込みは長期依存の特徴やグローバルな特徴をモデル化するのに効果的ではありません。

この場合、Transformer を CNN の代わりとして考えるのは簡単です。 Transformer の自己注意メカニズムは、コンテキスト間のグローバルな相互作用を適切にキャプチャでき、複数の視覚タスクで優れたパフォーマンスを実現しています。

ただし、画像修復用の ViT では、入力画像を固定サイズ (例: 48×48) のパッチに分割し、各部分を個別に処理する必要があります。

この戦略は必然的に 2 つの欠点をもたらします。

1) 境界ピクセルは、ブロック外の隣接ピクセルを画像復元に使用できません。

2) 復元された画像では、各画像パッチの周囲に境界アーティファクトが発生する可能性があります。

この問題はパッチのオーバーラップによって軽減できますが、追加の計算負荷がかかります。

モデル設計

SwinIR の設計は Swin Transformer に基づいており、次の 3 つの部分で構成されています。

1) 浅い特徴抽出

浅い特徴抽出モジュールは、畳み込み層を使用して浅い特徴を抽出し、浅い特徴を再構成モジュールに直接転送して低周波情報を保持します。

2) 深層特徴抽出

ディープ フィーチャ抽出モジュールは主に残差 Swin Transformer ブロック (RSTB) で構成され、各ブロックはローカル アテンションとウィンドウ間の相互作用のために複数の Swin Transformer レイヤー (STL) を使用します。さらに、ブロックの最後に畳み込み層を追加して特徴を強化し、残差接続を使用して特徴集約のショートカットを提供します。つまり、RSTB は複数の STL と畳み込み層で構成され、残差ブロックを形成します。

3) 高品質(HQ)画像再構成

再構築モジュールは最後のステップであり、浅い特徴と深い特徴を組み合わせて高品質の画像を復元します。

実験に関しては、著者らはまず、チャネル数、RSTB 数、STL 数が結果に与える影響を調査しました。 PSNR はこれら 3 つのハイパーパラメータと正の相関関係にあることがわかります。チャンネル数に関しては、パフォーマンスは向上し続けていますが、パラメータの数は2乗的に増加しています。パフォーマンスとモデル サイズのバランスをとるために、残りの実験ではチャネル数として 180 が選択されます。パフォーマンスの向上は RSTB とレイヤーの数とともに徐々に飽和するため、後続の実験では比較的小さなモデルを取得するために 6 に設定されています。

また、DBPN、RCAN、RRDB、SAN、IGNN、HAN、NLSA、IPT などの従来の画像超解像 (SR) モデル ペアもあります。 DIV2K データでトレーニングすると、SwinIR は 5 つのベンチマーク データセットのほぼすべてのスケール ファクターで最高のパフォーマンスを達成し、Manga109 では 4 倍のスケーリングで最大 PSNR ゲインが 0.26dB に達することがわかります。

ただし、RCAN と HAN はチャネルと空間の注意を導入し、IGNN は適応パッチ機能集約を提案し、NLSA は非局所的注意メカニズムに基づいていることに注意する必要があります。これらの CNN ベースの注意メカニズムはすべて、提案された Transformer ベースの SwinIR よりもパフォーマンスが劣りますが、これも提案されたモデルの有効性を示しています。

SwinIR をより大きなデータセット (DIV2K+Flickr2K) でトレーニングすると、パフォーマンスがさらに大幅に向上し、Transformer ベースのモデル IPT よりも優れた精度 (0.47dB に達する) も達成されます。 IPT はトレーニングに ImageNet (130 万枚以上の画像) を使用し、1 億を超えるパラメータを持っています。対照的に、SwinIR は、CNN ベースの sota モデルと比較しても、パラメーターが非常に少ないです (1500 万〜 4430 万)。

実行時間に関して言えば、代表的な CNN ベースのモデル RCAN と比較して、IPT と SwinIR は 1024×1024 でそれぞれ約 0.2、4.5、1.1 秒かかります。

実験結果

SwinIR は、視覚化結果から高周波の詳細を復元し、ぼやけたアーティファクトを軽減し、シャープで自然なエッジを生成します。

対照的に、CNN ベースの方法のほとんどは、ぼやけた画像や不正確なテクスチャを生成します。 CNN ベースの方法と比較すると、IPT はより優れた画像を生成しますが、画像の歪みや境界アーティファクトが発生します。

画像ノイズ除去タスクでは、従来のモデル BM3D と WNNM、および CNN ベースのモデル DnCNN、IR-CNN、FFDNet、N3Net、NLRN、FOC-Net、RNAN、MWCNN、DRUNet が比較手法として挙げられます。 SwinIR モデルはすべての方法よりも強力であることがわかります。

特に、100 枚の高解像度テスト画像を含む大規模な Urban100 データセットでは、最先端の DRUNet モデルを最大 0.3dB 上回ります。SwinIR のパラメータは 1,200 万個しかありませんが、DRUNet には 3 億個のパラメータがあり、これは SwinIR のアーキテクチャが画像復元のための特徴表現の学習に効率的であることを間接的に証明しています。

SwinIR モデルは、深刻なノイズ干渉を除去し、高周波画像の詳細を保持できるため、よりシャープなエッジとより自然なテクスチャが得られます。対照的に、他の方法は滑らかすぎたり鋭すぎたりして、豊かなテクスチャを復元できません。

<<:  女性用メイクアップムスク!超楽しいモデルStyleCLIPがオープンソースになりました。急いで自分の顔を変えてみましょう

>>:  1 つのニューロンには 5 ~ 8 層のニューラル ネットワークがあります。ディープラーニングの計算の複雑さは生物学によって克服されています。

ブログ    
ブログ    
ブログ    

推薦する

マイクロマシンラーニングは、マイクロプロセッサにディープラーニングを組み込むことを約束する

翻訳者 | 朱 仙中校正 | 梁哲、孫淑娟ディープラーニング モデルの初期の成功は、大量のメモリと ...

...

単一の画像ガイド、主題を保持し、スタイルを変更する、VCTはそれを簡単に実現するのに役立ちます

近年、画像生成技術は多くの重要な進歩を遂げました。特に、DALLE2やStable Diffusio...

AIモデルは研究者ががん検出の精度を向上させるのに役立つ

マドゥ・ネール博士とアシャ・ダス博士は、人工知能 (AI) モデルを使用して患者の組織サンプルのスキ...

プログラマーが使用する基本アルゴリズムトップ10

[[188736]]アルゴリズム1: クイックソートアルゴリズムクイックソートは、Tony Hal...

配達員に代わるドローン配達は、人々に「嫌われるのではなく愛される」ようになる

現在、人々の生活や仕事のペースはますます加速し、インターネット電子商取引プラットフォームは急速に発展...

計算知能とは何ですか?今日の世界における人工知能と機械学習

テクノロジーは発見に依存し、発見はテクノロジーの進歩に依存します。これは計算知能の文脈ではまさに真実...

製造業における人工知能の8つの応用シナリオ

人工知能の概念は、60年以上前の1950年代に初めて提案されました。しかし、モノのインターネット、ビ...

2018年中国人工知能都市ランキングトップ15

最近、工業情報化部直属の中国情報通信研究院傘下の研究機関であるCCIDコンサルティングが「中国の人工...

MITの新しい研究により、物体間の潜在的な関係性を理解し、AIが人間のように世界を「見る」ことが可能になった。

[[441262]]人々がシーンを観察するとき、通常はシーン内のオブジェクトとそれらの間の関係を観...

Google の FLoC アルゴリズムは、プライバシー保護の向上か、広告テクノロジーの向上か?

Android システムでは、Nut Hidden APP をダウンロードして、セキュリティリスク...

Google Project Ellman が Gemini AI モデルのシナリオを公開

Googleチームは、AI技術を使ってユーザーの写真や検索エンジンのクエリ情報を処理し、ユーザーの生...

CESの半導体大手:自動運転のオープンな競争と5Gの秘密の競争

[[255293]]明らかに、自動運転と5Gはチップビジネスそのものよりもはるかに魅力的です。 AI...

2頭のアルパカが頭と尻尾を切り落とし、それをくっつけてハギングフェイスリストのトップに

HuggingFace が再びオープンソースの大規模モデルのリストのトップに躍り出ました。最前列は、...