中国の博士が、パラメータのわずか 33% で画像復元フィールドを圧縮するモデル SwinIR を提案しました。

中国の博士が、パラメータのわずか 33% で画像復元フィールドを圧縮するモデル SwinIR を提案しました。

[[421559]]

パラメータの数とモデルのパフォーマンスの間には絶対的な関係がありますか?チューリッヒの中国人博士が SwinIR モデルを提案しました。実験結果から、モデルが小さいほど強力になる可能性があることがわかります。 SwinIR は Transformer を使用して CNN を上回り、画像復元分野を支配しています。モデル パラメータの数は 67% 削減されました。パラメータの数だけでヒーローを判断することはもうありません。

画像復元は、長年注目され研究されてきた基本的な CV 問題です。サムネイル、ノイズの多い画像、圧縮された画像などの低品質の画像を、元の高品質の画像に復元できます。

しかし、画像復元の分野における現在のSOTA手法はすべて畳み込みニューラルネットワーク(CNN)に基づいており、ViTが長年にわたり高レベルの視覚タスクのランキングでトップを占めているにもかかわらず、Transformerの使用を試みた人はほとんどいません。

ETH チューリッヒの中国人博士が、画像復元に適したモデル SwinIR を提案しました。このモデルは、主に浅い特徴抽出、深い特徴抽出、高品質の画像再構成の 3 つの部分で構成されています。

実験結果によると、SwinIR のパフォーマンスは現在の sota 方式よりも 0.14 ~ 0.45 dB 高く、パラメータの数は 67% 削減されました。

論文アドレス: https://arxiv.org/abs/2108.10257

プロジェクトアドレス: https://github.com/JingyunLiang/SwinIR

CNN ベースの方法のほとんどは、残差学習や高密度学習などの洗練されたアーキテクチャ設計に重点を置いており、巧妙なモデル設計を通じてパフォーマンスを向上させ、モデル容量を増やします。

CNN は従来のモデルベースのアプローチに比べて大幅なパフォーマンスの向上を実現していますが、畳み込み層に起因する 2 つの基本的な問題に悩まされることがよくあります。

1) 画像と畳み込みカーネル間の相互作用はコンテンツとは無関係です。同じ畳み込みカーネルを使用して異なる画像領域を復元することは、最善の選択ではない可能性があります。

2) CNN はローカルな特徴に重点を置いているため、畳み込みは長期依存の特徴やグローバルな特徴をモデル化するのに効果的ではありません。

この場合、Transformer を CNN の代わりとして考えるのは簡単です。 Transformer の自己注意メカニズムは、コンテキスト間のグローバルな相互作用を適切にキャプチャでき、複数の視覚タスクで優れたパフォーマンスを実現しています。

ただし、画像修復用の ViT では、入力画像を固定サイズ (例: 48×48) のパッチに分割し、各部分を個別に処理する必要があります。

この戦略は必然的に 2 つの欠点をもたらします。

1) 境界ピクセルは、ブロック外の隣接ピクセルを画像復元に使用できません。

2) 復元された画像では、各画像パッチの周囲に境界アーティファクトが発生する可能性があります。

この問題はパッチのオーバーラップによって軽減できますが、追加の計算負荷がかかります。

モデル設計

SwinIR の設計は Swin Transformer に基づいており、次の 3 つの部分で構成されています。

1) 浅い特徴抽出

浅い特徴抽出モジュールは、畳み込み層を使用して浅い特徴を抽出し、浅い特徴を再構成モジュールに直接転送して低周波情報を保持します。

2) 深層特徴抽出

ディープ フィーチャ抽出モジュールは主に残差 Swin Transformer ブロック (RSTB) で構成され、各ブロックはローカル アテンションとウィンドウ間の相互作用のために複数の Swin Transformer レイヤー (STL) を使用します。さらに、ブロックの最後に畳み込み層を追加して特徴を強化し、残差接続を使用して特徴集約のショートカットを提供します。つまり、RSTB は複数の STL と畳み込み層で構成され、残差ブロックを形成します。

3) 高品質(HQ)画像再構成

再構築モジュールは最後のステップであり、浅い特徴と深い特徴を組み合わせて高品質の画像を復元します。

実験に関しては、著者らはまず、チャネル数、RSTB 数、STL 数が結果に与える影響を調査しました。 PSNR はこれら 3 つのハイパーパラメータと正の相関関係にあることがわかります。チャンネル数に関しては、パフォーマンスは向上し続けていますが、パラメータの数は2乗的に増加しています。パフォーマンスとモデル サイズのバランスをとるために、残りの実験ではチャネル数として 180 が選択されます。パフォーマンスの向上は RSTB とレイヤーの数とともに徐々に飽和するため、後続の実験では比較的小さなモデルを取得するために 6 に設定されています。

また、DBPN、RCAN、RRDB、SAN、IGNN、HAN、NLSA、IPT などの従来の画像超解像 (SR) モデル ペアもあります。 DIV2K データでトレーニングすると、SwinIR は 5 つのベンチマーク データセットのほぼすべてのスケール ファクターで最高のパフォーマンスを達成し、Manga109 では 4 倍のスケーリングで最大 PSNR ゲインが 0.26dB に達することがわかります。

ただし、RCAN と HAN はチャネルと空間の注意を導入し、IGNN は適応パッチ機能集約を提案し、NLSA は非局所的注意メカニズムに基づいていることに注意する必要があります。これらの CNN ベースの注意メカニズムはすべて、提案された Transformer ベースの SwinIR よりもパフォーマンスが劣りますが、これも提案されたモデルの有効性を示しています。

SwinIR をより大きなデータセット (DIV2K+Flickr2K) でトレーニングすると、パフォーマンスがさらに大幅に向上し、Transformer ベースのモデル IPT よりも優れた精度 (0.47dB に達する) も達成されます。 IPT はトレーニングに ImageNet (130 万枚以上の画像) を使用し、1 億を超えるパラメータを持っています。対照的に、SwinIR は、CNN ベースの sota モデルと比較しても、パラメーターが非常に少ないです (1500 万〜 4430 万)。

実行時間に関して言えば、代表的な CNN ベースのモデル RCAN と比較して、IPT と SwinIR は 1024×1024 でそれぞれ約 0.2、4.5、1.1 秒かかります。

実験結果

SwinIR は、視覚化結果から高周波の詳細を復元し、ぼやけたアーティファクトを軽減し、シャープで自然なエッジを生成します。

対照的に、CNN ベースの方法のほとんどは、ぼやけた画像や不正確なテクスチャを生成します。 CNN ベースの方法と比較すると、IPT はより優れた画像を生成しますが、画像の歪みや境界アーティファクトが発生します。

画像ノイズ除去タスクでは、従来のモデル BM3D と WNNM、および CNN ベースのモデル DnCNN、IR-CNN、FFDNet、N3Net、NLRN、FOC-Net、RNAN、MWCNN、DRUNet が比較手法として挙げられます。 SwinIR モデルはすべての方法よりも強力であることがわかります。

特に、100 枚の高解像度テスト画像を含む大規模な Urban100 データセットでは、最先端の DRUNet モデルを最大 0.3dB 上回ります。SwinIR のパラメータは 1,200 万個しかありませんが、DRUNet には 3 億個のパラメータがあり、これは SwinIR のアーキテクチャが画像復元のための特徴表現の学習に効率的であることを間接的に証明しています。

SwinIR モデルは、深刻なノイズ干渉を除去し、高周波画像の詳細を保持できるため、よりシャープなエッジとより自然なテクスチャが得られます。対照的に、他の方法は滑らかすぎたり鋭すぎたりして、豊かなテクスチャを復元できません。

<<:  女性用メイクアップムスク!超楽しいモデルStyleCLIPがオープンソースになりました。急いで自分の顔を変えてみましょう

>>:  1 つのニューロンには 5 ~ 8 層のニューラル ネットワークがあります。ディープラーニングの計算の複雑さは生物学によって克服されています。

ブログ    
ブログ    

推薦する

確かな情報です!機械学習で知っておくべき 5 つの回帰アルゴリズム!

回帰アルゴリズムといえば、理解しやすく非常に単純なため、多くの人が線形回帰を思い浮かべると思います。...

【就職活動】データサイエンスと機械学習のための最も包括的な面接ガイド

[[234501]]この記事では、データサイエンスと機械学習の面接で遭遇する可能性のあるさまざまな質...

...

ロボットやAIが事故を起こした場合、誰が責任を負うのでしょうか?

[[348005]]自動運転車が歩行者をはねた場合、法的責任を負うのは誰でしょうか?所有者、製造者...

...

2020 年の AI チャットボット技術予測

2020 年に入り、さまざまな業界で人工知能技術の導入が進み続けています。この二次微分効果は、ビジネ...

RustベースのZedエディタがオープンソース化され、OpenAIとGitHub Copilotのサポートが組み込まれました

ティム・アンダーソンノアが編集制作:51CTO テクノロジースタック(WeChat ID:blog)...

5つのAI技術トレンドが私たちの労働環境を根本的に変える

[51CTO.com クイック翻訳] 現在、人工知能技術に対する人々の見解は主に2つの陣営に分かれて...

ByteDance によって否定された中国版 Sora の何がそんなに素晴らしいのでしょうか?

執筆者 | Yun Zhao制作:51CTO テクノロジースタック(WeChat ID:blog)最...

...

法律、AIが革命を起こすもう一つの業界

[[270591]]弁護士は、法律知識、鋭敏な時間管理、説得力、雄弁さなど、多くのスキルを身につけて...

5Gテクノロジーが人工知能の能力をどのように向上させるか

5Gは人工知能の可能性を解き放ちます。しかし、AI と 5G は私たちの日常のビジネス生活にどのよう...

AI は旅行体験をどのように向上させることができるのでしょうか?

AI を活用した休暇は旅行の未来であり、かつては考えられなかったパーソナライズされた没入型の体験を...

SQL Server 2008 の 9 つのデータ マイニング アルゴリズム

1. 決定木アルゴリズム決定木は判断木とも呼ばれ、バイナリ ツリーやマルチ ブランチ ツリーに似たツ...