CVPR 2020 に採択された論文「PULSE: 生成モデルの潜在空間探索による自己教師あり写真アップサンプリング」を共有します。著者は、新しい画像超解像法を提案しました。教師ありの PSNR ベースおよび GAN ベースの方法とは異なり、この方法は教師なしの方法であり、つまり、高品質で高解像度の画像を復元するには低解像度の画像のみが必要です。 コードは現在オープンソースです: https://github.com/adamian98/pulse 論文情報: 1. 動機 画像超解像タスクの基本的な目標は、低解像度の画像を対応する高解像度の画像に超解像することです。 PNSR または GAN に基づく教師あり学習方法のいずれであっても、ピクセル単位のエラー損失関数が多かれ少なかれ使用され、生成される画像はより滑らかになることが多く、細部があまり良くない場合があります。そこで著者は考えを変えました。**これまでの方法はすべて、LRからHRを徐々に回復して生成するものでした。高解像度画像HRのマニフォールドを見つけ、そのマニフォールドから高解像度画像を検索して、そのダウンサンプリングをLRに復元できれば、検索した画像がLR超解像後の結果になります。 **したがって、この記事では主に次の 2 つの問題を解決します。 Manifold の高解像度画像を見つけるにはどうすればいいですか? 2. 方法 高解像度画像の多様体が であり、これが M 上の高解像度画像であると仮定します。低解像度画像が与えられた場合、LR がダウンサンプリング操作 DS を通じて復元できる場合、それは LR の超解像結果と見なすことができます。問題は次のように定義されます。 つまり、両者の差が一定のしきい値未満の場合です。 、この記事の課題は、次の図に示すような解決策を見つけることです。 以上がこの記事の核となる内容です。コードで具体的にどのように実装されているか見ていきましょう。 まず、高解像度のマニフォールドを近似するための生成モデルが必要です。この記事では、著者は StyleGAN の事前トレーニング済みモデルを使用します。 StyleGAN のジェネレーター ネットワークには 2 つの部分があり、1 つは潜在コードをスタイル コードにマッピングするために使用されるマッピング ネットワークで、もう 1 つはマッピング後に取得されたスタイル コードを使用して画像の生成をガイドするために使用される合成ネットワークです。ここで注意すべき点は、この記事では StyleGAN の事前トレーニング済みモデルのみを使用し、そのパラメータをトレーニングまたは更新していないことです。 2 つの部分のパラメータをロードした後、100,000 個のランダム潜在コードがランダムに構築されます。マッピング ネットワークを通過した後、新しい潜在コードを使用して平均と分散を計算します。
この平均と分散は、新しい潜在コードをマッピングするために使用できます。次のステップは、潜在コードとノイズをランダムに初期化することです(StyleGAN に必要)。
**ここから、モデルが実際にはモデル パラメータではなく、潜在的なコードとノイズの最初の 5 層を最適化していることがわかります。 **初期化が完了したら、以下を実行できます。
損失は、元の低解像度画像と生成された高解像度画像に基づいて計算されます。コードでは、損失は次の 2 つの部分で構成されます。 L2 損失は、生成された高解像度画像 gen_im の LR をバイキュービックダウンサンプリングによって復元し、入力 LR とのピクセル単位の誤差を計算するもので、GEOCROSS は測地線距離です。 最終的に選択される最適化装置は球状最適化装置です。
3. 結果 結果から、PULSE によって生成された画像は、髪の毛、目、歯など比較的微妙な領域を含む詳細がより豊富であることがわかります。さらに、ノイズの多い LR の場合でも非常にうまく生成できるため、アルゴリズムの堅牢性が高まっていることがわかります。 最終的な比較指標は MOS です。 4. 質問 PULSE は教師なし画像超解像モデルであり、画像の品質は実際には選択された生成モデルの品質に大きく依存します。一方、PULSE の基本原理は、ダウンサンプリング後に LR を復元できるように高解像度の画像を見つけることであるため、結果は一意ではないことを意味します。生成された画像は非常に鮮明かもしれませんが、識別情報は失われています。 5. リソース PaperPULSE: https://arxiv.org/pdf/2003.03808.pdfStyleGAN: https://arxiv.org/abs/1812.04948高次元のランダムベクトル: https://www.sci-hub.ren/10.1017/9781108231596.006 |
<<: シリコンバレーの大企業も「名門校の学位」を重視するのでしょうか? Redditの男の魂を問う質問が白熱した議論を巻き起こす
チューリング賞を受賞したヤン・ルカンは、AI分野の三大巨頭の一人です。当然ながら、彼が発表した論文は...
[[316192]]独自の NLP アプリケーションで使用できる 12 個のツールを見てみましょう。...
部屋の中に立っていて、ドアに向かって歩こうとしていると想像してください。自己回帰を使用して、一歩ずつ...
序文多くの人は、BitMap は文字通りビットマップを意味すると考えています。実際、より正確には、ビ...
プログラミングにおいて、ソートはデータをより速く簡単に見つけるのに役立つ重要なアルゴリズムです。この...
Apriori アルゴリズムと比較すると、FP-growth アルゴリズムではデータベースを 2 回...
6月19日のニュース:AI産業の急速な発展に伴い、テクノロジー業界のAI人材に対する需要も高まってい...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
人工知能(AI)とは、人間の知能をシミュレート、拡張、拡大するための理論、方法、技術、アプリケーショ...
人工知能(AI)は60年前の1956年の夏に誕生しました。今日の科学技術の発展により、人工知能は人間...
Python を使用すると、お客様専用のチャットボット プログラムの構築など、さまざまな目標を達成で...
[[431747]]最近、第 1 回 Microsoft Research Summit の 2 日...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...