OpenAI の新しい論文が GAN を破り SOTA に到達!この圧倒的な拡散モデルは単なる仕掛けなのか、それとも本物なのか?

OpenAI の新しい論文が GAN を破り SOTA に到達!この圧倒的な拡散モデルは単なる仕掛けなのか、それとも本物なのか?

最近またFaceAPPが人気になってきているので、編集者もダウンロードして試してみました。

大丈夫ですよ、かなり興味深いです。

FaceAPP の背後には、生成的敵対的ネットワーク (GAN) に基づく画像生成テクノロジーがあります。

GAN は 2014 年の誕生以来、画像生成、特にディープフェイクの顔生成の研究と応用をほぼ完全に支配してきました。

しかし、GAN はトレーニングが難しく、モード崩壊などの問題が発生しやすいです。

ディープフェイクの「モデル」を使用して他の人が作成したビデオと、ディープフェイクの「マジック」を使用して私が作成したビデオ

こうして新しいSOTAモデルが誕生した

GAN のこれらの問題に対応するため、OpenAI の 2 人の研究者、Prafulla Dhariwal 氏と Alex Nichol 氏は他のアーキテクチャを検討しました。

最新の論文「拡散モデルが画像合成で GAN に勝つ」では、提案された拡散モデル アーキテクチャが GAN の欠点を解決し、画像生成タスクで GAN に勝ち、SOTA レベルに達すると述べています。

タイトルに「Beat」という言葉を使ったところ、彼らが非常に野心的であることが分かりました。

「ImageNet 512x512 で 3.85 FID を達成しました。BigGAN と同等のパフォーマンスを維持するだけでなく、サンプルあたりのフォワード パスの数を 25 に減らし、分布のカバレッジを向上させました。」

たまたま検索してみたところ、記事全体で 15 個の「最先端」があることがわかりました。GAN について説明している 2、3 個 (敗北または転換点を迎えている) を除き、その他は基本的にすべて独自の新しいモデルについて説明しています。これが SOTA であるかどうかは別として、著者は間違いなく SOTA であると考えています。

時は3ヶ月前に戻る

非常に興味深いのは、引用文献の中に、この二人が著者である論文があることです。

今年2月には「改良型ノイズ低減拡散確率モデル」と題した論文を発表し、GANとの比較も行われたが、この時点ではまだGANを「打ち負かした」わけではなかった。

意外にも、3か月後、彼らは新しい論文で成功したと述べました。彼らはかなり効率的であるようです。

同じ 1 億個のパラメータを持つモデルとして、BigGAN-Deep は、FID の点で、現時点で著者がトレーニングした DDPM よりも大幅に優れたパフォーマンスを発揮します。しかし、この2人は2億7000万のパラメータでトレーニングしたモデルで力ずくで勝利した。

ノイズ除去拡散確率モデル (DDPM) - 改良版

拡散モデルは、画像生成タスクでも優れたパフォーマンスを発揮する、別のクラスのディープラーニング モデルです。

ランダムなノイズ画像をトレーニング分布内のポイントにマッピングすることを学習する GAN とは異なり、拡散モデルはノイズの多い画像を取得し、一連のノイズ除去手順を実行して、ノイズを徐々に削減し、トレーニング データ分布に属する画像を生成します。

DDPM は、サンプリング品質にほとんど影響を与えずに、より高速にサンプリングし、より優れた対数尤度を得ることができます。トレーニング計算の量を増やすと、サンプルの品質と対数尤度が向上します。

「改良されたモデルでは、より少ないサンプルで済むことがわかり、驚いた」と2人の著者は述べた。著者が 25 のフォワード サンプリングの促進に重点を置くのは不思議ではありません。

詳細については、次の論文を参照してください。
出典:http://arxiv.org/pdf/2102.09672.pdf

新たな普及モデル

3 か月後、Dhariwal 氏と Nichol 氏は、以前の失敗を補い、拡散モデルのアーキテクチャを再度改良して、モデルのパフォーマンスをさらに向上させることを決定しました。

  1. モデルのサイズを比較的一定に保つために、深さと幅を同じ比率で増やします。
  2. 注意ヘッドの数を増やします。
  3. 32×32、16×16、8×8に注目レイヤーを追加します。
  4. アクティベーションは、BigGAN の残差モジュールを使用してアップサンプリングおよびダウンサンプリングされます。
  5. 残留接続のスケールを調整します。

アテンション ヘッドの数を増やすか、ヘッドあたりのチャネル数を減らすと、FID が向上します。

比較の結果、モデルは最終的に 128 の基本チャネル、解像度ごとに 2 つの残差モジュール、マルチ解像度の注意、BigGAN アップ/ダウン サンプリングを使用することを選択し、注意ヘッドごとに 64 チャネルを使用して 70 万回の反復でモデルをトレーニングしました。

ImageNet 128×128 モデルの場合、分類器の勾配が変化すると、サンプルの品質も変化します。勾配が 1.0 を超えると、精度と再現率の間でスムーズなトレードオフが得られます。

BigGAN-deep は変更を切り捨てるときにトレードオフを行います。

結果と評価

OpenAI の拡散モデルは、すべてのタスクで最高の FID スコアを達成し、1 つのタスクを除くすべてのタスクで最高の sFID スコアを達成しました。

改良されたモデル構造により、LSUN および ImageNet 64×64 で SOTA 画像生成結果を達成できます。

高解像度の ImageNet の場合、このモデルは最高の GAN よりも優れたパフォーマンスを発揮します。この時点で、モデルは、わずか 25 回の拡散でも、高いカバレッジ (リコールで測定) を維持しながら、GAN と同様の知覚品質を実現できます。著者は、これら 25 回の順方向伝播の結果に非常に満足しているようです。

生成モデルのサンプル品質の比較。 ADM はテキスト内の拡散モデルを参照しますが、ADM-G は分類子を追加します。

左側は BigGAN ディープ モデルの結果、中央は OpenAI 拡散モデルの結果、右側は元のトレーニング セットからの画像です。

上の画像も同様の図を示していますが、研究者は拡散モデルがトレーニング セットからより多くのことを学習したと説明しています。

「サンプルの知覚品質は似ていますが、拡散モデルには、ダチョウの頭のクローズアップ、フラミンゴ1羽、さまざまな角度のチーズバーガー、人が持っていない魚など、GANよりも多くのコンテンツが含まれています。」

著者の結論

GAN と比較すると、拡散モデルはより優れたサンプル品質を得ることができます。

改善されたアーキテクチャは、無条件画像生成タスクで SOTA を達成するのに十分であり、分類器ガイダンス技術により、モデルはクラス条件付きタスクのサンプル品質をさらに向上させることができます。

拡散モデルは、GAN と拡散モデル間のサンプリング時間のギャップを短縮できますが、サンプリング プロセス中に複数の順方向伝播が依然として必要になります。

最後に、ガイダンスとアップサンプリングを組み合わせることで、高解像度条件下での画像合成において最先端の結果を達成できます。

この時点で、もう一つの転機が訪れます

実際、著者自身も、現在の拡散モデルのトレーニング計算コストは​​ GAN よりも高く、サンプリング速度は GAN ほど速くなく、シングルステップモデルでは GAN に匹敵できないことを認めています。

最も重要なのは、この記事の分類器ブートストラップ手法はラベル付きデータセットに限定されており、著者はラベルなしデータセットにおける精度と多様性の間でトレードオフを行う効果的な戦略を提供していないことです。

ネットユーザーらは、「計算の観点から見ると、拡散モデルはGANよりもはるかに多くのメモリとステップを消費する」ともコメントした。

短期的には、GAN が依然として画像生成の分野を支配すると思われます。

<<:  自動運転と安全性の「距離」

>>:  Google のロボットアームはハンカチなど、柔らかいものも硬いものもつかむことができます。 ICRA 2021が承認されました

ブログ    
ブログ    

推薦する

RLHFの可能性を深く掘り下げ、Fudan Language and Visionチームは報酬モデルの最適化を革新し、大規模モデルをより整合させます。

最初の大規模モデルアライメント技術レポート(大規模言語モデルにおけるRLHFの秘密パートI)がNeu...

英国は「国家AI研究リソース」としてGPUを購入するために1億3000万ドルを費やす計画だと報じられている。

8月21日、英国のリシ・スナック首相は、世界的なコンピューティング能力の競争に追いつくために、1億...

AIは昨日のことを思い出せるが、過去を思い出すのはまだ少し難しい

[[285973]]人工知能が長期記憶を形成するには、脳科学、神経科学、心理学、行動経済学の分野にお...

ChatGPT をベースにしたインテリジェントな顧客サービス アシスタント

導入従来の顧客サービス分野は、手作業に大きく依存し、データ集約的であることが特徴です。大量のユーザー...

5つの産業用類似アルゴリズム

1. はじめに広告主は通常、ユーザー タグに基づいて広告のターゲット ユーザーを定義します。たとえば...

教師あり学習、教師なし学習、半教師あり学習、強化学習の 4 つのディープラーニング手法を 1 つの記事で理解する

一般的に、ディープラーニング ネットワークをトレーニングする方法には、教師あり学習、教師なし学習、半...

[インフォグラフィック] Google アルゴリズムの大幅な改善記録

Google 検索アルゴリズムは、歴史上最も先進的な数学工学アプリケーションです。毎日数十億件の検索...

...

ヘルスケアにおける人工知能の応用

今年に入ってから、医療提供方法や患者がより積極的に医療に参加できる方法を変革するために AI を使用...

ビッグデータとクラウドコンピューティングの融合がロボット工学の未来

史上初のロボットのデザインはレオナルド・ダ・ヴィンチにまで遡ることができます。 16 世紀の変わり目...

Hacker News のホットな話題: 利用できるパッケージが非常に多いにもかかわらず、プログラマーは依然としてアルゴリズムを学ぶ必要があるのでしょうか?

さまざまなアルゴリズムの実装やソフトウェア パッケージがオープン ソースで利用できる世界において、ア...

最新の軌道予測の概要:基本的な定義からさまざまな方法と評価まで

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

Googleの検索アルゴリズムがユーザーをより深く理解する方法

Googleは現在、コア検索アルゴリズムに変更を加えており、検索結果の最大10分の1のランキングに影...

DeepMindが乳がん診断AIをリリース:市場に投入するにはまだ多くの課題がある

GoogleのDeepMindチームは最近、「乳がんスクリーニングAIシステムの国際評価」と題した論...

サンディエゴ大学の博士が、ディープフェイク検出器は破られないものではないことを初めて証明した。

研究者らは、敵対的サンプルと呼ばれる入力を各ビデオフレームに挿入することで、検出器を破ることができる...