OpenAI の新しい論文が GAN を破り SOTA に到達!この圧倒的な拡散モデルは単なる仕掛けなのか、それとも本物なのか？

最近またFaceAPPが人気になってきているので、編集者もダウンロードして試してみました。

大丈夫ですよ、かなり興味深いです。

FaceAPP の背後には、生成的敵対的ネットワーク (GAN) に基づく画像生成テクノロジーがあります。

GAN は 2014 年の誕生以来、画像生成、特にディープフェイクの顔生成の研究と応用をほぼ完全に支配してきました。

しかし、GAN はトレーニングが難しく、モード崩壊などの問題が発生しやすいです。

ディープフェイクの「モデル」を使用して他の人が作成したビデオと、ディープフェイクの「マジック」を使用して私が作成したビデオ

こうして新しいSOTAモデルが誕生した

GAN のこれらの問題に対応するため、OpenAI の 2 人の研究者、Prafulla Dhariwal 氏と Alex Nichol 氏は他のアーキテクチャを検討しました。

最新の論文「拡散モデルが画像合成で GAN に勝つ」では、提案された拡散モデルアーキテクチャが GAN の欠点を解決し、画像生成タスクで GAN に勝ち、SOTA レベルに達すると述べています。

タイトルに「Beat」という言葉を使ったところ、彼らが非常に野心的であることが分かりました。

「ImageNet 512x512 で 3.85 FID を達成しました。BigGAN と同等のパフォーマンスを維持するだけでなく、サンプルあたりのフォワードパスの数を 25 に減らし、分布のカバレッジを向上させました。」

たまたま検索してみたところ、記事全体で 15 個の「最先端」があることがわかりました。GAN について説明している 2、3 個 (敗北または転換点を迎えている) を除き、その他は基本的にすべて独自の新しいモデルについて説明しています。これが SOTA であるかどうかは別として、著者は間違いなく SOTA であると考えています。

時は3ヶ月前に戻る

非常に興味深いのは、引用文献の中に、この二人が著者である論文があることです。

今年2月には「改良型ノイズ低減拡散確率モデル」と題した論文を発表し、GANとの比較も行われたが、この時点ではまだGANを「打ち負かした」わけではなかった。

意外にも、3か月後、彼らは新しい論文で成功したと述べました。彼らはかなり効率的であるようです。

同じ 1 億個のパラメータを持つモデルとして、BigGAN-Deep は、FID の点で、現時点で著者がトレーニングした DDPM よりも大幅に優れたパフォーマンスを発揮します。しかし、この2人は2億7000万のパラメータでトレーニングしたモデルで力ずくで勝利した。

ノイズ除去拡散確率モデル (DDPM) - 改良版

拡散モデルは、画像生成タスクでも優れたパフォーマンスを発揮する、別のクラスのディープラーニングモデルです。

ランダムなノイズ画像をトレーニング分布内のポイントにマッピングすることを学習する GAN とは異なり、拡散モデルはノイズの多い画像を取得し、一連のノイズ除去手順を実行して、ノイズを徐々に削減し、トレーニングデータ分布に属する画像を生成します。

DDPM は、サンプリング品質にほとんど影響を与えずに、より高速にサンプリングし、より優れた対数尤度を得ることができます。トレーニング計算の量を増やすと、サンプルの品質と対数尤度が向上します。

「改良されたモデルでは、より少ないサンプルで済むことがわかり、驚いた」と2人の著者は述べた。著者が 25 のフォワードサンプリングの促進に重点を置くのは不思議ではありません。

詳細については、次の論文を参照してください。
出典：http://arxiv.org/pdf/2102.09672.pdf

新たな普及モデル

3 か月後、Dhariwal 氏と Nichol 氏は、以前の失敗を補い、拡散モデルのアーキテクチャを再度改良して、モデルのパフォーマンスをさらに向上させることを決定しました。

モデルのサイズを比較的一定に保つために、深さと幅を同じ比率で増やします。
注意ヘッドの数を増やします。
32×32、16×16、8×8に注目レイヤーを追加します。
アクティベーションは、BigGAN の残差モジュールを使用してアップサンプリングおよびダウンサンプリングされます。
残留接続のスケールを調整します。

アテンションヘッドの数を増やすか、ヘッドあたりのチャネル数を減らすと、FID が向上します。

比較の結果、モデルは最終的に 128 の基本チャネル、解像度ごとに 2 つの残差モジュール、マルチ解像度の注意、BigGAN アップ/ダウンサンプリングを使用することを選択し、注意ヘッドごとに 64 チャネルを使用して 70 万回の反復でモデルをトレーニングしました。

ImageNet 128×128 モデルの場合、分類器の勾配が変化すると、サンプルの品質も変化します。勾配が 1.0 を超えると、精度と再現率の間でスムーズなトレードオフが得られます。

BigGAN-deep は変更を切り捨てるときにトレードオフを行います。

結果と評価

OpenAI の拡散モデルは、すべてのタスクで最高の FID スコアを達成し、1 つのタスクを除くすべてのタスクで最高の sFID スコアを達成しました。

改良されたモデル構造により、LSUN および ImageNet 64×64 で SOTA 画像生成結果を達成できます。

高解像度の ImageNet の場合、このモデルは最高の GAN よりも優れたパフォーマンスを発揮します。この時点で、モデルは、わずか 25 回の拡散でも、高いカバレッジ (リコールで測定) を維持しながら、GAN と同様の知覚品質を実現できます。著者は、これら 25 回の順方向伝播の結果に非常に満足しているようです。

生成モデルのサンプル品質の比較。 ADM はテキスト内の拡散モデルを参照しますが、ADM-G は分類子を追加します。

左側は BigGAN ディープモデルの結果、中央は OpenAI 拡散モデルの結果、右側は元のトレーニングセットからの画像です。

上の画像も同様の図を示していますが、研究者は拡散モデルがトレーニングセットからより多くのことを学習したと説明しています。

「サンプルの知覚品質は似ていますが、拡散モデルには、ダチョウの頭のクローズアップ、フラミンゴ1羽、さまざまな角度のチーズバーガー、人が持っていない魚など、GANよりも多くのコンテンツが含まれています。」

著者の結論

GAN と比較すると、拡散モデルはより優れたサンプル品質を得ることができます。

改善されたアーキテクチャは、無条件画像生成タスクで SOTA を達成するのに十分であり、分類器ガイダンス技術により、モデルはクラス条件付きタスクのサンプル品質をさらに向上させることができます。

拡散モデルは、GAN と拡散モデル間のサンプリング時間のギャップを短縮できますが、サンプリングプロセス中に複数の順方向伝播が依然として必要になります。

最後に、ガイダンスとアップサンプリングを組み合わせることで、高解像度条件下での画像合成において最先端の結果を達成できます。

この時点で、もう一つの転機が訪れます。

実際、著者自身も、現在の拡散モデルのトレーニング計算コストは GAN よりも高く、サンプリング速度は GAN ほど速くなく、シングルステップモデルでは GAN に匹敵できないことを認めています。

最も重要なのは、この記事の分類器ブートストラップ手法はラベル付きデータセットに限定されており、著者はラベルなしデータセットにおける精度と多様性の間でトレードオフを行う効果的な戦略を提供していないことです。

ネットユーザーらは、「計算の観点から見ると、拡散モデルはGANよりもはるかに多くのメモリとステップを消費する」ともコメントした。

短期的には、GAN が依然として画像生成の分野を支配すると思われます。

<<: 自動運転と安全性の「距離」

>>: Google のロボットアームはハンカチなど、柔らかいものも硬いものもつかむことができます。 ICRA 2021が承認されました

超人工知能を巡る究極の議論 ― 人間とどう共存するか？それとも人類に対する完全な脅威でしょうか?

ブログ

同社はコストバランスに苦戦しており、AI部門で猛烈な採用を行い、他の部門では人員削減を行っている。

ブログ

OpenAI の新しい論文が GAN を破り SOTA に到達!この圧倒的な拡散モデルは単なる仕掛けなのか、それとも本物なのか？

こうして新しいSOTAモデルが誕生した

時は3ヶ月前に戻る

ノイズ除去拡散確率モデル (DDPM) - 改良版

新たな普及モデル

結果と評価

著者の結論

この時点で、もう一つの転機が訪れます。

超人工知能を巡る究極の議論 ― 人間とどう共存するか？それとも人類に対する完全な脅威でしょうか?

同社はコストバランスに苦戦しており、AI部門で猛烈な採用を行い、他の部門では人員削減を行っている。

グラフニューラルネットワークに基づくOPPOの検索推奨アルゴリズムと実践

成功は AI のおかげであり、失敗も AI のおかげです。アメリカで最も成功している AI 不動産評価会社が危機に陥り、従業員 2,000 人を解雇。モデルは失敗しているのか?

フーダンの新しい服が再びネイチャーに登場しました！体に装着したまま携帯電話を充電でき、洗濯可能で折り曲げることもできます。

未来の生活に革命をもたらす5つのテクノロジートレンド

史上最大のチューリングテスト実験が完了！ 150万人が1000万回の会話に参加し、相手が人間かAIかを判断した。

AIアプリケーションのための実用的なフレームワークを構築するための5つのステップ

推薦する

Facebook のインタラクティブニューラルネットワーク可視化システム ActiVis がニューラルネットワークの「ブラックボックス」を公開

マイクロソフトによるニュアンスの買収が大きな意味を持つ理由

機械学習の運用はサイバーセキュリティに革命をもたらす可能性がある

2020年のコロナウイルスがロボット経済をいかに後押ししたか

Transformer モデルにはいくつのバリエーションがありますか?復旦大学の邱希鵬教授のチームが包括的なレビューを行った。

中国の研究チームが86%の精度を誇るAI「皮肉」検出モデルを発表

人工知能は人間の言語を習得したのか？見た目は騙されることがある

新しいNeRF技術は、ビデオを簡単に制御できる3Dモデルに変換できます。

プロジェクト Digging 21 - 軽量 LLM エージェントの構築方法

世界人工知能会議の最高栄誉である2020年SAIL賞のトップ30プロジェクトが発表されました

4分でノーベル賞の再現に成功！ CMU は化学研究を覆す GPT-4 化学者、自律コーディング、ロボット制御を開発し、Nature に発表

同意しますか？コンピューティングの未来は分散化です!