GANは画像生成の王様ではないでしょうか？最近は拡散モデルが人気になり、その影響はSOTAにも及んでいる。

[[443024]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

年末に発表されたばかりのOpenAIの新作「GLIDE」により、拡散モデルは再び人気を集めている。

この拡散モデルベースのテキスト画像生成モデルは、モデルパラメータは小さくなりますが、より高品質の画像を生成します。

そのため、OpenAI によって現在も作成され、そのタイトルが直接的に「画像生成で GAN に勝る」と主張するADM-G モデルも、再び世間の注目を集めています。

Papers with Code の ImageNet データセットに基づく画像生成モデルのリストを見ると、このモデルは 64 x 64 から 512 x 512 の解像度でリストのトップにあります。

かつて史上最強の画像ジェネレーターとして知られたBigGAN-deepにも劣らず、LSUNやImageNet 64×64の画像生成効果においてSOTAを達成することさえ可能です。

一部のネットユーザーは嘆いた。「ここ数年、画像生成の分野はGANが独占してきたが、今や普及モデルになりつつあるようだ。」

カテゴリ条件付き拡散モデル

まず、拡散モデルの定義を見てみましょう。

これは画像生成の新しい方法であり、その名前の「拡散」は本質的に反復的なプロセスです。

具体的には、完全にノイズで構成された画像から始めて、各ステップで除去されるノイズを予測し、反復的にノイズを除去して高品質のサンプルを取得し、徐々に詳細を追加します。

OpenAI の ADM-G モデルは、これに基づいて画像生成タスクにカテゴリ条件を追加し、独自のアブレーション拡散モデルを形成します。

研究者たちは以下の点で改善を行いました。

基本的なアーキテクチャ

UNet 構造に基づいて 5 つの改善が行われました。

モデルのサイズを変えずに奥行きと幅を増やす
注目ヘッドの数を増やす
注意メカニズムは、32×32、16×16、8×8の解像度で使用される。
BigGAN残差ブロックを使用したアップサンプリングとダウンサンプリングの活性化関数
残余接続を1/ルート2に減らす

分類ガイダンス

研究者らは、ノイズを段階的に信号に変換する過程で、事前にトレーニングされた分類ネットワークを導入した。

中間生成された画像のラベルを予測して取得できます。つまり、生成された画像を分類できます。

その後、分類スコアとターゲットカテゴリ間のクロスエントロピー損失に基づいて勾配が計算され、その勾配を使用して次世代のサンプリングがガイドされます。

分類器の勾配のスケーリング

ハイパーパラメータによって分類ネットワークの勾配をスケーリングし、生成される画像の多様性と精度を制御します。

たとえば、次のように、左側はサイズ 1.0 の分類ネットワークで、右側はサイズ 10.0 の分類ネットワークです。右側に生成された画像は、明らかにカテゴリがより一貫していることがわかります。

つまり、分類ネットワークの勾配が高いほど、カテゴリの一貫性が高まり、精度が高くなり、同時に多様性は小さくなります。

発電分野の新たなホットスポット

現在、このモデルは GitHub で約 1,000 個のスターを獲得しています。

GAN と比較すると、拡散モデルによって生成される画像はより多様で複雑です。

同じトレーニングデータセットに基づいて、拡散モデルはパノラマ、ローカルのクローズアップ、さまざまな角度の画像を生成できます。

△左：BigGAN-deep 右：ADM

実際、Googleが2020年にDDPMを公開して以来、拡散モデルは徐々に生成分野の新たなホットスポットになってきました。

この記事で言及されている 2 つの OpenAI 論文に加えて、Semantic Guidence Diffusion や Classifier-Free Diffusion Guidence など、拡散モデルに基づいて設計された生成モデルもいくつかあります。

拡散モデルは視覚タスクにおいてどのような新しい応用が期待できるでしょうか? 来年まで待ってみましょう。

論文リンク:
https://arxiv.org/abs/2105.05233

オープンソースリンク:
https://github.com/openai/guided-diffusion

<<: 2021 年にグラフ機械学習にはどのような新たなブレークスルーがあるでしょうか?マギル大学のポスドク研究員が分野の動向を整理

>>: 3D モデルの「スキンを変更する」のはどれくらい簡単ですか?一言だけ

機械学習アルゴリズム入門: 線形モデルからニューラルネットワークまで

ブログ

Huaweiの「ブラックテクノロジー」がついに公開。サイバーバース以外にも重要なニュースがある

ブログ

精密人工知能：原子核物理学と素粒子物理学における新たな力

ブログ

国防総省が新たなAIを開発: 海、陸、空のデータをリアルタイムで分析し「未来を予測」

ブログ

トークンとメモリを理解することによってのみ、ChatGPT をよりよくマスターできます。

ブログ

北京地下鉄は顔認識技術を使用して機密のセキュリティチェックを実施する予定

ブログ

マイクロソフトが新しいハイブリッド会議機能をリリース: Teams Rooms、リモートプレゼンテーションカメオ、Viva Connections モバイルアプリ

ブログ

新しいプログラミングパラダイム: Spring Boot と OpenAI の出会い

ブログ

エッジ vs. クラウド: どちらの AI インフラストラクチャを選択すべきか?

ブログ

エッジデバイス上でモデル推論を効率的に実行できる 5 つのアルゴリズム

ブログ

GANは画像生成の王様ではないでしょうか？最近は拡散モデルが人気になり、その影響はSOTAにも及んでいる。

カテゴリ条件付き拡散モデル

基本的なアーキテクチャ

分類ガイダンス

分類器の勾配のスケーリング

発電分野の新たなホットスポット

機械学習アルゴリズム入門: 線形モデルからニューラルネットワークまで

Huaweiの「ブラックテクノロジー」がついに公開。サイバーバース以外にも重要なニュースがある

精密人工知能：原子核物理学と素粒子物理学における新たな力

国防総省が新たなAIを開発: 海、陸、空のデータをリアルタイムで分析し「未来を予測」

トークンとメモリを理解することによってのみ、ChatGPT をよりよくマスターできます。

北京地下鉄は顔認識技術を使用して機密のセキュリティチェックを実施する予定

マイクロソフトが新しいハイブリッド会議機能をリリース: Teams Rooms、リモートプレゼンテーションカメオ、Viva Connections モバイルアプリ

新しいプログラミングパラダイム: Spring Boot と OpenAI の出会い

エッジ vs. クラウド: どちらの AI インフラストラクチャを選択すべきか?

エッジデバイス上でモデル推論を効率的に実行できる 5 つのアルゴリズム

推薦する

画像やテキストが無限の3D世界を生み出します！スタンフォード大学の呉嘉軍氏のチームの新しい研究は、ネットユーザーから「信じられない」と評された。

AIの最高峰：自然言語処理

LLM にとってベクターデータベースが重要なのはなぜですか?

人工知能システムが薬剤耐性菌を殺す新しい抗生物質を発見

ChatGPTは、すべての過去のチャットの学習、記憶のリセット、および「読んだ後の書き込み」という新機能をテストするために公開されました。

OpenAI CEO サム・アルトマン: AI革命が到来、新たなシステムが必要

自然言語処理のためのオープンソースツールトップ12

TensorFlow 2.8.0が正式にリリースされ、多くのバグが修正され、50以上の脆弱性パッチがリリースされました

「最強の7Bモデル」論文が発表され、ラマ2の13Bバージョンを超える方法が明らかになった

ビデオチャットでも顔を偽ることはできますか？恐ろしい AI 顔交換ソフトウェアを詳しく見る

ロボットが自閉症児の社会スキルの発達を助ける

Adobe のインターンのインテリジェントな被写界深度アルゴリズム: 2D 画像を 3 秒で 3D に変換し、視点をスムーズかつ自然に変化させます

通信ネットワーク運用イベントのナレッジグラフの構築