Google UFOGen は、非常に高速なサンプリング速度で高品質の画像を生成できます。

過去1年間、Stable Diffusionに代表される一連の文化イメージ拡散モデルは、ビジュアル創造の分野を完全に変えました。拡散モデルによって生成された画像を使用することで、数え切れないほどのユーザーが生産性を向上させています。しかし、拡散モデルを生成できる速度は永遠の問題です。ノイズ除去モデルは、初期のガウスノイズを段階的に画像に変換する多段階のノイズ除去に依存しているため、ネットワークを複数回計算する必要があり、生成速度が遅くなります。このため、大規模なテキストグラフ拡散モデルは、リアルタイム性とインタラクティブ性を重視する一部のアプリケーションには非常に不向きです。一連の技術の導入により、拡散モデルからのサンプリングに必要なステップ数は、当初の数百ステップから数十ステップ、さらには 4 ～ 8 ステップにまで減少しました。

最近、Google の研究チームは、非常に迅速にサンプリングできる拡散モデルのバリエーションである UFOGen モデルを提案しました。論文で提案された方法を使用して Stable Diffusion を微調整することにより、UFOGen はわずか 1 ステップで高品質の画像を生成できます。同時に、グラフ生成や ControlNet などの Stable Diffusion の下流アプリケーションも保持できます。

論文リンク: https://arxiv.org/abs/2311.09257

下の図からわかるように、 UFOGen はたった 1 つのステップで高品質で多様な画像を生成できます。

拡散モデルの生成速度を向上させることは、新しい研究方向ではありません。この分野におけるこれまでの研究は、主に 2 つの方向に焦点が当てられてきました。 1 つの方向性は、より少ない離散ステップで拡散モデルのサンプリング ODE を解くという目標を達成するために、より効率的な数値計算方法を設計することです。たとえば、清華大学の Zhu Jun 氏のチームが提案した DPM シリーズの数値ソルバーは、安定拡散に対して非常に効果的であることが証明されており、DDIM のデフォルトの 50 ステップから 20 ステップ未満に、解析ステップ数を大幅に削減できます。もう 1 つの方向性は、知識蒸留法を使用して、モデルの ODE ベースのサンプリングパスをより少ないステップ数に圧縮することです。この方向性の例として、CVPR2023 の最優秀論文候補の 1 つであるガイド付き蒸留や、最近人気の潜在的一貫性モデル (LCM) が挙げられます。特に、LCM は一貫性ターゲットを絞り込むことでサンプリングステップの数をわずか 4 ステップにまで削減できるため、多くのリアルタイム生成アプリケーションが誕生しました。

しかし、Googleの研究チームはUFOGenモデルにおいて上記の一般的な方向性には従わず、異なるアプローチを取り、 1年以上前に提案された拡散モデルとGANのハイブリッドモデルのアイデアを使用しました。彼らは、前述の ODE ベースのサンプリングと蒸留には根本的な限界があり、サンプリング手順の数を限界まで圧縮することは難しいと考えています。したがって、ワンステップ生成という目標を達成したいのであれば、新しいアイデアを切り開く必要があります。

拡散モデルと GAN のハイブリッドモデルは、ICLR 2022 で NVIDIA の研究チームによって初めて提案された DDGAN (Tackling the Generative Learning Trilemma with Denoising Diffusion GANs) です。これは、ノイズ低減分布に関してガウス仮定を行う通常の拡散モデルの根本的な欠陥に着想を得ています。簡単に言えば、拡散モデルでは、ノイズ低減分布 (ノイズが追加されたサンプルが与えられた場合、ノイズが少ないサンプルの条件付き分布) が単純なガウス分布であると想定しています。しかし、確率微分方程式の理論では、このような仮定はノイズ除去ステップサイズが 0 に近づく場合にのみ有効であることが証明されています。したがって、拡散モデルでは、ノイズ除去ステップサイズを小さくするために、多数のノイズ除去ステップを繰り返す必要があり、生成速度が非常に遅くなります。

DDGAN は、ノイズ除去分布のガウス仮定を放棄し、代わりに条件付き GAN を使用してノイズ除去分布をシミュレートすることを提案します。 GAN は非常に強力な表現機能を備えており、複雑な分布をシミュレートできるため、より大きなノイズ除去ステップサイズを使用してステップ数を減らすことができます。しかし、DDGAN は拡散モデルの安定した再構築のトレーニング目標を GAN のトレーニング目標に変更するため、トレーニングの不安定性が生じやすく、より複雑なタスクへの拡張が困難になります。 NeurIPS 2023では、UGOGenを作成した同じGoogleの研究チームがSIDDM（論文タイトル：Semi-Implicit Denoising Diffusion Models）を提案しました。これは、DDGANのトレーニング目標に再構築目的関数を再導入し、DDGANと比較してトレーニングの安定性と生成品質を大幅に向上させました。

UFOGen の前身である SIDDM では、CIFAR-10 や ImageNet などの研究データセットで高品質の画像を生成するのに 4 つのステップしか必要ありません。しかし、 SIDDM には解決すべき 2 つの問題があります。1 つ目は、理想的なワンステップ生成を実現できないこと、2 つ目は、より一般的な文化マップの分野に拡張することが容易ではないことです。このため、Google の研究チームはこれら 2 つの問題を解決するために UFOGen を提案しました。

具体的には、問題 1 については、簡単な数学的分析により、ジェネレータのパラメータ化方法を変更し、再構成損失関数の計算方法を変更することで、モデルは理論的には 1 ステップ生成を実現できることを発見しました。質問 2 については、チームは、UFOGen モデルをテキスト画像タスクに迅速かつ適切に拡張できるように、既存の安定拡散モデルを初期化に使用することを提案しました。 SIDDM では、ジェネレータとディスクリミネータの両方に UNet アーキテクチャを使用することを提案していることは注目に値します。したがって、この設計に基づいて、UFOGen のジェネレータとディスクリミネータは、安定拡散モデルによって初期化されます。そうすることで、Stable Diffusion 内の情報、特に画像とテキストの関係に関する情報を最大限に活用できます。このような情報は敵対的学習を通じて得ることは困難です。トレーニングアルゴリズムと図を以下に示します。

注目すべきは、Nvidia の StyleGAN-T や Adobe の GigaGAN など、GAN を使用してテキストや画像を生成する研究が以前にもいくつかあったことです。どちらも StyleGAN の基本アーキテクチャをより大規模に拡張し、1 ステップでテキストと画像を生成できるようにしています。 UFOGen の著者らは、生成品質に加えて、UFOGen には以前の GAN ベースの作業に比べていくつかの利点があると指摘しています。

1. 純粋な GAN トレーニングは、特にテキストから画像へのタスクでは非常に不安定です。識別器は、画像のテクスチャを区別する必要があるだけでなく、画像とテキストの一致度も理解する必要があり、これは特にトレーニングの初期段階では非常に難しいタスクです。そのため、GigaGAN などの従来の GAN モデルでは、トレーニングを支援するために多数の補助損失が導入され、トレーニングとパラメータの調整が非常に困難になりました。 UFOGen には再構築損失があるため、ここでは GAN が補助的な役割を果たすため、トレーニングは非常に安定しています。

2. GAN を最初から直接トレーニングすることは、不安定なだけでなく、特に大量のデータとトレーニング手順を必要とするヴィンセントグラフなどのタスクの場合、非常にコストがかかります。 2 セットのパラメータを同時に更新する必要があるため、GAN トレーニングでは拡散モデルよりも多くの時間とメモリが消費されます。 UFOGen の革新的な設計により、安定した拡散からパラメータを初期化できるため、トレーニング時間が大幅に節約されます。通常、収束するには数万回のトレーニングステップのみが必要です。

3. テキスト生成グラフ拡散モデルの大きな魅力の 1 つは、グラフ生成グラフなどの微調整を必要としないアプリケーションや、制御可能な生成などのすでに微調整を必要とするアプリケーションを含む他のタスクに適用できることです。これまでの GAN モデルでは、GAN の微調整が常に困難であったため、これらの下流タスクに拡張することが困難でした。対照的に、UFOGen には拡散モデルフレームワークがあるため、これらのタスクに簡単に適用できます。次の図は、UFOGen のグラフ生成と制御可能な生成の例を示しています。これらの生成にも 1 つのサンプリングステップのみが必要であることに注意してください。

実験では、UFOGen はたった 1 回のサンプリングステップでテキストの説明に一致する高品質の画像を生成できることが示されています。最近提案された拡散モデル用の高速サンプリング方法（大規模火災用の Instaflow および LCM を含む）と比較すると、UFOGen は強力な競争力を示しています。 50 ステップのサンプリングされた Stable Diffusion と比較しても、UFOGen によって生成されたサンプルは見た目が弱いようには見えません。比較結果は次のとおりです。

要約する

Google チームは、既存の拡散モデルと GAN ハイブリッドモデルを改良することで、ワンステップでテキストから画像への生成を実現できる強力な UFOGen モデルを提案しました。このモデルは Stable Diffusion によって微調整することができ、さまざまな下流アプリケーションに適合しながらワンステップのテキストから画像への変換機能を確保できます。超高速のテキストから画像への合成を実現した初期の研究の 1 つとして、UFOGen は効率的な生成モデルの分野に新たな道を開きます。

<<: GPT-4Vの自動運転への応用の見通しは？現実世界のシナリオの包括的な評価はここにあります

>>: Google Bardは「防御を突破」し、自然言語を使ってロックを解除、インジェクションによるデータ漏洩のリスクを示唆

Google ナレッジグラフプロダクトマネージャーへのインタビュー: 探検するために生まれた

ブログ

Google UFOGen は、非常に高速なサンプリング速度で高品質の画像を生成できます。

要約する

Google ナレッジグラフプロダクトマネージャーへのインタビュー: 探検するために生まれた

機械学習の経験を人生の指針に活用する: 学習効率を最大化する方法

ラオ・ファン氏が投資に参加し、MITの中国人女性科学者が2億ドルの資金を調達！ 10,000台のH100が1000億以上のパラメータでAIエージェントをトレーニング

知っておくべき人工知能アルゴリズムトップ 10

チャットボットが消費者と企業に役立つ6つの方法

トップカンファレンスで新たな AI 技術が登場: リアルな 3D 顔を生成できるのは顔写真だけ

推薦する

サーバーが過負荷状態です! GANで生成された肖像油絵は人気があり、一瞬でルネッサンス時代に戻ることができます

大規模モデル向けの最速推論チップが一夜にして手に入りました。1秒あたり500トークンで、GPUを上回ります。 Google TPUチームがそれを構築し、ウルトラマンに叫ぶ: あなたは遅すぎる

人工知能の開発における主な成果は何ですか?また、どのような課題に直面していますか?

キング・オブ・グローリーのプレイからサッカーのプレイまで、テンセントのAIが再び進化

機械学習における欠損値に対処する9つの方法

スマートポインターボックスの謎を解明

3Dチップ技術がコンピューティングに破壊的な変化をもたらす3つの方法：AMD、Graphcore、Intelはそれぞれ独自の秘策を秘めている

時代遅れにならないで、機械学習プラットフォームこそが未来だ

ChatGPT/GPT-4/ラマトロッコ問題コンテスト！小型モデルの方が道徳心が高い？

人工知能の波で私たちは職を失うのでしょうか？