過去1年間、Stable Diffusionに代表される一連の文化イメージ拡散モデルは、ビジュアル創造の分野を完全に変えました。拡散モデルによって生成された画像を使用することで、数え切れないほどのユーザーが生産性を向上させています。しかし、拡散モデルを生成できる速度は永遠の問題です。ノイズ除去モデルは、初期のガウスノイズを段階的に画像に変換する多段階のノイズ除去に依存しているため、ネットワークを複数回計算する必要があり、生成速度が遅くなります。このため、大規模なテキスト グラフ拡散モデルは、リアルタイム性とインタラクティブ性を重視する一部のアプリケーションには非常に不向きです。一連の技術の導入により、拡散モデルからのサンプリングに必要なステップ数は、当初の数百ステップから数十ステップ、さらには 4 ~ 8 ステップにまで減少しました。 最近、Google の研究チームは、非常に迅速にサンプリングできる拡散モデルのバリエーションである UFOGen モデルを提案しました。論文で提案された方法を使用して Stable Diffusion を微調整することにより、UFOGen はわずか 1 ステップで高品質の画像を生成できます。同時に、グラフ生成や ControlNet などの Stable Diffusion の下流アプリケーションも保持できます。 論文リンク: https://arxiv.org/abs/2311.09257 下の図からわかるように、 UFOGen はたった 1 つのステップで高品質で多様な画像を生成できます。 拡散モデルの生成速度を向上させることは、新しい研究方向ではありません。この分野におけるこれまでの研究は、主に 2 つの方向に焦点が当てられてきました。 1 つの方向性は、より少ない離散ステップで拡散モデルのサンプリング ODE を解くという目標を達成するために、より効率的な数値計算方法を設計することです。たとえば、清華大学の Zhu Jun 氏のチームが提案した DPM シリーズの数値ソルバーは、安定拡散に対して非常に効果的であることが証明されており、DDIM のデフォルトの 50 ステップから 20 ステップ未満に、解析ステップ数を大幅に削減できます。もう 1 つの方向性は、知識蒸留法を使用して、モデルの ODE ベースのサンプリング パスをより少ないステップ数に圧縮することです。この方向性の例として、CVPR2023 の最優秀論文候補の 1 つであるガイド付き蒸留や、最近人気の潜在的一貫性モデル (LCM) が挙げられます。特に、LCM は一貫性ターゲットを絞り込むことでサンプリング ステップの数をわずか 4 ステップにまで削減できるため、多くのリアルタイム生成アプリケーションが誕生しました。 しかし、Googleの研究チームはUFOGenモデルにおいて上記の一般的な方向性には従わず、異なるアプローチを取り、 1年以上前に提案された拡散モデルとGANのハイブリッドモデルのアイデアを使用しました。彼らは、前述の ODE ベースのサンプリングと蒸留には根本的な限界があり、サンプリング手順の数を限界まで圧縮することは難しいと考えています。したがって、ワンステップ生成という目標を達成したいのであれば、新しいアイデアを切り開く必要があります。 拡散モデルと GAN のハイブリッド モデルは、ICLR 2022 で NVIDIA の研究チームによって初めて提案された DDGAN (Tackling the Generative Learning Trilemma with Denoising Diffusion GANs) です。これは、ノイズ低減分布に関してガウス仮定を行う通常の拡散モデルの根本的な欠陥に着想を得ています。簡単に言えば、拡散モデルでは、ノイズ低減分布 (ノイズが追加されたサンプルが与えられた場合、ノイズが少ないサンプルの条件付き分布) が単純なガウス分布であると想定しています。しかし、確率微分方程式の理論では、このような仮定はノイズ除去ステップ サイズが 0 に近づく場合にのみ有効であることが証明されています。したがって、拡散モデルでは、ノイズ除去ステップ サイズを小さくするために、多数のノイズ除去ステップを繰り返す必要があり、生成速度が非常に遅くなります。 DDGAN は、ノイズ除去分布のガウス仮定を放棄し、代わりに条件付き GAN を使用してノイズ除去分布をシミュレートすることを提案します。 GAN は非常に強力な表現機能を備えており、複雑な分布をシミュレートできるため、より大きなノイズ除去ステップ サイズを使用してステップ数を減らすことができます。しかし、DDGAN は拡散モデルの安定した再構築のトレーニング目標を GAN のトレーニング目標に変更するため、トレーニングの不安定性が生じやすく、より複雑なタスクへの拡張が困難になります。 NeurIPS 2023では、UGOGenを作成した同じGoogleの研究チームがSIDDM(論文タイトル:Semi-Implicit Denoising Diffusion Models)を提案しました。これは、DDGANのトレーニング目標に再構築目的関数を再導入し、DDGANと比較してトレーニングの安定性と生成品質を大幅に向上させました。 UFOGen の前身である SIDDM では、CIFAR-10 や ImageNet などの研究データセットで高品質の画像を生成するのに 4 つのステップしか必要ありません。しかし、 SIDDM には解決すべき 2 つの問題があります。1 つ目は、理想的なワンステップ生成を実現できないこと、2 つ目は、より一般的な文化マップの分野に拡張することが容易ではないことです。このため、Google の研究チームはこれら 2 つの問題を解決するために UFOGen を提案しました。 具体的には、問題 1 については、簡単な数学的分析により、ジェネレータのパラメータ化方法を変更し、再構成損失関数の計算方法を変更することで、モデルは理論的には 1 ステップ生成を実現できることを発見しました。質問 2 については、チームは、UFOGen モデルをテキスト画像タスクに迅速かつ適切に拡張できるように、既存の安定拡散モデルを初期化に使用することを提案しました。 SIDDM では、ジェネレータとディスクリミネータの両方に UNet アーキテクチャを使用することを提案していることは注目に値します。したがって、この設計に基づいて、UFOGen のジェネレータとディスクリミネータは、安定拡散モデルによって初期化されます。そうすることで、Stable Diffusion 内の情報、特に画像とテキストの関係に関する情報を最大限に活用できます。このような情報は敵対的学習を通じて得ることは困難です。トレーニング アルゴリズムと図を以下に示します。 注目すべきは、Nvidia の StyleGAN-T や Adobe の GigaGAN など、GAN を使用してテキストや画像を生成する研究が以前にもいくつかあったことです。どちらも StyleGAN の基本アーキテクチャをより大規模に拡張し、1 ステップでテキストと画像を生成できるようにしています。 UFOGen の著者らは、生成品質に加えて、UFOGen には以前の GAN ベースの作業に比べていくつかの利点があると指摘しています。 1. 純粋な GAN トレーニングは、特にテキストから画像へのタスクでは非常に不安定です。識別器は、画像のテクスチャを区別する必要があるだけでなく、画像とテキストの一致度も理解する必要があり、これは特にトレーニングの初期段階では非常に難しいタスクです。そのため、GigaGAN などの従来の GAN モデルでは、トレーニングを支援するために多数の補助損失が導入され、トレーニングとパラメータの調整が非常に困難になりました。 UFOGen には再構築損失があるため、ここでは GAN が補助的な役割を果たすため、トレーニングは非常に安定しています。 2. GAN を最初から直接トレーニングすることは、不安定なだけでなく、特に大量のデータとトレーニング手順を必要とするヴィンセント グラフなどのタスクの場合、非常にコストがかかります。 2 セットのパラメータを同時に更新する必要があるため、GAN トレーニングでは拡散モデルよりも多くの時間とメモリが消費されます。 UFOGen の革新的な設計により、安定した拡散からパラメータを初期化できるため、トレーニング時間が大幅に節約されます。通常、収束するには数万回のトレーニング ステップのみが必要です。 3. テキスト生成グラフ拡散モデルの大きな魅力の 1 つは、グラフ生成グラフなどの微調整を必要としないアプリケーションや、制御可能な生成などのすでに微調整を必要とするアプリケーションを含む他のタスクに適用できることです。これまでの GAN モデルでは、GAN の微調整が常に困難であったため、これらの下流タスクに拡張することが困難でした。対照的に、UFOGen には拡散モデル フレームワークがあるため、これらのタスクに簡単に適用できます。次の図は、UFOGen のグラフ生成と制御可能な生成の例を示しています。これらの生成にも 1 つのサンプリング ステップのみが必要であることに注意してください。 実験では、UFOGen はたった 1 回のサンプリング ステップでテキストの説明に一致する高品質の画像を生成できることが示されています。最近提案された拡散モデル用の高速サンプリング方法(大規模火災用の Instaflow および LCM を含む)と比較すると、UFOGen は強力な競争力を示しています。 50 ステップのサンプリングされた Stable Diffusion と比較しても、UFOGen によって生成されたサンプルは見た目が弱いようには見えません。比較結果は次のとおりです。 要約するGoogle チームは、既存の拡散モデルと GAN ハイブリッド モデルを改良することで、ワンステップでテキストから画像への生成を実現できる強力な UFOGen モデルを提案しました。このモデルは Stable Diffusion によって微調整することができ、さまざまな下流アプリケーションに適合しながらワンステップのテキストから画像への変換機能を確保できます。超高速のテキストから画像への合成を実現した初期の研究の 1 つとして、UFOGen は効率的な生成モデルの分野に新たな道を開きます。 |
<<: GPT-4Vの自動運転への応用の見通しは?現実世界のシナリオの包括的な評価はここにあります
>>: Google Bardは「防御を突破」し、自然言語を使ってロックを解除、インジェクションによるデータ漏洩のリスクを示唆
[[270834]]近年、人工知能はテクノロジー界で注目されている分野です。中国では、Megvii...
検索について言えば、学術的な検索も科学です。検索を上手に使いこなすと、必要な学術情報を素早く見つける...
TikTok は、ユーザーが短い動画を作成して共有できる動画共有アプリです。 「あなただけのための」...
基本的なルーティング アルゴリズムの設計目標とタイプは、基本的なルーティング アルゴリズムに関する知...
すごいですね、ボストン・ダイナミクスのロボット犬が直接話せるようになりました。そして、Siriの「人...
GPT-4 はより愚かになった、というのは本当ですか? ? ?スタンフォード大学とカリフォルニア大学...
[51CTO.com からのオリジナル記事] ビッグデータとビッグデータ分析は、現在、企業の注目の的...
本日、2024年度の米国工学アカデミーの新会員リストが発表されました! Nvidiaの黄氏が選出され...
6月30日、「半導体産業展望」の報道によると、中国科学院計算技術研究所などの機関がAI技術を活用し、...
検出が難しい膠芽腫などの癌の生存率は1桁ですが、早期治療には検出、治療、監視のための高度な技術が必要...
過去 10 年間で、人工知能の分野で大きな進歩が遂げられてきましたが、その中で自然言語処理 (NLP...
序文機械学習(ML)は、教師あり学習、教師なし学習、半教師あり学習などに分けられます。 1.1 教師...
人工知能 (AI) の導入によって得られる潜在的な利益を考えると、企業は傍観者でいるわけにはいきませ...