1024解像度で最速モデル、ByteDanceのオープンモデルSDXL-Lightningがリリース

1024解像度で最速モデル、ByteDanceのオープンモデルSDXL-Lightningがリリース

モデル| https://huggingface.co/ByteDance/SDXL-Lightning

論文 | https://arxiv.org/abs/2402.13929

1. 超高速画像生成

生成 AI は、テキストプロンプトに基づいて魅力的な画像やビデオを作成できる機能により、世界的な注目を集めています。現在の最先端の生成モデルは、ノイズを徐々に画像サンプルに変換する反復プロセスである拡散に依存しています。このプロセスには膨大な計算リソースが必要であり、時間がかかります。高品質の画像サンプルを生成するプロセスでは、1 つの画像の処理時間は約 5 秒で、通常は大規模なニューラル ネットワークへの複数回 (20 ~ 40 回) の呼び出しが必要になります。このような速度は、高速でリアルタイムの生成要件を持つアプリケーション シナリオを制限します。プロセスを高速化しながら生成品質を向上させる方法は、現在の研究のホットな話題であり、私たちの研究の中心的な目標でもあります。

SDXL-Lightning は、革新的なテクノロジーであるProgressive Adversarial Distillationによってこの障壁を打ち破り、これまでにない生成速度を実現します。このモデルは、わずか 2 ~ 4 ステップで非常に高品質かつ高解像度の画像を生成できるため、計算コストと時間が 10 倍削減されます。私たちのアプローチでは、品質が若干犠牲になるものの、時間に敏感なアプリケーション向けに 1 ステップで画像を生成することもできます。

SDXL-Lightning は、速度の利点に加えて、画質においても優れたパフォーマンスを発揮し、評価において従来の加速技術を上回っています。優れた多様性と画像とテキストのマッチングを維持しながら、より高い解像度と優れた詳細を実現します。

速度比較

オリジナルモデル(20ステップ)、SDXL-Lightningモデル(2ステップ)

2. モデル効果

SDXL-Lightningモデルは、1 ステップ、2 ステップ、4 ステップ、8 ステップで画像を生成できます。推論ステップが増えるほど、画像の品質は向上します。

4 段階の生成の結果は次のとおりです。


微笑む少女

山道を登るピックアップトラック

自転車に乗った魚、カラフルなアート

サングラスをかけたアジア人女性のクローズアップ

美しいカップ

モナ・リザ、スケッチ

泳ぐパンダ

山道を登るピックアップトラック

砂漠の家、シュールな風景

2 段階生成の結果は次のとおりです。

リビングルームの家具デザイン

精巧なイタリアの僧侶のローブを着た子アライグマの映画のようなショット

居心地の良いリビングルームで、柔らかい毛と明るい目をした犬がおもちゃを追いかけて飛び跳ねている

雲が入ったティーカップ

家族、ミディアムショット

雪の中でおもちゃで遊ぶ赤ちゃん

老人と犬が公園を散歩している

車を運転するドラゴン

ラテアートを作る猿

従来の方法 (Turbo および LCM) と比較すると、私たちの方法は詳細が大幅に改善された画像を生成するとともに、元の生成モデルのスタイルとレイアウトに忠実です。


3. コミュニティに還元し、モデルを公開する

オープンソースとオープン性の波は人工知能の急速な発展を推進する重要な力となり、ByteDance はこの波の一部であることを誇りに思っています。私たちのモデルは、テキストから画像を生成するための最も人気のあるオープン モデルである SDXL に基づいており、すでに活発なエコシステムを持っています。現在、私たちは SDXL-Lightning を世界中の開発者、研究者、クリエイティブな実践者に公開し、彼らがこのモデルにアクセスして適用し、業界全体でイノベーションとコラボレーションをさらに促進できるようにすることを決定しました。

SDXL-Lightning を設計する際には、オープン モデル コミュニティとの互換性を考慮しました。コミュニティ内の多くのアーティストや開発者が、漫画やアニメスタイルなど、さまざまな様式化された画像生成モデルを作成しています。これらのモデルをサポートするために、スピードアップ プラグインとして SDXL-Lightning を提供しています。このプラグインは、さまざまなスタイルの SDXL モデルにシームレスに統合され、さまざまなモデルのイメージ生成を高速化できます。

SDXL-Lightningモデルは、現在非常に人気のある制御プラグイン ControlNet と組み合わせて、非常に高速で制御可能な画像生成を実現することもできます。

SDXL-Lightningモデルは、オープンソース コミュニティで最も人気のある生成ソフトウェアである ComfyUI もサポートしています。モデルは直接読み込んで使用できます。


4. 技術的な詳細について

理論的には、画像生成はノイズから鮮明な画像への段階的な変換プロセスです。このプロセスでは、ニューラル ネットワークはこの変換フローの各位置での勾配を学習します。

画像を生成する具体的な手順は次のとおりです。

まず、フローの開始点でノイズ サンプルをランダムにサンプリングし、ニューラル ネットワークを使用して勾配を計算します。現在の位置の勾配に基づいてサンプルを微調整し、このプロセスを繰り返します。反復するごとに、サンプルは最終的な画像分布に近づき、鮮明な画像が得られます。

図: 生成プロセス(画像: https://arxiv.org/abs/2011.13456)

生成フローは複雑かつ非線形であるため、勾配誤差の蓄積を減らすために、生成プロセスは一度に小さなステップのみを実行する必要があり、ニューラル ネットワークの頻繁な計算が必要になり、計算量が多くなります。

図: 曲線フロー(画像: https://arxiv.org/abs/2210.05475)

画像を生成するために必要な手順の数を減らすための解決策を見つけるために、多くの研究が行われてきました。いくつかの研究では誤差を減らすことができるサンプリング方法を提案しており、他の研究では生成されたフローをより直線的にしようとしています。これらの方法は進歩していますが、画像を生成するには依然として 10 以上の推論ステップが必要です。

もう 1 つのアプローチはモデル蒸留であり、10 未満の推論ステップで高品質の画像を生成できます。モデル蒸留は、現在のフロー位置での勾配を計算する代わりに、モデル予測のターゲットを変更し、次のより遠いフロー位置を直接予測できるようにします。具体的には、複数の推論ステップを完了した後、教師ネットワークの結果を直接予測するように生徒ネットワークをトレーニングします。このような戦略により、必要な推論ステップの数を大幅に削減できます。このプロセスを繰り返し適用することで、推論ステップの数をさらに削減できます。このアプローチは、以前の研究では漸進的蒸留と呼ばれていました。

図: 漸進的蒸留、生徒ネットワークは複数のステップを経て教師ネットワークを予測する


実際には、学生ネットワークが将来のフロー位置を正確に予測することは難しいことがよくあります。エラーは各ステップで蓄積され、増幅されるため、推論のステップが 8 ステップ未満の場合には、モデルによって生成された画像がぼやけ始めます。

この問題に対処するための私たちの戦略は、生徒ネットワークを教師ネットワークの予測と正確に一致させることではなく、確率分布において生徒ネットワークを教師ネットワークと一致させることです。言い換えれば、学生ネットワークは確率的な位置を予測するようにトレーニングされており、それが完全に正確でなくてもペナルティを課すことはありません。この目標は、敵対的トレーニングを通じて達成され、追加の識別ネットワークを導入して、生徒ネットワークと教師ネットワークの出力間の分布マッチングを実現します。

これは私たちの研究方法の簡単な概要です。技術論文 ( https://arxiv.org/abs/2402.13929 ) では、より詳細な理論的分析、トレーニング戦略、およびモデルの具体的な定式化の詳細を提供します。

5. SDXL-Lightningを超えて

この研究では主に SDXL-Lightning 技術を画像生成に使用する方法を検討していますが、提案する漸進的敵対的蒸留法の応用可能性は静止画像の範囲に限定されません。この革新的なテクノロジーは、ビデオ、オーディオ、その他のマルチモーダル コンテンツを迅速かつ効率的に生成するためにも使用できます。ぜひ、HuggingFace プラットフォームで SDXL-Lightning を体験していただき、貴重なコメントやフィードバックをお待ちしております。

モデル: https://huggingface.co/ByteDance/SDXL-Lightning

論文: https://arxiv.org/abs/2402.13929

<<:  商用 AI をマスターする: RAG と CRAG を使用したエンタープライズ レベルの AI プラットフォームの構築

>>:  OpenAIがテキストから動画を生成するAIジェネレーター「Sora」をリリース

ブログ    
ブログ    
ブログ    

推薦する

ロードバランサーのアルゴリズムと原理を探る

負荷分散アルゴリズムの種類を分析した後、動的負荷分散について紹介します。この概念は主にロードバランサ...

JVM メモリ管理 - GC アルゴリズムの詳細な説明

導入究極のアルゴリズムとは何ですか?実際、これは現在の JVM で使用されているアルゴリズムであり、...

マイクロソフトのGitHubはAIを使ってソフトウェア開発者の心を理解しようとしている

コード共有サービス GitHub は、ソフトウェア開発者向けの人工知能アシスタント「GitHub C...

...

...

SQL Server 2008 の 9 つのデータ マイニング アルゴリズム

1. 決定木アルゴリズム決定木は判断木とも呼ばれ、バイナリ ツリーやマルチ ブランチ ツリーに似たツ...

機械学習で画像の色を復元する方法

[[217139]]この記事では、k-means アルゴリズムを使用して画像の色を復元することを提案...

ソフトバンクの孫正義社長:AIの知能は10年以内に人間を超えると予想

ロイター通信は10月4日、ソフトバンクグループの創業者兼CEOの孫正義氏が本日、汎用人工知能(AGI...

...

人工知能のいくつかの重要な技術をご存知ですか?

今日は人工的にしか開発できない重要な技術をいくつか紹介します。音声認識からスマートホーム、人間と機械...

AIによる顔の変形がトレンドになり、人工知能の世界があなたの探索を待っています

昔、携帯電話がなかった頃は、写真を撮りたい人は写真館に行かなければなりませんでした。写真を撮る機会は...

Huawei の徐文偉氏: インテリジェントな未来を構想する (HC カンファレンス PPT + スピーチ全文)

第3回HUAWEI CONNECT 2018が2018年10月10日に上海万博展示コンベンションセン...

Googleの検索アルゴリズムがユーザーをより深く理解する方法

Googleは現在、コア検索アルゴリズムに変更を加えており、検索結果の最大10分の1のランキングに影...

コンピュータビジョンがビジネス課題の解決に役立つ 5 つの方法

自動運転車、交通標識検出、顔認識、セルフサービスチェックアウト。 これらすべての高度なソリューション...

...