火曜日、Stability AIは新世代の画像合成モデル「Stable Diffusion XL Turbo」を発表し、大きな拍手を浴びた。画像からテキストを生成することはかつてないほど簡単になったと言われています。 他に何もする必要はありません。テキスト ボックスにアイデアを入力するだけで、SDXL Turbo がすぐに応答し、対応するコンテンツを生成します。入力された通りに生成され、コンテンツの増減によって速度に全く影響しません。 既存の画像を利用して、より細かな作品を作ることもできます。白い紙を手に持ち、SDXL Turbo に白い猫が欲しいと伝えます。入力が終わる前に、小さな白い猫がすでにあなたの手の中にいます。 SDXL Turbo モデルの速度は「リアルタイム」に近いレベルに達しており、人々は「画像生成モデルは何か他のこともできるのだろうか?」と考え始めています。 誰かがゲームを直接接続して、2fps スタイルの転送画像を取得しました: 公式ブログによると、A100 では、SDXL Turbo は 512x512 の画像を 207 ミリ秒 (オンザフライ エンコード + 単一のノイズ除去ステップ + デコード、fp16) で生成でき、そのうち単一の UNet フォワード評価には 67 ミリ秒かかります。 このように、文生図は「リアルタイム」の時代に入ったと判断できます。 こうした「瞬間発電」の効率は、少し前に人気が高まった清華 LCM モデルと多少似ていますが、その背後にある技術的な内容は異なります。スタビリティ社は、同時に発表した研究論文で、このモデルの内部の仕組みを詳しく説明した。この研究は、敵対的拡散蒸留 (ADD) と呼ばれる手法に焦点を当てています。 SDXL Turbo の利点の 1 つは、特にシングルステップの画像出力を生成するという点で、生成的敵対的ネットワーク (GAN) との類似性です。 論文アドレス: https://static1.squarespace.com/static/6213c340453c3f502425776e/t/65663480a92fba51d0e1023f/1701197769659/adversarial_diffusion_distillation.pdf 論文の詳細つまり、敵対的拡散蒸留は、高いサンプリング忠実度を維持しながら、事前トレーニング済みの拡散モデルの推論ステップ数を 1 ~ 4 サンプリング ステップに削減し、モデルの全体的なパフォーマンスをさらに向上させることができる一般的な方法です。 この目的のために、研究者らは、(i)敵対的損失と(ii)SDSに対応する蒸留損失という2つのトレーニング目標の組み合わせを導入しました。敵対的損失により、モデルは各フォワードパスで真の画像マニホールド上に直接配置されるサンプルを生成するように強制され、他の蒸留方法でよく見られるぼやけやその他のアーティファクトを回避します。蒸留損失は、別の事前トレーニング済み(および固定)拡散モデルを教師として使用し、その広範な知識を効果的に活用し、大規模な拡散モデルで観察される強力な組み合わせ性を維持します。推論中、研究者は分類器を使用しないガイダンスを使用しなかったため、メモリ要件がさらに削減されました。これらは、反復的な改良を通じて結果を改善するモデルの能力を保持しており、これは以前の GAN ベースのシングルステップ方式よりも優れています。 トレーニング手順を図 2 に示します。 表 1 にアブレーション実験の結果を示します。主な結論は次のとおりです。 次に、他のSOTAモデルとの比較です。ここでは、研究者は自動指標を使用せず、より信頼性の高いユーザー嗜好評価方法を選択し、迅速なコンプライアンスと全体的なイメージを評価することを目指しました。 実験では、同じプロンプトを使用して出力を生成することで、いくつかの異なるモデルバリアント (StyleGAN-T++、OpenMUSE、IF-XL、SDXL、および LCM-XL) を比較します。ブラインド テストでは、SDXL Turbo は LCM-XL の 4 ステップ構成を 1 ステップで上回り、SDXL の 50 ステップ構成をわずか 4 ステップで上回りました。これらの結果から、SDXL Turbo は、画像品質を犠牲にすることなく、計算要件が大幅に低い最先端のマルチステップ モデルよりも優れていることがわかります。 図 7 は推論速度に対する ELO スコアを視覚化したものです。 表 2 では、同じ基本モデルを使用して、さまざまな数ステップのサンプリングと蒸留方法を比較しています。結果は、ADD が 8 ステップの標準 DPM ソルバーを含む他のすべての方法よりも優れていることを示しています。 本論文では、定量的な実験結果の補足として、初期サンプルに基づく ADD-XL の改善能力を示す定性的な実験結果もいくつか提示しています。図 3 は、ADD-XL (1 ステップ) と、数ステップ スキームにおける現在の最良のベースラインを比較しています。図 4 は、ADD-XL の反復サンプリング プロセスを示しています。図 8 は、ADD-XL とその教師モデル SDXL-Base を直接比較しています。ユーザー調査で示されているように、ADD-XL は品質とプロンプトの調整の両方の点で教師モデルよりも優れています。 研究の詳細については原著論文を参照してください。 |
<<: ChatGPT がリリースされてから 1 年が経ちました。主要なオープン ソース モデルはすべて追いついたのでしょうか?
>>: ChatGPT が個人情報を含むトレーニングデータを吐き出す: DeepMind が論争を巻き起こす大きなバグを発見
「カスタム開発された AI モデル」に対する現在の市場需要は 86% にも上ります。 [[3461...
現在の AI システムが直面している問題について議論する際、非効率性はよく言及されるものの 1 つで...
[[221188]]将来、人工知能が 380 万人以上の銀行員の仕事を全て置き換える日が来るのでし...
道路安全保険協会(IIHS)が実施した調査によると、自動運転車は期待したほど事故を減らさない可能性が...
選択の余地はありません。2022年は近年で最も激動の年の一つになるでしょう。 テクノロジーもこの混乱...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
滴滴出行が昨年11月にドローンによる食品配達サービスを検討すると発表し、美団も最近ドローン配達隊に加...
[[326722]] [51CTO.com クイック翻訳] データ、テクノロジー、人材の統合により...
[[192381]]はい、39 ドルの Raspberry Pi ボードで TensorFlow ...
2018 年は人工知能と機械学習にとって「収穫」の年でした。特にヘルスケア、金融、音声認識、拡張現実...
今年 1 月の Consumer Electronics Show は、今後数年間に自動車市場に参入...
[[414016]]ヘルスケア業界における人工知能と機械学習の役割を理解するには、ヘルスケア業界にお...
以前、オープンソース プロジェクトをやったことがあります。GitHub ログインが完成した後、もっと...