Stable Diffusion 3 の論文がついに公開され、アーキテクチャの詳細が明らかになりましたが、これは Sora の再現に役立つでしょうか?

Stable Diffusion 3 の論文がついに公開され、アーキテクチャの詳細が明らかになりましたが、これは Sora の再現に役立つでしょうか?

安定拡散 3 論文がついに登場しました!

このモデルは2週間前にリリースされ、Soraと同じDiT(Diffusion Transformer)アーキテクチャを採用しています。リリースされるとすぐに大きな話題を呼びました。

以前のバージョンと比較して、Stable Diffusion 3 によって生成される画像の品質が大幅に向上し、複数のテーマ プロンプトがサポートされ、テキストの書き込み効果も向上しました (明らかに文字化けしなくなりました)。

Stability AI によると、Stable Diffusion 3 は、パラメータ数が 800M から 80B の範囲にあるモデル ファミリです。この数のパラメータは、多くのポータブル デバイスで直接実行できることを意味し、大規模な AI モデルを使用するハードルが大幅に下がります。

Stability AI は新たに発表した論文の中で、人間の好みに基づいた評価において、Stable Diffusion 3 が DALL・E 3、Midjourney v6、Ideogram v1 などの現在の最先端のテキスト画像生成システムを上回ったと述べています。研究チームは、この研究の実験データ、コード、モデルの重みを近々公開する予定だ。

論文の中で、Stability AI は Stable Diffusion 3 に関するより詳しい情報を明らかにしました。

  • 論文タイトル: 高解像度画像合成のための整流フロートランスフォーマーのスケーリング
  • 論文リンク: https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

アーキテクチャの詳細

テキストから画像への生成では、Stable Diffusion 3 モデルはテキストと画像の両方のモダリティを考慮する必要があります。そのため、論文の著者は、複数のモダリティを処理できる能力にちなんで、この新しいアーキテクチャを MMDiT と名付けました。 Stable Diffusion の以前のバージョンと同様に、著者は事前トレーニング済みのモデルを使用して適切なテキストと画像の表現を導き出します。具体的には、テキスト表現をエンコードするために 3 つの異なるテキスト埋め込みモデル (2 つの CLIP モデルと T5) を使用し、画像トークンをエンコードするために改良されたオートエンコーダー モデルを使用しました。

安定拡散 3 モデル アーキテクチャ。

改良されたマルチモーダル拡散トランスフォーマー: MMDiT ブロック。

SD3 アーキテクチャは、Sora の R&D チームの中心メンバーである William Peebles 氏と、ニューヨーク大学のコンピューター サイエンスの助教授である Xie Saining 氏によって提案された技術である DiT に基づいています。テキスト埋め込みと画像埋め込みは概念的に大きく異なるため、SD3 の作成者は 2 つのモダリティに対して 2 つの異なる重みセットを使用します。上の図に示すように、これは各モダリティに 2 つの個別のトランスフォーマーを持ち、注意操作のために 2 つのモダリティのシーケンスを組み合わせることと同等であり、これにより、両方の表現が独自の空間で機能し、同時に他の表現も考慮に入れることができます。

私たちが提案する MMDiT アーキテクチャは、トレーニング中に視覚的な忠実度とテキストの配置を測定する際に、UViT や DiT などの確立されたテキストから画像へのバックボーンよりも優れています。

このようにして、画像とテキスト トークンの間で情報が流れるようになり、モデルの全体的な理解が向上し、生成された出力のタイポグラフィが向上します。論文で説明されているように、このアーキテクチャはビデオなどの複数のモダリティにも簡単に拡張できます。

Stable Diffusion 3 の改良されたキュー追従機能により、新しいモデルはさまざまな被写体や品質に焦点を当てた画像を生成する能力を備えており、画像自体のスタイルに関しても非常に柔軟です。

再重み付けによる整流フローの改善

Stable Diffusion 3 は、トレーニング中にデータとノイズが線形軌道で接続される Rectified Flow (RF) 式を使用します。これにより推論パスがより直線的になり、サンプリングステップの数が削減されます。さらに、著者らはトレーニング中に新しい軌道サンプリング方式を導入しました。彼らは、軌道の中間部分はより困難な予測課題をもたらすだろうと仮説を立て、そのためこの方式では軌道の中間部分に重点を置いた。彼らは、さまざまなデータセット、メトリック、サンプラー設定を使用して提案された方法を比較し、LDM、EDM、ADM を含む他の 60 の拡散軌跡に対してテストしました。結果は、以前の RF 定式化ではサンプリング ステップが少なくなりパフォーマンスが向上したものの、ステップ数が増えるにつれて相対的なパフォーマンスが低下することを示しています。対照的に、私たちが提案する再重み付けされた RF バリアントは、一貫してパフォーマンスを向上させます。

整流フロー変圧器モデルの拡張

著者らは、再重み付けされた Rectified Flow 定式化と MMDiT バックボーンを使用して、テキストから画像への合成に関するスケーリング研究を実施しました。彼らは、4億5000万のパラメータを持つ15ブロックから80億のパラメータを持つ38ブロックまでの範囲のモデルをトレーニングし、モデルのサイズとトレーニングのステップが増えるにつれて検証損失が着実に減少することを確認しました(上図の一番上の行)。これがモデル出力の有意義な改善につながるかどうかを調べるために、著者らは自動画像アライメントメトリック (GenEval) と人間の嗜好スコア (ELO) (上図の 2 行目) も評価しました。結果は、これらのメトリックと検証損失の間に強い相関関係があることを示しており、後者は全体的なモデルのパフォーマンスの優れた予測因子であることを示唆しています。さらに、スケーリングの傾向には飽和の兆候が見られないため、著者らは今後もモデルのパフォーマンスが継続的に向上すると楽観視しています。

柔軟なテキストエンコーダ

推論用のメモリを大量に消費する 4.7B パラメータの T5 テキスト エンコーダを削除することで、パフォーマンスの低下をほとんど伴わずに SD3 のメモリ要件が大幅に削減されます。グラフに示されているように、テキスト エンコーダーを削除しても見た目の美しさには影響がなく (T5 なしで 50% の勝率)、テキストの一貫性はわずかに低下するだけです (46% の勝率)。ただし、著者らは、SD3 のパフォーマンスを最大限に活用するために、書かれたテキストを生成するときに T5 を追加することを推奨しています。これは、T5 がないと、次の図に示すように、組版生成のパフォーマンスがさらに低下する (勝率 38%) ことが観察されたためです。

多くの詳細や大量のテキストを含む非常に複雑なプロンプトを提示した場合にのみ、推論のために T5 を削除するとパフォーマンスが大幅に低下しました。上の図は、各例のランダムなサンプルを 3 つ示しています。

モデルのパフォーマンス

著者らは、Stable Diffusion 3 の出力画像を、SDXL、SDXL Turbo、Stable Cascade、Playground v2.5、Pixart-α などのさまざまなオープンソース モデル、および DALL-E 3、Midjourney v6、Ideogram v1 などのクローズド ソース モデルと比較し、人間のフィードバックに基づいてパフォーマンスを評価しました。これらのテストでは、各モデルからの出力例が人間の評価者に与えられ、モデル出力が与えられたプロンプトのコンテキストにどれだけよく従っているか (プロンプトの追従性)、プロンプトに従ってテキストがどれだけうまくレンダリングされているか (タイポグラフィ)、どの画像の美的品質が高いか (視覚的な美的品質) に基づいて最良の結果を選択しました。

このグラフは、SD3 をベンチマークとして使用し、視覚的な美しさ、キューの追従、タイポグラフィに関する人間による評価に基づいて SD3 の勝率を概説しています。

テスト結果から、著者らは、Stable Diffusion 3 が上記のすべての側面において、現在の最先端のテキストから画像への生成システムに匹敵するか、あるいはそれよりも優れていることを発見しました。

消費者向けハードウェアでの初期の最適化されていない推論テストでは、最大の 8B パラメータ SD3 モデルが RTX 4090 の 24GB VRAM に収まり、50 のサンプリング ステップを使用して 1024x1024 解像度の画像を生成するのに 34 秒かかりました。

さらに、最初のリリース時には、Stable Diffusion 3 は、ハードウェアの障壁をさらに排除するために、800m から 8B パラメータ モデルまでの複数のバリエーションで利用可能になります。

詳細については原文論文を参照してください。

参考リンク: https://stability.ai/news/stable-diffusion-3-research-paper

<<: 

>>: 

ブログ    
ブログ    
ブログ    

推薦する

ハッカーはパニックに陥っています!サイバーセキュリティにおける機械学習の包括的な説明

[51CTO.com からのオリジナル記事] 現在、インターネット上には機械学習 (ML)、人工知能...

人力資源社会保障省:人工知能人材の不足は500万人を超える

最近、人力資源・社会保障省は、新しい職業である人工知能工学・技術人材の現在の雇用状況に関する分析レポ...

人工知能時代のアルゴリズムガバナンスの核心と道筋

2021年12月末、4つの部門が共同で「インターネット情報サービスのアルゴリズム推奨管理に関する規則...

DAMOアカデミーと国家気象センターは共同でAIアルゴリズムを開発し、広東省の多くの場所での激しい対流気象の予測を支援することに成功した。

6月22日午前5時50分、国家気象センターの気象予報センターはAIを活用し、広東省の多くの地域で対...

デジタルヒューマンブラック技術が公開、わずか数分で話す動画を再現可能に

デジタルヒューマンと共存できるサイバーパンクの世界への準備はできていますか?将来の仮想世界で多くのア...

安定した拡散3がリリースされ、ソラと同じ技術を使用して、テキストがついに文字化けしなくなりました

OpenAI の Sora が 1 週間にわたってスクリーンを独占した後、昨夜、トップクラスの生成 ...

...

...

「現時点で最高のヴィンセント動画AI」が登場!広告や映画に使っても問題ない。ネットユーザー:とてもスムーズ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

2018年末のAI分野におけるオープンソースフレームワークのまとめ

[[253605]] [やや活発な***四半期] 2018.3.04——OpenAIはオープンソース...

スマートビルディングにおけるエッジAIの役割を解明

仕事や住居のための物理的な空間として機能することから、入居者に活気ある建築体験を提供することまで、近...

Facebookの広告システムの背後にあるペーシングアルゴリズム

[[163141]]先月、Facebook は 2015 年第 4 四半期の驚異的な財務結果を発表し...

デジタル外交はAI外交へと進化している。どのような課題に直面するのだろうか?

外交活動に関して、近年最も議論されている概念は「デジタル外交」であろう。 2010年には、当時米国務...