Stable Diffusion 3 の論文がついに公開され、アーキテクチャの詳細が明らかになりましたが、これは Sora の再現に役立つでしょうか?

Stable Diffusion 3 の論文がついに公開され、アーキテクチャの詳細が明らかになりましたが、これは Sora の再現に役立つでしょうか?

安定拡散 3 論文がついに登場しました!

このモデルは2週間前にリリースされ、Soraと同じDiT(Diffusion Transformer)アーキテクチャを採用しています。リリースされるとすぐに大きな話題を呼びました。

以前のバージョンと比較して、Stable Diffusion 3 によって生成される画像の品質が大幅に向上し、複数のテーマ プロンプトがサポートされ、テキストの書き込み効果も向上しました (明らかに文字化けしなくなりました)。

Stability AI によると、Stable Diffusion 3 は、パラメータ数が 800M から 80B の範囲にあるモデル ファミリです。この数のパラメータは、多くのポータブル デバイスで直接実行できることを意味し、大規模な AI モデルを使用するハードルが大幅に下がります。

Stability AI は新たに発表した論文の中で、人間の好みに基づいた評価において、Stable Diffusion 3 が DALL・E 3、Midjourney v6、Ideogram v1 などの現在の最先端のテキスト画像生成システムを上回ったと述べています。研究チームは、この研究の実験データ、コード、モデルの重みを近々公開する予定だ。

論文の中で、Stability AI は Stable Diffusion 3 に関するより詳しい情報を明らかにしました。

  • 論文タイトル: 高解像度画像合成のための整流フロートランスフォーマーのスケーリング
  • 論文リンク: https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

アーキテクチャの詳細

テキストから画像への生成では、Stable Diffusion 3 モデルはテキストと画像の両方のモダリティを考慮する必要があります。そのため、論文の著者は、複数のモダリティを処理できる能力にちなんで、この新しいアーキテクチャを MMDiT と名付けました。 Stable Diffusion の以前のバージョンと同様に、著者は事前トレーニング済みのモデルを使用して適切なテキストと画像の表現を導き出します。具体的には、テキスト表現をエンコードするために 3 つの異なるテキスト埋め込みモデル (2 つの CLIP モデルと T5) を使用し、画像トークンをエンコードするために改良されたオートエンコーダー モデルを使用しました。

安定拡散 3 モデル アーキテクチャ。

改良されたマルチモーダル拡散トランスフォーマー: MMDiT ブロック。

SD3 アーキテクチャは、Sora の R&D チームの中心メンバーである William Peebles 氏と、ニューヨーク大学のコンピューター サイエンスの助教授である Xie Saining 氏によって提案された技術である DiT に基づいています。テキスト埋め込みと画像埋め込みは概念的に大きく異なるため、SD3 の作成者は 2 つのモダリティに対して 2 つの異なる重みセットを使用します。上の図に示すように、これは各モダリティに 2 つの個別のトランスフォーマーを持ち、注意操作のために 2 つのモダリティのシーケンスを組み合わせることと同等であり、これにより、両方の表現が独自の空間で機能し、同時に他の表現も考慮に入れることができます。

私たちが提案する MMDiT アーキテクチャは、トレーニング中に視覚的な忠実度とテキストの配置を測定する際に、UViT や DiT などの確立されたテキストから画像へのバックボーンよりも優れています。

このようにして、画像とテキスト トークンの間で情報が流れるようになり、モデルの全体的な理解が向上し、生成された出力のタイポグラフィが向上します。論文で説明されているように、このアーキテクチャはビデオなどの複数のモダリティにも簡単に拡張できます。

Stable Diffusion 3 の改良されたキュー追従機能により、新しいモデルはさまざまな被写体や品質に焦点を当てた画像を生成する能力を備えており、画像自体のスタイルに関しても非常に柔軟です。

再重み付けによる整流フローの改善

Stable Diffusion 3 は、トレーニング中にデータとノイズが線形軌道で接続される Rectified Flow (RF) 式を使用します。これにより推論パスがより直線的になり、サンプリングステップの数が削減されます。さらに、著者らはトレーニング中に新しい軌道サンプリング方式を導入しました。彼らは、軌道の中間部分はより困難な予測課題をもたらすだろうと仮説を立て、そのためこの方式では軌道の中間部分に重点を置いた。彼らは、さまざまなデータセット、メトリック、サンプラー設定を使用して提案された方法を比較し、LDM、EDM、ADM を含む他の 60 の拡散軌跡に対してテストしました。結果は、以前の RF 定式化ではサンプリング ステップが少なくなりパフォーマンスが向上したものの、ステップ数が増えるにつれて相対的なパフォーマンスが低下することを示しています。対照的に、私たちが提案する再重み付けされた RF バリアントは、一貫してパフォーマンスを向上させます。

整流フロー変圧器モデルの拡張

著者らは、再重み付けされた Rectified Flow 定式化と MMDiT バックボーンを使用して、テキストから画像への合成に関するスケーリング研究を実施しました。彼らは、4億5000万のパラメータを持つ15ブロックから80億のパラメータを持つ38ブロックまでの範囲のモデルをトレーニングし、モデルのサイズとトレーニングのステップが増えるにつれて検証損失が着実に減少することを確認しました(上図の一番上の行)。これがモデル出力の有意義な改善につながるかどうかを調べるために、著者らは自動画像アライメントメトリック (GenEval) と人間の嗜好スコア (ELO) (上図の 2 行目) も評価しました。結果は、これらのメトリックと検証損失の間に強い相関関係があることを示しており、後者は全体的なモデルのパフォーマンスの優れた予測因子であることを示唆しています。さらに、スケーリングの傾向には飽和の兆候が見られないため、著者らは今後もモデルのパフォーマンスが継続的に向上すると楽観視しています。

柔軟なテキストエンコーダ

推論用のメモリを大量に消費する 4.7B パラメータの T5 テキスト エンコーダを削除することで、パフォーマンスの低下をほとんど伴わずに SD3 のメモリ要件が大幅に削減されます。グラフに示されているように、テキスト エンコーダーを削除しても見た目の美しさには影響がなく (T5 なしで 50% の勝率)、テキストの一貫性はわずかに低下するだけです (46% の勝率)。ただし、著者らは、SD3 のパフォーマンスを最大限に活用するために、書かれたテキストを生成するときに T5 を追加することを推奨しています。これは、T5 がないと、次の図に示すように、組版生成のパフォーマンスがさらに低下する (勝率 38%) ことが観察されたためです。

多くの詳細や大量のテキストを含む非常に複雑なプロンプトを提示した場合にのみ、推論のために T5 を削除するとパフォーマンスが大幅に低下しました。上の図は、各例のランダムなサンプルを 3 つ示しています。

モデルのパフォーマンス

著者らは、Stable Diffusion 3 の出力画像を、SDXL、SDXL Turbo、Stable Cascade、Playground v2.5、Pixart-α などのさまざまなオープンソース モデル、および DALL-E 3、Midjourney v6、Ideogram v1 などのクローズド ソース モデルと比較し、人間のフィードバックに基づいてパフォーマンスを評価しました。これらのテストでは、各モデルからの出力例が人間の評価者に与えられ、モデル出力が与えられたプロンプトのコンテキストにどれだけよく従っているか (プロンプトの追従性)、プロンプトに従ってテキストがどれだけうまくレンダリングされているか (タイポグラフィ)、どの画像の美的品質が高いか (視覚的な美的品質) に基づいて最良の結果を選択しました。

このグラフは、SD3 をベンチマークとして使用し、視覚的な美しさ、キューの追従、タイポグラフィに関する人間による評価に基づいて SD3 の勝率を概説しています。

テスト結果から、著者らは、Stable Diffusion 3 が上記のすべての側面において、現在の最先端のテキストから画像への生成システムに匹敵するか、あるいはそれよりも優れていることを発見しました。

消費者向けハードウェアでの初期の最適化されていない推論テストでは、最大の 8B パラメータ SD3 モデルが RTX 4090 の 24GB VRAM に収まり、50 のサンプリング ステップを使用して 1024x1024 解像度の画像を生成するのに 34 秒かかりました。

さらに、最初のリリース時には、Stable Diffusion 3 は、ハードウェアの障壁をさらに排除するために、800m から 8B パラメータ モデルまでの複数のバリエーションで利用可能になります。

詳細については原文論文を参照してください。

参考リンク: https://stability.ai/news/stable-diffusion-3-research-paper

<<: 

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

なぜ人工知能は高度な数学を解くことができるのでしょうか?

まずは大学院入試から始めましょう。大学院入試の重要性は大学入試の重要性に匹敵します。数字で言うと、2...

専門家の洞察: ディープラーニングとその可能性

[[419428]] 「ディープラーニング」は最近、物理セキュリティ業界で人気の高い専門用語の 1 ...

清華大学の趙明国氏:AIチップ+ロボット、アルゴリズムのボトルネックを突破

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

信頼できる機械学習モデルを作成するにはどうすればよいでしょうか?まず不確実性を理解する

「不確実性」の概念は、人工知能の安全性、リスク管理、ポートフォリオの最適化、科学的測定、保険などにつ...

AIを実際にどのように実装するかまだ検討中ですか? OpenPOWERは未来がここにあることを伝えます

[51CTO.com からのオリジナル記事] モノのインターネットの普及とセンサーの広範な使用により...

4分でノーベル賞の再現に成功! CMU は化学研究を覆す GPT-4 化学者、自律コーディング、ロボット制御を開発し、Nature に発表

ChatGPT モデルは今年人気となり、予想外に化学の分野全体を覆しました。まず、Google De...

...

Ruan Yifeng: ガウスぼかしアルゴリズム

通常、画像処理ソフトウェアには、画像にぼかし効果を加えるための「ぼかし」フィルターが用意されています...

...

中学校の知識を使って機械学習が何をしているのかを理解する方法

[[333000]]序文Baidu 百科事典で「機械学習」を検索すると、私が決して到達できないレベル...

スタートラインで勝つ: データサイエンスに必須の 5 つのスキル

データサイエンスの分野は競争が激しく、人々はますます多くのスキルと経験を急速に身につけています。 「...

機械学習が金融業界にもたらす破壊的変化

過去 10 年間で、金融業界ではこれまでにない最先端のテクノロジーが数多く導入されました。この変化は...

言語学における人工知能技術の応用

1990年代初頭、中国の著名な学者である周海中氏は、人工知能技術がさまざまな分野で広く使用され、予想...