Stable Diffusion 3 の論文がついに公開され、アーキテクチャの詳細が明らかになりましたが、これは Sora の再現に役立つでしょうか?

Stable Diffusion 3 の論文がついに公開され、アーキテクチャの詳細が明らかになりましたが、これは Sora の再現に役立つでしょうか?

安定拡散 3 論文がついに登場しました!

このモデルは2週間前にリリースされ、Soraと同じDiT(Diffusion Transformer)アーキテクチャを採用しています。リリースされるとすぐに大きな話題を呼びました。

以前のバージョンと比較して、Stable Diffusion 3 によって生成される画像の品質が大幅に向上し、複数のテーマ プロンプトがサポートされ、テキストの書き込み効果も向上しました (明らかに文字化けしなくなりました)。

Stability AI によると、Stable Diffusion 3 は、パラメータ数が 800M から 80B の範囲にあるモデル ファミリです。この数のパラメータは、多くのポータブル デバイスで直接実行できることを意味し、大規模な AI モデルを使用するハードルが大幅に下がります。

Stability AI は新たに発表した論文の中で、人間の好みに基づいた評価において、Stable Diffusion 3 が DALL・E 3、Midjourney v6、Ideogram v1 などの現在の最先端のテキスト画像生成システムを上回ったと述べています。研究チームは、この研究の実験データ、コード、モデルの重みを近々公開する予定だ。

論文の中で、Stability AI は Stable Diffusion 3 に関するより詳しい情報を明らかにしました。

  • 論文タイトル: 高解像度画像合成のための整流フロートランスフォーマーのスケーリング
  • 論文リンク: https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

アーキテクチャの詳細

テキストから画像への生成では、Stable Diffusion 3 モデルはテキストと画像の両方のモダリティを考慮する必要があります。そのため、論文の著者は、複数のモダリティを処理できる能力にちなんで、この新しいアーキテクチャを MMDiT と名付けました。 Stable Diffusion の以前のバージョンと同様に、著者は事前トレーニング済みのモデルを使用して適切なテキストと画像の表現を導き出します。具体的には、テキスト表現をエンコードするために 3 つの異なるテキスト埋め込みモデル (2 つの CLIP モデルと T5) を使用し、画像トークンをエンコードするために改良されたオートエンコーダー モデルを使用しました。

安定拡散 3 モデル アーキテクチャ。

改良されたマルチモーダル拡散トランスフォーマー: MMDiT ブロック。

SD3 アーキテクチャは、Sora の R&D チームの中心メンバーである William Peebles 氏と、ニューヨーク大学のコンピューター サイエンスの助教授である Xie Saining 氏によって提案された技術である DiT に基づいています。テキスト埋め込みと画像埋め込みは概念的に大きく異なるため、SD3 の作成者は 2 つのモダリティに対して 2 つの異なる重みセットを使用します。上の図に示すように、これは各モダリティに 2 つの個別のトランスフォーマーを持ち、注意操作のために 2 つのモダリティのシーケンスを組み合わせることと同等であり、これにより、両方の表現が独自の空間で機能し、同時に他の表現も考慮に入れることができます。

私たちが提案する MMDiT アーキテクチャは、トレーニング中に視覚的な忠実度とテキストの配置を測定する際に、UViT や DiT などの確立されたテキストから画像へのバックボーンよりも優れています。

このようにして、画像とテキスト トークンの間で情報が流れるようになり、モデルの全体的な理解が向上し、生成された出力のタイポグラフィが向上します。論文で説明されているように、このアーキテクチャはビデオなどの複数のモダリティにも簡単に拡張できます。

Stable Diffusion 3 の改良されたキュー追従機能により、新しいモデルはさまざまな被写体や品質に焦点を当てた画像を生成する能力を備えており、画像自体のスタイルに関しても非常に柔軟です。

再重み付けによる整流フローの改善

Stable Diffusion 3 は、トレーニング中にデータとノイズが線形軌道で接続される Rectified Flow (RF) 式を使用します。これにより推論パスがより直線的になり、サンプリングステップの数が削減されます。さらに、著者らはトレーニング中に新しい軌道サンプリング方式を導入しました。彼らは、軌道の中間部分はより困難な予測課題をもたらすだろうと仮説を立て、そのためこの方式では軌道の中間部分に重点を置いた。彼らは、さまざまなデータセット、メトリック、サンプラー設定を使用して提案された方法を比較し、LDM、EDM、ADM を含む他の 60 の拡散軌跡に対してテストしました。結果は、以前の RF 定式化ではサンプリング ステップが少なくなりパフォーマンスが向上したものの、ステップ数が増えるにつれて相対的なパフォーマンスが低下することを示しています。対照的に、私たちが提案する再重み付けされた RF バリアントは、一貫してパフォーマンスを向上させます。

整流フロー変圧器モデルの拡張

著者らは、再重み付けされた Rectified Flow 定式化と MMDiT バックボーンを使用して、テキストから画像への合成に関するスケーリング研究を実施しました。彼らは、4億5000万のパラメータを持つ15ブロックから80億のパラメータを持つ38ブロックまでの範囲のモデルをトレーニングし、モデルのサイズとトレーニングのステップが増えるにつれて検証損失が着実に減少することを確認しました(上図の一番上の行)。これがモデル出力の有意義な改善につながるかどうかを調べるために、著者らは自動画像アライメントメトリック (GenEval) と人間の嗜好スコア (ELO) (上図の 2 行目) も評価しました。結果は、これらのメトリックと検証損失の間に強い相関関係があることを示しており、後者は全体的なモデルのパフォーマンスの優れた予測因子であることを示唆しています。さらに、スケーリングの傾向には飽和の兆候が見られないため、著者らは今後もモデルのパフォーマンスが継続的に向上すると楽観視しています。

柔軟なテキストエンコーダ

推論用のメモリを大量に消費する 4.7B パラメータの T5 テキスト エンコーダを削除することで、パフォーマンスの低下をほとんど伴わずに SD3 のメモリ要件が大幅に削減されます。グラフに示されているように、テキスト エンコーダーを削除しても見た目の美しさには影響がなく (T5 なしで 50% の勝率)、テキストの一貫性はわずかに低下するだけです (46% の勝率)。ただし、著者らは、SD3 のパフォーマンスを最大限に活用するために、書かれたテキストを生成するときに T5 を追加することを推奨しています。これは、T5 がないと、次の図に示すように、組版生成のパフォーマンスがさらに低下する (勝率 38%) ことが観察されたためです。

多くの詳細や大量のテキストを含む非常に複雑なプロンプトを提示した場合にのみ、推論のために T5 を削除するとパフォーマンスが大幅に低下しました。上の図は、各例のランダムなサンプルを 3 つ示しています。

モデルのパフォーマンス

著者らは、Stable Diffusion 3 の出力画像を、SDXL、SDXL Turbo、Stable Cascade、Playground v2.5、Pixart-α などのさまざまなオープンソース モデル、および DALL-E 3、Midjourney v6、Ideogram v1 などのクローズド ソース モデルと比較し、人間のフィードバックに基づいてパフォーマンスを評価しました。これらのテストでは、各モデルからの出力例が人間の評価者に与えられ、モデル出力が与えられたプロンプトのコンテキストにどれだけよく従っているか (プロンプトの追従性)、プロンプトに従ってテキストがどれだけうまくレンダリングされているか (タイポグラフィ)、どの画像の美的品質が高いか (視覚的な美的品質) に基づいて最良の結果を選択しました。

このグラフは、SD3 をベンチマークとして使用し、視覚的な美しさ、キューの追従、タイポグラフィに関する人間による評価に基づいて SD3 の勝率を概説しています。

テスト結果から、著者らは、Stable Diffusion 3 が上記のすべての側面において、現在の最先端のテキストから画像への生成システムに匹敵するか、あるいはそれよりも優れていることを発見しました。

消費者向けハードウェアでの初期の最適化されていない推論テストでは、最大の 8B パラメータ SD3 モデルが RTX 4090 の 24GB VRAM に収まり、50 のサンプリング ステップを使用して 1024x1024 解像度の画像を生成するのに 34 秒かかりました。

さらに、最初のリリース時には、Stable Diffusion 3 は、ハードウェアの障壁をさらに排除するために、800m から 8B パラメータ モデルまでの複数のバリエーションで利用可能になります。

詳細については原文論文を参照してください。

参考リンク: https://stability.ai/news/stable-diffusion-3-research-paper

<<: 

>>: 

推薦する

大規模モデルはなぜこんなに遅いのか?考えすぎだったことが判明:新しい方向性は、人間と同じ思考アルゴリズムを使用することです

人間の直感は AI 研究者によって見落とされがちな能力ですが、非常に微妙なため、私たち自身でさえ完全...

Nervana Technology の深掘り: Neon を使用したエンドツーエンドの音声認識の実装方法

音声は本質的に即時の信号です。音声で伝えられる情報要素は、複数の時間スケールで進化します。空気圧の影...

...

...

プライベート5GとAI技術は自動化から自律性への移行を加速させる

モノのインターネットとインダストリー 4.0 の登場以来、マシン ビジョン、人工知能、機械学習、ディ...

時代と戦う:ハードコアな百度の AI 探究

2021年2月18日午前、百度は2020年第4四半期および通期の財務報告を発表し、印象的なデータを示...

[ディープラーニングシリーズ] PaddlePaddleとTensorflowによる画像分類

先月は、ディープラーニングにおける「Hello World」であるMNIST画像認識を中心に、畳み込...

...

百人一首の戦いはかつてないレベルに到達!

執筆者 | 王 瑞平校正 | Yun Zhao最近また「100均戦争」が始まってます…一輪の花が春を...

Facebook、動画から学習する新たなAIプロジェクトを開始

3月30日、海外メディアの報道によると、Facebookの開発者らは、公開動画から学習できる「Lea...

マイクロソフトCEO、テクノロジー大手各社がAIを訓練するためのコンテンツをめぐって競争していると語る

ナデラ氏は最近、米国政府によるグーグルに対する反トラスト訴訟で証言した。これは、米国政府が1998年...

偏見と不平等にノーと言いましょう!マイクロソフト、物議を醸していた顔認識サービスの提供を停止

マイクロソフトは、動画や画像に基づいて感情を識別するサービスを含む、人工知能を活用した顔認識ツールの...

警察が採用したボストン・ダイナミクスの犬たちは、感情のない「監視ツール」になるのだろうか?

[[384524]]ニューヨークのマンハッタン北部のアパートで男性2人が人質に取られている。その数...

中国のLMM体格に適したベンチマークであるCMMMUがここにあります:30以上のサブ分野、12Kの専門家レベルの質問

近年、大規模マルチモーダルモデル (LMM) の機能が向上したため、LMM のパフォーマンスを評価す...