Stable Diffusion 3 の技術レポートがリークされ、Sora アーキテクチャがまた大きな貢献を果たしました。 RAWフォトサークルのオープンソースはMidjourneyやDALL·E 3に勝る?

Stable Diffusion 3 の技術レポートがリークされ、Sora アーキテクチャがまた大きな貢献を果たしました。 RAWフォトサークルのオープンソースはMidjourneyやDALL·E 3に勝る?

Stability AI は、Stable Diffusion 3 のリリースに続いて、本日詳細な技術レポートを発表しました。

この論文では、Stable Diffusion 3 のコア技術である改良された Diffusion モデルと新しい DiT ベースの Wenshengtu アーキテクチャを詳細に分析します。

報告先住所:

https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

人間による評価テストでは、フォント デザインとプロンプトへの正確な応答の点で、Stable Diffusion 3 が DALL·E 3、Midjourney v6、Ideogram v1 を上回りました。

Stability AI が新たに開発した Multimodal Diffused Transformer (MMDiT) アーキテクチャは、画像と言語の表現に独立した重みセットを使用するため、SD 3 の以前のバージョンと比較して、テキスト理解とスペル機能が大幅に向上します。

パフォーマンス評価

技術レポートでは、人間のフィードバックに基づいて、多数のオープンソース モデル SDXL、SDXL Turbo、Stable Cascade、Playground v2.5、Pixart-α、およびクローズド ソース モデル DALL·E 3、Midjourney v6、Ideogram v1 と SD 3 の詳細な比較評価を実施しています。

評価者は、与えられたプロンプトとの一貫性、テキストの明瞭さ、画像の全体的な美しさに基づいて、各モデルから最適な出力を選択しました。

テスト結果によると、Stable Diffusion 3 は、プロンプトに従う正確さ、テキストの明確な表示、画像の視覚的な美しさのいずれの点でも、画像生成技術の現在の最先端技術に達しているか、それを上回っています。

完全に最適化されていない SD 3 モデルには 8B のパラメーターがあり、24GB のビデオ メモリを搭載した RTX 4090 コンシューマー GPU で実行され、50 のサンプリング ステップを使用して 1024x1024 解像度の画像を生成するのに 34 秒かかります。

さらに、Stable Diffusion 3 は、発売時に 8 億から 80 億までのパラメータを持つ複数のバージョンで利用可能になり、使用するためのハードウェアのしきい値がさらに下がります。

建築の詳細が明らかに

テキストから画像を生成するプロセスでは、モデルはテキストと画像という 2 つの異なる種類の情報を同時に処理する必要があります。そこで著者らはこの新しいフレームワークを MMDiT と呼んでいます。

テキストから画像を生成するプロセスでは、モデルはテキストと画像という 2 種類の異なる情報を処理する必要があります。そのため、著者らはこの新しい技術を MMDiT (Multimodal Diffusion Transformer の略) と呼んでいます。

Stable Diffusion の以前のバージョンと同様に、SD 3 は事前トレーニング済みのモデルを使用して、テキストや画像に適した表現を抽出します。

具体的には、テキスト情報の処理には 3 つの異なるテキスト エンコーダー (2 つの CLIP モデルと 1 つの T5) を使用し、画像情報の処理にはより高度なオートエンコーダー モデルを使用しました。

SD 3 のアーキテクチャは、Diffusion Transformer (DiT) に基づいて構築されています。テキスト情報と画像情報の違いにより、SD 3 では 2 種類の情報それぞれに独立した重みを設定します。

この設計は、各情報タイプに 2 つの独立した Transformer を装備することと同等ですが、アテンション メカニズムを実行すると、2 つの情報タイプのデータ シーケンスがマージされ、相互参照と統合を維持しながら、それぞれのフィールドで独立して動作できるようになります。

この独自のアーキテクチャにより、画像とテキストの情報が相互に流れ、相互作用できるようになり、生成された結果のコンテンツの全体的な理解と視覚的表現が向上します。

さらに、このアーキテクチャは、将来、ビデオを含む他のモダリティに簡単に拡張できます。

SD 3 のプロンプトへの追従性が向上したおかげで、モデルはさまざまなテーマや機能に焦点を当てた画像を正確に生成できると同時に、画像スタイルにおける極めて高い柔軟性も維持できるようになりました。

再加重による整流フローの改善

新しい Diffusion Transformer アーキテクチャに加えて、SD 3 では Diffusion モデルにも大幅な改善が加えられました。

SD 3 は、直線軌道に沿ってトレーニング データとノイズを接続する Rectified Flow (RF) 戦略を採用しています。

このアプローチにより、モデルの推論パスがより直接的になるため、サンプル生成をより少ないステップで完了できます。

著者らは、トレーニング プロセスに革新的な軌道サンプリング スキームを導入し、特に予測タスクがより困難になる軌道の中間部分の重みを増やしています。

他の 60 種類の拡散軌跡 (LDM、EDM、ADM など) と比較した結果、以前の RF 方式はサンプリング ステップが少ない場合はパフォーマンスが優れているものの、サンプリング ステップの数が増えるとパフォーマンスが徐々に低下することが分かりました。

この状況を回避するために、著者が提案した重み付け RF 法は、モデルのパフォーマンスを継続的に向上させることができます。

RFトランスモデルの拡張

Stability AI は、15 個のモジュール、4 億 5000 万個のパラメータから 38 個のモジュール、80 億個のパラメータまで、さまざまなサイズの複数のモデルをトレーニングし、モデル サイズとトレーニング ステップの両方で検証損失をスムーズに削減できることを発見しました。

これがモデル出力の大幅な改善を意味するかどうかを検証するために、研究者らは自動画像配置メトリックと人間の嗜好評価も評価しました。

結果は、これらの評価メトリックが検証損失と強く相関していることを示しており、検証損失がモデルの全体的なパフォーマンスの有効な指標であることを示しています。

さらに、このスケーリングの傾向はまだ飽和点に達していないため、将来的にモデルのパフォーマンスをさらに向上させることができると楽観視しています。

著者らは、さまざまなパラメータ数を使用して、256×256ピクセルの解像度と4096のバッチサイズで50万ステップにわたってモデルをトレーニングしました。

上の図は、より大きなモデルをより長い時間トレーニングした場合のサンプル品質への影響を示しています。

上記の表は GenEval の結果を示しています。著者らが提案したトレーニング方法を使用し、トレーニング画像の解像度を上げると、最大のモデルはほとんどのカテゴリで優れたパフォーマンスを発揮し、総合スコアで DALL·E 3 を上回りました。

著者によるさまざまなアーキテクチャ モデルのテスト比較によると、MMDiT のパフォーマンスは DiT、Cross DiT、UViT、MM-DiT を上回り、非常に優れています。

柔軟なテキストエンコーダ

推論中にメモリを大量に消費する 4.7B パラメータの T5 テキスト エンコーダーを削除することで、パフォーマンスの低下を最小限に抑えながら SD 3 のメモリ要件が大幅に削減されます。

このテキスト エンコーダーを削除しても、画像の見た目の美しさには影響がなく (T5 なしで 50% の勝率)、テキストを正確に追従する能力はわずかに低下しただけです (46% の勝率)。

ただし、テキスト生成において SD 3 の機能を最大限に活用するには、T5 エンコーダーの使用を推奨します。

著者は、それがなければ、生成されたテキストの組版のパフォーマンスがさらに低下することを発見したためです (勝率は 38%)。

ネットユーザーの間で熱い議論

ネットユーザーたちは、ユーザーを常にからかっておきながら使用を許可しない Stability AI の行動にいらだちを感じており、できるだけ早くオンラインでリリースして誰でも使用できるようにしてほしいと訴えている。

ネットユーザーたちは、技術的な応用を見た後、生写真界はオープンソースがクローズドソースを圧倒する最初の道になるようだ、と述べた。

<<:  AI アバターはブランドエンゲージメントを深める鍵となるのでしょうか?

>>: 

ブログ    
ブログ    
ブログ    

推薦する

...

機械学習: Python による分類

子供にリンゴとオレンジの区別を教えたいとします。これを行うには複数の方法があります。お子様にこの 2...

データセンターで自動化できない 5 つのこと

データセンター内外を問わず、自動化に境界はないと考えるのは簡単です。 AI がデータ センターの運用...

GPT-4 Turboがリリースされ、APIがよりコスト効率化され、128Kコンテキストウィンドウが新時代をリード

1. はじめにGPT-4 をリリースしてからわずか 8 か月後、OpenAI は更新されたモデル G...

ボストン・ダイナミクスのロボット犬の初開封ビデオ:53万ドルで何を買ったのか?

53万元の犬を箱から取り出すのはどんな感じでしょうか?ボストン・ダイナミクス初の小売ロボット「スポ...

...

マイクロソフト中国CTO: AIを祭壇から外してください

[[257901]]まとめ明らかに、中国における人工知能に関する誇大宣伝は、当初の意図から逸脱してい...

あなたの周りの偽のAI

他のインターネットの概念と同様に、AI は人気が出ると数え切れないほどの支持者を獲得しました。彼らは...

...

ノーコード プラットフォーム トップ 8: 2020 年に見逃せない機械学習プラットフォーム

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

ロボットは独自の言語を作り、将来的には自律的にコミュニケーションできるようになるのでしょうか?

[[187107]]人工知能技術は飛躍的に進歩していますが、人工知能間のコミュニケーションの問題は...

中国の博士が127ページの論文「自然言語処理におけるグラフニューラルネットワークの初心者からマスターまで」を発表

グラフは、複雑なシステムを記述およびモデル化するために使用できる一般的な言語です。グラフは、構文情報...

CESの半導体大手:自動運転のオープンな競争と5Gの秘密の競争

[[255293]]明らかに、自動運転と5Gはチップビジネスそのものよりもはるかに魅力的です。 AI...

何も起こらないときは「自動運転」、何か起こったときは「運転支援」?

近年、スマートカーの事故が多発しており、事故の原因は主にいわゆる「自動運転」機能に関連しており、必然...

【ビッグガイがやってくるエピソード7】スマートショッピングガイド対話ロボットの実践

[51CTO.com からのオリジナル記事] 現在の電子商取引業界は比較的成熟しており、さまざまな形...