安定した拡散3がリリースされ、ソラと同じ技術を使用して、テキストがついに文字化けしなくなりました

OpenAI の Sora が 1 週間にわたってスクリーンを独占した後、昨夜、トップクラスの生成 AI テクノロジー企業である Stability AI も大きな動きを見せ、Stable Diffusion 3 をリリースしました。同社によれば、これはこれまでで最も強力な Vincent モデルだという。

以前のバージョンと比較して、Stable Diffusion 3 で生成されるグラフィックスは、品質の大幅な向上、複数のテーマプロンプトのサポート、およびテキスト書き込み効果の向上を実現しました。以下に公式の例をいくつか示します。

ヒント: 夜の山頂にいる魔法使いが、カラフルなエネルギーでできた「安定した拡散 3」と書かれた暗い空に宇宙の呪文を唱える壮大なアニメアート作品

ヒント: 教室のテーブルの上に赤いリンゴが置かれた映画のような写真。黒板にはチョークで「大胆に挑戦するか、家に帰るか」という言葉が書かれている。

ヒント: チュチュを着てピンクの傘を持った豚に乗っている宇宙飛行士の絵。豚の隣の地面にはシルクハットをかぶったロビンの鳥がいて、隅には「安定拡散」という言葉があります。

ヒント: 黒い背景のカメレオンのスタジオ写真のクローズアップ

さらに、Stability AI メディアディレクターは、生成された結果の一部も示しました。

Stability AI によると、Stable Diffusion 3 は、パラメータ数が 800M から 80B の範囲にあるモデルファミリです。この数のパラメータは、多くのポータブルデバイスで直接実行できることを意味し、大規模な AI モデルを使用するハードルが大幅に下がります。

さらに、Stability AI は、Sora と同様に、新しいモデルに拡散トランスフォーマーアーキテクチャを使用していることも明らかにし、ブログで William (Bill) Peebles 氏と Xie Saining 氏が共同執筆した DiT 論文へのリンクを貼りました。この論文の現在の引用数は 201 で、今年は大幅に増加すると予想されています。

ただし、Stable Diffusion 3 はまだ完全には利用できず、重みも発表されていません。チームは、犯罪者による悪用を防ぐためにいくつかのセキュリティ対策を講じていると述べました。

試してみたいユーザーは、次のリンクをクリックして申請してください: https://stability.ai/stablediffusion3

同社のCEO、エマド・モスタケ氏は、Xプラットフォームの投稿で、フィードバックを得て改良を加えた後、モデルをオープンソース化すると述べた。

Stable Diffusion 3 が DALL・E 3 や Midjourney とどう違うのか気になる人も多いのではないでしょうか。テストを行った人もいますが、明らかな違いはないようです。しかし、Stable Diffusion 3 はオープンソースの世界にとっての希望です。

注目すべきは、Stable Diffusion 3のリリースと同時期に、Stability AI傘下の画像生成アプリケーション企業であるClipdropが買収されたことも海外メディアで報じられていることだ。 2020年7月に設立されたパリを拠点とするClipdropは、オープンソースのAIモデルを使用して、ユーザーが写真を生成および編集できるようにしています。同社はエア・ストリート・キャピタルからシード投資を調達し、2023年3月にスタビリティーAIに非公開の金額で売却した。当時、Clipdrop は 1,500 万人以上のユーザーがいると発表していました。しかし、わずか1年後、Stability AIはそれをアメリカのライティングアシスタントのスタートアップ企業Jasperに売却した。

一部の人々は、Stable Diffusion 3 のリリースはニュースを隠蔽するためのものだとコメントしました。多くの AI スタートアップ企業と同様に、Stability AI は、収益化への明確な道筋がないまま、驚くべき速度で資金を燃やしてしまうというジレンマに直面しています。昨年末には、同社のCEOが投資家によって解任される可能性があり、同社自体が売却を検討している可能性があるとの報道があった。このような背景から、Stability AI は早急に投資家の信頼を高める必要があります。

ロイター通信は、この取引はスタビリティーAIの戦略の転換を示すものだとコメントした。エマド・モスタケ氏は電子メールによる声明で、今回の契約により同社は引き続き「最先端のオープンモデル」の開発に注力できるようになると述べた。同社はまた、Stable Diffusion 3に関するブログ投稿で、「生成AIがオープンで安全、そして普遍的にアクセス可能であることを保証するという当社の取り組みは揺るぎないものである」と強調した。現時点では、Stability AIの将来は不透明である。

安定拡散3の背後にある技術

拡散変圧器+フローマッチング

ブログで、Stability AI は Stable Diffusion 3 を構築するための 2 つの主要テクノロジー、Diffusion Transformer と Flow Matching を発表しました。

拡散変圧器

Stable Diffusion 3 は OpenAI Sora に似た Diffusion Transformer フレームワークを使用しますが、以前の世代の Stable Diffusion モデルは拡散アーキテクチャのみに依存していました。

Diffusion Transformerは、SoraのR＆Dリーダーの1人であるBill Peebles氏とニューヨーク大学の助教授Xie Saining氏によって2022年末に最初に公開された研究であり、2023年3月に第2版が更新されました。

この論文では、拡散モデルにおけるアーキテクチャの選択の重要性について検討し、U-Net の誘導バイアスは拡散モデルのパフォーマンスにとって重要ではなく、Transformer などの標準設計に簡単に置き換えることができることを示しています。

論文タイトル: トランスフォーマーを用いたスケーラブルな拡散モデル

論文リンク: https://arxiv.org/pdf/2212.09748.pdf

具体的には、この論文では、Transformer アーキテクチャに基づく新しい拡散モデル DiT を提案し、潜在拡散モデルをトレーニングして、一般的に使用されている U-Net バックボーンネットワークを潜在パッチで動作する Transformer に置き換えます。彼らは、フォワードパスの複雑さを GFLOP 単位で測定することによって Diffusion Transformer (DiT) のスケーラビリティを分析し、DiT のすべてのモデルで良好な結果を達成しました。

周知のとおり、拡散モデルの成功は、そのスケーラビリティ、トレーニングの安定性、および生成されたサンプルの多様性に起因します。拡散モデルの範囲内では、CNN ベース、Transformer ベース、CNN と Transformer のハイブリッド、さらには状態空間モデルなど、使用されるバックボーンアーキテクチャにはさまざまなバリエーションがあります。

これらのモデルを拡張して高解像度の画像合成をサポートするために使用される方法もさまざまです。既存の方法では、トレーニングの複雑さが増すか、追加のモデルが必要になるか、品質が犠牲になります。潜在拡散は高解像度の画像合成を実現するための主な方法ですが、実際には細かい詳細を表現できないため、サンプリング品質に影響し、画像編集などのアプリケーションでの実用性が制限されます。高解像度画像合成の他のアプローチとしては、カスケード型超解像度、マルチスケール損失、マルチ解像度の入力と出力の追加、または完全に新しいアーキテクチャスキームへの自己調整と適応の活用などがあります。

DiT に触発されて、Stability AI はさらに Hourglass Diffusion Transformer (HDiT) を提案しました。これは、ピクセル数に応じてスケーリングされ、ピクセル空間で直接高解像度 (例: 1024 × 1024) のトレーニングをサポートする生成画像モデルです。

この研究では、バックボーンネットワークを改善することで高解像度合成の問題に対処します。 HDiT は、数十億のパラメータに拡張可能な Transformer アーキテクチャを基盤として、畳み込み U-Net の効率性と Transformer のスケーラビリティのギャップを埋め、一般的な高解像度トレーニング手法を使用せずに正常にトレーニングできます。

論文タイトル: 砂時計拡散変換器によるスケーラブルな高解像度ピクセル空間画像合成

論文リンク: https://arxiv.org/pdf/2401.11605.pdf

研究者らは「純粋なトランスフォーマー」アーキテクチャを導入し、標準的な拡散設定でメガピクセルレベルの高品質画像を生成できるバックボーン構造を実現しました。このアーキテクチャは、128 × 128 などの低い空間解像度でも、DiT (図 2) などの一般的な拡散トランスフォーマーバックボーンネットワークよりもはるかに効率的であり、生成品質の面でも競争力があります。一方、畳み込み U-Net と比較すると、HDiT はピクセル空間での高解像度画像合成の計算複雑さの点でも競争力があります。

フローマッチング

フローマッチング技術を使用する意義は、サンプリング効率を向上させることです。

深層生成モデルは、未知のデータ分布を推定し、サンプリングすることができます。ただし、単純な拡散プロセスに制限されると、サンプリングされた確率パスの空間がかなり制限され、トレーニング時間が長くなり、効率的なサンプリングには特殊な方法が必要になります。この研究では、連続正規化フローの一般的な決定論的フレームワークを確立する方法を検討します。

この研究では、連続正規化フロー (CNF) に基づく生成モデリングの新しいパラダイムを導入し、これまでにない規模で CNF をトレーニングできるようにします。

論文タイトル: 生成モデリングのためのフローマッチング

論文リンク: https://arxiv.org/pdf/2210.02747.pdf

具体的には、この論文では、固定条件付き確率パスベクトル場回帰に基づいて CNF をトレーニングするためのシミュレーション不要の方法である「フローマッチング」の概念を提案しています。フローマッチングは、ノイズとデータサンプル間の変換のためのガウス確率パスの一般的なファミリと互換性があります (一般的なファミリは、既存の拡散パスを特定のインスタンスに一般化します)。

研究者らは、拡散パスでフローマッチングを使用すると、拡散モデルのトレーニングに、より堅牢で安定した代替手段を提供できることを発見しました。

さらに、フローマッチングにより、他の非拡散確率パスを使用して CNF をトレーニングすることも可能になります。特に注目すべき例の 1 つは、条件付き確率パスを定義するために最適輸送 (OT) 変位補間を使用することです。これらの経路は拡散経路よりも効率的で、トレーニングとサンプリングが速く、一般化も優れています。 ImageNet の Flow Matching を使用してトレーニングされた CNF は、尤度とサンプリング品質の点で他の拡散ベースの方法よりも一貫して優れており、既製の数値 ODE ソルバーを使用してサンプルを迅速かつ確実に生成できます。

<<: ターゲット検出のための新しいSOTA:YOLOv9がリリースされ、新しいアーキテクチャが従来の畳み込みに新たな命を吹き込む

>>: Linux環境で仮想化技術を使用する方法