突如、Stable Diffusion 3がリリースされました!ソラと同じアーキテクチャですが、すべてがよりリアルです

突如、Stable Diffusion 3がリリースされました!ソラと同じアーキテクチャですが、すべてがよりリアルです

1年以上の開発期間を経て、前世代に比べて3つの主要な機能に進化しました。

さあ、効果を直接確かめてみましょう!

まず第一に、驚くべきテキストレンダリング機能があります。

黒板に書かれたチョークの文字を見てください。

Go Big or Go Home(成功か死か)、これは本当に殺人的だ〜

道路標識やバス標識のネオン効果:

また、「Good Night」という文字も、ステッチが見えるほどしっかりと刺繍されています。

作品が公開されるやいなや、ネットユーザーたちは「とても精密だ」と叫んだ。

「中国語もアレンジしよう」という人もいたほどです。

第二に、マルチトピックプロンプト機能が最大限に活用されます。

どういう意味ですか?一度に好きなだけ多くの「要素」を手がかりに詰め込むことができます。安定した拡散 3: 1 つでも見逃すと、負けになります。

下の写真をよく見てください。「宇宙飛行士」、「チュチュを着た豚」、「ピンクの傘」、「シルクハットをかぶったコマドリ」、そして隅に「Stable Diffusion」という文字があります (透かしではありません)。

この機能により、作品を好きなだけ豊かにすることができます。

ついに画質が新たなレベルに進化しました。

上の写真を見ただけでショックを受けませんか? !

さまざまな超鮮明なクローズアップに関しては、彼にとってはそれが簡単です。

興奮していますか?公式キューリストが公開され、誰でも公式ウェブサイトにアクセスして応募できるようになりました。

さて、最近 AI 界隈がかなり活発になっていると言わざるを得ません。

一部のネットユーザーは「私のパソコンはもう耐えられない…」と率直にコメントした。

Stable Diffusion 3 が登場しました!

新しい Stable Diffusion はとても優れているので、もう少し紹介します。

もちろん、すべての写真はStabilityAIメディアの責任者などの公式ソースからのものです。

テキスト効果は最も目を引くものであり、すべてのフォームを非常に明確かつ適切に表示できると言えます。

上の写真を見ると、「学術界におけるミッドジャーニーの恥ずかしい姿:生物学論文のランダムなイラスト」を思い出さずにはいられません。SD3 を使えば、非常にプロフェッショナルな学術的なイラストを作成できるのでしょうか?

これらに加えて、SD3 の「アルコール インク ペインティング」も非常にユニークです。

アニメスタイル:

ここでも、クリアテキストを追加できます。

申請するには列に並ぶ必要があるため、誰もが実際に試験を受けて状況を把握することは困難です。

しかし、賢いネットユーザーの中には、すでに同じプロンプトワードをMidjourney(v 6.0)に入力している人もいます。

たとえば、「赤いリンゴと黒板の言葉」の冒頭の写真(プロンプト:教室のテーブルの上に赤いリンゴが置かれた映画のような写真、黒板にはチョークで「大胆に挑戦するか、家に帰るか」という言葉が書かれている)

Midjourney による最終結果は次のとおりです。

この比較から、違いは明らかであると言えます。テキストのスペル、品質、色の調整などの点で、SD3 が優れています。

技術面では、現在、モデルの選択可能なパラメータの範囲は 800M から 8B までです。

詳細な技術レポートはまだ発表されていないが、関係者は拡散変圧器アーキテクチャとフローマッチングを主に組み合わせていることを明らかにした。

前者は実はSoraと同じもので、添付の技術論文は1922年にWilliam PeeblesとXie Sainingが共著したDiTです。

DiTはTransformerと拡散モデルを初めて組み合わせ、関連論文がICCV 2023で口頭発表として採択されました。

この研究では、研究者らは潜在拡散モデルをトレーニングし、一般的に使用されている U-Net バックボーン ネットワークを潜在パッチで動作するトランスフォーマーに置き換えました。彼らは、フォワードパスの複雑性を GFLOP 単位で測定することにより、Diffused Transformer (DiT) のスケーラビリティを分析しました。

後者のフローマッチングも2022年から行われ、Meta AIとワイツマン科学研究所の科学者によって完了しました。

彼らは、連続正規化フロー (CNF) に基づく生成モデルの新しいパラダイムと、固定条件付き確率パスの回帰ベクトル場に基づくシミュレーション不要の CNF アプローチであるフロー マッチングの概念を提案しました。結果は、拡散パスを使用したフローマッチングを使用してトレーニングされたモデルがより堅牢で安定していることを示しています。

しかし、最近のビデオ生成の大きな進歩を見て、一部のネットユーザーは次のようにも言っています。

どう思いますか?

もう一つ

さらに、ちょうど前日には、同社のビデオ製品「Stable Video」がパブリックベータ版として正式に公開されました。

SVD1.1 (Stable Video Diffusion 1.1) に基づいており、誰でも利用できます。

主にテキスト生成ビデオと画像生成ビデオの 2 つの機能をサポートしています。

参考リンク:
[1] https://stability.ai/news/stable-diffusion-3.

[2] https://arxiv.org/abs/2212.09748.
[3] https://arxiv.org/abs/2210.02747.
[4]https://twitter.com/pabloaumente/status/1760678508173660543.

<<: 

>>:  Wi-Fi の AI がワイヤレス接続をどのように形作るか

ブログ    
ブログ    
ブログ    

推薦する

...

新たな自動運転ランキングが発表

最近、米国の市場調査機関であるナビガントリサーチが、自動運転の競争力に関する新たなランキングを発表し...

NetEase Games AIOps実践:異常検知の最適化戦略とプラットフォーム構築

この共有では主に以下の点が紹介されます。 AIOps ロードマップ異常検出プラットフォーム構築インテ...

未来はここにある: データが大規模 AI モデルにおける競争をどう促進するか

人工知能の急速な発展に伴い、高品質なデータの重要性がますます明らかになっています。大規模言語モデルを...

...

アルゴリズム実践者が知っておくべき TensorFlow のヒント 10 選

導入これらを習得することで、モデルをより効率的にして開発効率を向上させることができます。 [[343...

...

...

...

製造業における人工知能の活用事例トップ10

世界経済の礎である製造業は、人工知能 (AI) が推進する技術革命の最前線にあります。この記事では、...

RLHFの2%ハッシュレートを使用してLLMからの有害な出力を阻止するために、ByteはLLM忘却学習を提案した。

大規模言語モデル (LLM) の開発により、実務者はより多くの課題に直面しています。 LLM からの...

RayDF: リアルタイムレンダリング!光線に基づく3D再構成の新しい方法

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

2018 CCF BDCIコンペティションのグローバルローンチ:データ駆動型、スマートな未来

8月11日、2018年のCCFビッグデータ&Computational Intelligenceコン...

人工知能のコミュニケーション:コンテキストは業界マネージャーにとって成功への道

SymphonyAI のマーケティング責任者として、私は企業における人工知能 (AI) のあらゆるア...