突如、Stable Diffusion 3がリリースされました!ソラと同じアーキテクチャですが、すべてがよりリアルです

突如、Stable Diffusion 3がリリースされました!ソラと同じアーキテクチャですが、すべてがよりリアルです

1年以上の開発期間を経て、前世代に比べて3つの主要な機能に進化しました。

さあ、効果を直接確かめてみましょう!

まず第一に、驚くべきテキストレンダリング機能があります。

黒板に書かれたチョークの文字を見てください。

Go Big or Go Home(成功か死か)、これは本当に殺人的だ〜

道路標識やバス標識のネオン効果:

また、「Good Night」という文字も、ステッチが見えるほどしっかりと刺繍されています。

作品が公開されるやいなや、ネットユーザーたちは「とても精密だ」と叫んだ。

「中国語もアレンジしよう」という人もいたほどです。

第二に、マルチトピックプロンプト機能が最大限に活用されます。

どういう意味ですか?一度に好きなだけ多くの「要素」を手がかりに詰め込むことができます。安定した拡散 3: 1 つでも見逃すと、負けになります。

下の写真をよく見てください。「宇宙飛行士」、「チュチュを着た豚」、「ピンクの傘」、「シルクハットをかぶったコマドリ」、そして隅に「Stable Diffusion」という文字があります (透かしではありません)。

この機能により、作品を好きなだけ豊かにすることができます。

ついに画質が新たなレベルに進化しました。

上の写真を見ただけでショックを受けませんか? !

さまざまな超鮮明なクローズアップに関しては、彼にとってはそれが簡単です。

興奮していますか?公式キューリストが公開され、誰でも公式ウェブサイトにアクセスして応募できるようになりました。

さて、最近 AI 界隈がかなり活発になっていると言わざるを得ません。

一部のネットユーザーは「私のパソコンはもう耐えられない…」と率直にコメントした。

Stable Diffusion 3 が登場しました!

新しい Stable Diffusion はとても優れているので、もう少し紹介します。

もちろん、すべての写真はStabilityAIメディアの責任者などの公式ソースからのものです。

テキスト効果は最も目を引くものであり、すべてのフォームを非常に明確かつ適切に表示できると言えます。

上の写真を見ると、「学術界におけるミッドジャーニーの恥ずかしい姿:生物学論文のランダムなイラスト」を思い出さずにはいられません。SD3 を使えば、非常にプロフェッショナルな学術的なイラストを作成できるのでしょうか?

これらに加えて、SD3 の「アルコール インク ペインティング」も非常にユニークです。

アニメスタイル:

ここでも、クリアテキストを追加できます。

申請するには列に並ぶ必要があるため、誰もが実際に試験を受けて状況を把握することは困難です。

しかし、賢いネットユーザーの中には、すでに同じプロンプトワードをMidjourney(v 6.0)に入力している人もいます。

たとえば、「赤いリンゴと黒板の言葉」の冒頭の写真(プロンプト:教室のテーブルの上に赤いリンゴが置かれた映画のような写真、黒板にはチョークで「大胆に挑戦するか、家に帰るか」という言葉が書かれている)

Midjourney による最終結果は次のとおりです。

この比較から、違いは明らかであると言えます。テキストのスペル、品質、色の調整などの点で、SD3 が優れています。

技術面では、現在、モデルの選択可能なパラメータの範囲は 800M から 8B までです。

詳細な技術レポートはまだ発表されていないが、関係者は拡散変圧器アーキテクチャとフローマッチングを主に組み合わせていることを明らかにした。

前者は実はSoraと同じもので、添付の技術論文は1922年にWilliam PeeblesとXie Sainingが共著したDiTです。

DiTはTransformerと拡散モデルを初めて組み合わせ、関連論文がICCV 2023で口頭発表として採択されました。

この研究では、研究者らは潜在拡散モデルをトレーニングし、一般的に使用されている U-Net バックボーン ネットワークを潜在パッチで動作するトランスフォーマーに置き換えました。彼らは、フォワードパスの複雑性を GFLOP 単位で測定することにより、Diffused Transformer (DiT) のスケーラビリティを分析しました。

後者のフローマッチングも2022年から行われ、Meta AIとワイツマン科学研究所の科学者によって完了しました。

彼らは、連続正規化フロー (CNF) に基づく生成モデルの新しいパラダイムと、固定条件付き確率パスの回帰ベクトル場に基づくシミュレーション不要の CNF アプローチであるフロー マッチングの概念を提案しました。結果は、拡散パスを使用したフローマッチングを使用してトレーニングされたモデルがより堅牢で安定していることを示しています。

しかし、最近のビデオ生成の大きな進歩を見て、一部のネットユーザーは次のようにも言っています。

どう思いますか?

もう一つ

さらに、ちょうど前日には、同社のビデオ製品「Stable Video」がパブリックベータ版として正式に公開されました。

SVD1.1 (Stable Video Diffusion 1.1) に基づいており、誰でも利用できます。

主にテキスト生成ビデオと画像生成ビデオの 2 つの機能をサポートしています。

参考リンク:
[1] https://stability.ai/news/stable-diffusion-3.

[2] https://arxiv.org/abs/2212.09748.
[3] https://arxiv.org/abs/2210.02747.
[4]https://twitter.com/pabloaumente/status/1760678508173660543.

<<: 

>>:  Wi-Fi の AI がワイヤレス接続をどのように形作るか

ブログ    
ブログ    

推薦する

人工知能と創造性:人間と機械の境界線が曖昧になる

今日の世界では、人工知能(AI)が私たちの日常生活にますます統合されつつあります。 SiriやAle...

...

...

...

科学者らが世界最小の「カニ」遠隔操作歩行ロボットを公開。ノミよりも小さい

最近、米国ノースウェスタン大学のエンジニアたちが、小さくてかわいいカニの形をした、史上最小の遠隔操作...

...

人工知能の時代において、最近熱い議論を呼んだ「996」に別れを告げることができるでしょうか?

[[263744]] 2019年3月27日、有名なコードホスティングプラットフォームGitHub上...

20以上のモバイルハードウェア、Int8超高速推論、エンドサイド推論エンジンPaddle Lite 2.0が正式にリリースされました

PaddlePaddleは今年8月、端末やエッジデバイス向けのエッジ推論エンジン「Paddle Li...

認知マップの科学的インベントリ: グローバルな第3世代AIの「大きな」機会

近年、人工知能 (AI) は、ディープラーニング、コンピューター ビジョン、自然言語処理などの技術革...

幼稚園のAI教材を公開!プログラミング学習は幼稚園から始まる

AIの学習は幼稚園から始まる最近、インターネット上で「人工知能実験教科書」の写真が流通している。この...

AIテキスト翻訳システムの品質が44%向上し、500億以上のパラメータを使用して200の言語を翻訳

Meta Platforms は本日、Meta が社内開発した、200 言語のテキストを翻訳できる人...

AI対応データセンターは急速に成長すると予想

企業の人工知能に対する飽くなき需要により、計算集約型の AI アプリケーションを処理するために設計さ...

...

ロボット犬の悩み:ネットセレブの研修生になるのは簡単だが、ビジネスの研修生になるのは難しい

ニュージーランドの広大な草原で、羊の群れがのんびりと散歩しながら草を食べており、その後ろを牧羊犬が追...

AI を使って「手を洗ってください」を 500 の言語に翻訳する方法

[[322940]]人間による翻訳と機械による翻訳の両方を使用することで、健康に関する重要なフレーズ...