突如、Stable Diffusion 3がリリースされました!ソラと同じアーキテクチャですが、すべてがよりリアルです

突如、Stable Diffusion 3がリリースされました!ソラと同じアーキテクチャですが、すべてがよりリアルです

1年以上の開発期間を経て、前世代に比べて3つの主要な機能に進化しました。

さあ、効果を直接確かめてみましょう!

まず第一に、驚くべきテキストレンダリング機能があります。

黒板に書かれたチョークの文字を見てください。

Go Big or Go Home(成功か死か)、これは本当に殺人的だ〜

道路標識やバス標識のネオン効果:

また、「Good Night」という文字も、ステッチが見えるほどしっかりと刺繍されています。

作品が公開されるやいなや、ネットユーザーたちは「とても精密だ」と叫んだ。

「中国語もアレンジしよう」という人もいたほどです。

第二に、マルチトピックプロンプト機能が最大限に活用されます。

どういう意味ですか?一度に好きなだけ多くの「要素」を手がかりに詰め込むことができます。安定した拡散 3: 1 つでも見逃すと、負けになります。

下の写真をよく見てください。「宇宙飛行士」、「チュチュを着た豚」、「ピンクの傘」、「シルクハットをかぶったコマドリ」、そして隅に「Stable Diffusion」という文字があります (透かしではありません)。

この機能により、作品を好きなだけ豊かにすることができます。

ついに画質が新たなレベルに進化しました。

上の写真を見ただけでショックを受けませんか? !

さまざまな超鮮明なクローズアップに関しては、彼にとってはそれが簡単です。

興奮していますか?公式キューリストが公開され、誰でも公式ウェブサイトにアクセスして応募できるようになりました。

さて、最近 AI 界隈がかなり活発になっていると言わざるを得ません。

一部のネットユーザーは「私のパソコンはもう耐えられない…」と率直にコメントした。

Stable Diffusion 3 が登場しました!

新しい Stable Diffusion はとても優れているので、もう少し紹介します。

もちろん、すべての写真はStabilityAIメディアの責任者などの公式ソースからのものです。

テキスト効果は最も目を引くものであり、すべてのフォームを非常に明確かつ適切に表示できると言えます。

上の写真を見ると、「学術界におけるミッドジャーニーの恥ずかしい姿:生物学論文のランダムなイラスト」を思い出さずにはいられません。SD3 を使えば、非常にプロフェッショナルな学術的なイラストを作成できるのでしょうか?

これらに加えて、SD3 の「アルコール インク ペインティング」も非常にユニークです。

アニメスタイル:

ここでも、クリアテキストを追加できます。

申請するには列に並ぶ必要があるため、誰もが実際に試験を受けて状況を把握することは困難です。

しかし、賢いネットユーザーの中には、すでに同じプロンプトワードをMidjourney(v 6.0)に入力している人もいます。

たとえば、「赤いリンゴと黒板の言葉」の冒頭の写真(プロンプト:教室のテーブルの上に赤いリンゴが置かれた映画のような写真、黒板にはチョークで「大胆に挑戦するか、家に帰るか」という言葉が書かれている)

Midjourney による最終結果は次のとおりです。

この比較から、違いは明らかであると言えます。テキストのスペル、品質、色の調整などの点で、SD3 が優れています。

技術面では、現在、モデルの選択可能なパラメータの範囲は 800M から 8B までです。

詳細な技術レポートはまだ発表されていないが、関係者は拡散変圧器アーキテクチャとフローマッチングを主に組み合わせていることを明らかにした。

前者は実はSoraと同じもので、添付の技術論文は1922年にWilliam PeeblesとXie Sainingが共著したDiTです。

DiTはTransformerと拡散モデルを初めて組み合わせ、関連論文がICCV 2023で口頭発表として採択されました。

この研究では、研究者らは潜在拡散モデルをトレーニングし、一般的に使用されている U-Net バックボーン ネットワークを潜在パッチで動作するトランスフォーマーに置き換えました。彼らは、フォワードパスの複雑性を GFLOP 単位で測定することにより、Diffused Transformer (DiT) のスケーラビリティを分析しました。

後者のフローマッチングも2022年から行われ、Meta AIとワイツマン科学研究所の科学者によって完了しました。

彼らは、連続正規化フロー (CNF) に基づく生成モデルの新しいパラダイムと、固定条件付き確率パスの回帰ベクトル場に基づくシミュレーション不要の CNF アプローチであるフロー マッチングの概念を提案しました。結果は、拡散パスを使用したフローマッチングを使用してトレーニングされたモデルがより堅牢で安定していることを示しています。

しかし、最近のビデオ生成の大きな進歩を見て、一部のネットユーザーは次のようにも言っています。

どう思いますか?

もう一つ

さらに、ちょうど前日には、同社のビデオ製品「Stable Video」がパブリックベータ版として正式に公開されました。

SVD1.1 (Stable Video Diffusion 1.1) に基づいており、誰でも利用できます。

主にテキスト生成ビデオと画像生成ビデオの 2 つの機能をサポートしています。

参考リンク:
[1] https://stability.ai/news/stable-diffusion-3.

[2] https://arxiv.org/abs/2212.09748.
[3] https://arxiv.org/abs/2210.02747.
[4]https://twitter.com/pabloaumente/status/1760678508173660543.

<<: 

>>:  Wi-Fi の AI がワイヤレス接続をどのように形作るか

ブログ    
ブログ    
ブログ    

推薦する

ジェネレーティブ AI がクラウド セキュリティにもたらす変化

クラウド セキュリティと人工知能には長年にわたる関係があります。ほぼ 10 年にわたり、AI はパタ...

...

マルチラベル分類とは何ですか?ここにいくつかの実用的な古典的な方法があります

これはおそらく、マルチラベル分類のための最も実用的なヒントです。ご存知のとおり、バイナリ分類タスクは...

韓国の常温超伝導チームは重要な技術を隠蔽したのか?アニーリングの詳細がネットユーザーによって暴露され、6つの中国チームが攻撃を開始

昨今、室温超伝導を再現する実験が注目を集めています。 3日間の期限が過ぎ、多くの再現実験で結果が得ら...

...

人工知能≠ロボット!

[[379103]]技術革新が時代のメインテーマとなる中、 「自動運転がドライバーに代わる」「仕事...

投資家心理は安定しており、人工知能への資金流入は続いている

[[274634]] 2019 年の秋が近づき、最初の 2 四半期が終了しようとしている今、今年前半...

アシモフのロボット工学三原則とモービルアイの自動運転五原則

テクノロジー・トラベラーは11月20日、北京から報道した(執筆者:ガオ・フェイ):多くのSF作家の想...

わかりやすく解説: 機械学習と統計モデリングの違い

これらは互いに大きく異なっており、すべてのデータ サイエンティストはその理由と方法を理解する必要があ...

3分レビュー! 2021年5月の人工知能分野における重要な進展の概要

近年、社会経済の発展に伴い、人工知能技術は科学技術の最前線に立っています。テクノロジーが成熟するにつ...

AI キャリアに移行する IT プロフェッショナルのための 8 つのヒント

IT プロフェッショナルは、IT 職から AI 技術職にどのように移行するのでしょうか? 専門家によ...

2023 年のフィンテック業界における AI トレンド トップ 10

2023 年の FinTech 業界では、変革的な AI トレンドが見られます。機械学習、ロボティ...

...

人工知能も「ペンを手に取る」とき、人間に残される領域はどれほどになるのでしょうか?

「暗闇が私たちの光を引き立てる/そして私は漠然とした幻想しか見ることができない/孤独の瞬間のあなた...

機械学習に必要な確率論の基礎

この記事を読んでいただければ、確率の基本原理を機械学習に応用できる可能性が 100% あります。機械...