特大サイズのStable Diffusionが無料で付いてきます！文勝図の最強オープンモデル、プロンプトワードもシンプルに

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

安定拡散の最強バージョンが登場！

たった今、 SDXL 1.0 が正式にリリースされ、オンラインで無料で試すことができます。

効果の面では、本物と見分けがつかないほどリアルな超大作であるかどうか：

ビールを飲む超リアルなパンダ：

やはりサイバーパンク漫画ですね、どちらもとても素敵ですね〜

Stability AIは、SDXL 1.0はより鮮やかで正確な色を生成し、コントラスト、光と影を強化し、 1メガピクセルの画像（1024×1024）を生成できると述べた。

また、生成された画像を Web ページ上で直接後編集することもサポートしています。

（ミッドジャーニーやファイアフライと競合しているような気がします）

ネットユーザーは試すのが待ちきれない〜

基本的な Stable Diffusion と比較して、SDXL 1.0 はより正確で現実的な結果を生成します。

また、プロンプトの言葉も以前よりも簡単なものになる可能性があると当局者は述べた。

これは、SDXL 1.0 の基本モデルパラメータの数が35 億に達し、理解能力が強化されたためです。

Stable Diffusion の基本バージョンと比較すると、パラメータの数はわずか 10 億程度です。

その結果、SDXL 1.0 は現在利用可能な最大のオープンイメージモデルの 1 つになりました。関係者は、これが世界最高のオープンイメージモデルだと直接語った。。

では早速始めましょう〜

青と白の磁器にムスクをプリント

SDXL 1.0 は非常に使いやすいです。プロンプトに入力して、スタイル、サイズパラメータなどを選択するだけです。

デフォルトでは、一度に 4 枚の画像が出力されます。満足できない場合は、下の「プラス記号」をクリックして描画を続行できます。

公式紹介によれば、SDXL 1.0 に傑作を生成するよう依頼する際に、「傑作」などのプロンプト語を追加する必要がなくなったとのことです。

日本のアニメ風の画像を生成します。このスタイルに非常によく適合し、光と影の扱いがより自然になります。

1990 年代のアニメの低解像度のスクリーンショット、夜の道を歩くカップル

それとも風景写真でしょうか?本物と間違われることもあります。

マスク氏を中国の中庭に立たせて、空を見上げさせても...

古代中国の宮殿にいるイーロン・マスク

それともAppleを買収するのか？

WWDC では、彼は新しい iPhone を掲げて人々に見せ、記者やファン (doge) に囲まれました。

イーロン・マスクがWWDCで新型iPhoneを発表

こういった昔のMa's Onion Newsに加えて、絵画風の作品もいいですね。

左は斉白石の水墨画風、右は漫画風です。

左：スピーチをするイーロン・マスク、水墨画、斉白石風
右：イーロン・マスクのコミック

絵付けに加え、老媽を元青白磁に描くこともできます。

元朝の青白磁の形をしたイーロン・マスク

上記の「Old Ma's Stories」で使用されているプロンプトは比較的単純です。

しかし、簡単なプロンプトワードのため、効果は悪くなく、これは公式声明でも確認されています。

しかし、もっと複雑で洗練されたプロンプトを使用した場合、どのようになるかを確認したいと思いませんか?

私たちは、ソビエト連邦でメカニックとして働いていたラオ・マーの、Midjourney が作成した珍しい写真を見つけ、それを再び MJ に入力してプロンプトを生成しました。

MJ は SDXL のテストに使用する次のプロンプトを生成します。

イーロン・マスク（ここではMJが男性を生成）が作業室に立っています。産業機械の美学のスタイル、ドイツ工作連盟、均一に演出された画像、ソビエト、明るい藍と暗い青銅、新しいアメリカのカラー写真、詳細な顔の特徴

スタイルはまさに私たちが期待していた通りで、細部もかなり良いです。

次は、この投稿の最後にもう 1 つの複雑なプロンプト図を示します。これも MJ が以前の作業に基づいて生成し、SDXL に入力したものです。

イーロン・マスクがピーター・コールソン風に箸で食べ物を食べる、クロスプロセス/加工済み、ピンホール写真、ハーブ・トリンプ、ジェームス・ティソ、トランスアヴァンガーディア、スポット測光

左がSDXLさんの作品、右がMJさんのオリジナルです。見比べてみてください。

プロンプトワードは中国語もサポートしていますが、返される結果は中国語風になる傾向があり、精度にも影響が出る可能性があります。

例えば、「海辺の虎」と入力すると、意外にも中国風の女の子が出てきたりします。

皆さんもその効果を目にしたと思いますが、SDXL で画像を生成する速度はどのくらいでしょうか?

無料ユーザーの場合、時間は主にキューで費やされますが、待ち時間はそれほど長くありません。

5.5 秒で、キューは 160 から 99 に減少しました。

SDXL は画像の生成に加えて、多くの後編集機能も提供します。

具体的には、背景除去、ディテール処理、画像拡大などが含まれます。

これらの機能は、SDXL が配置されている Clipdrop プラットフォームですでに利用可能であり、SDXL は生成された画像をワンクリックで対応するモジュールに転送できます。

ここでは背景除去機能を選択してデモンストレーションを行っており、エッジの細部に欠陥がほとんどないことがわかります。

現在、SDXL の無料使用割り当てはまだ比較的高いです。ログイン後、各アカウントは 1 日あたり 400 枚のカードを生成できます (キューに入れる必要があります)。

月額料金は 9 ドル/月、年間料金は 7 ドル/月（約 50 人民元）で、これには 1 日あたり 1,500 SDXL の割り当てが含まれており、キューに並ぶ必要はありません。

ただし、地域によって価格は異なるようです。たとえば、アルゼンチンの年間支払額は月額742ペソ（約19.4元または2.7米ドル）です。

さらに、有料版は実際には Clipdrop プラットフォームの Pro サブスクリプションであるため、プラットフォームの他の機能も含まれています。

Pro アカウントに加えて、開発者向けの API バージョンも用意されています (Stability AI や Amazon などのプラットフォームにアクセスできます)。

オープンイメージモデルの「最大のカップ」

Stability AI は最新のブログで、SDXL 1.0 のより詳細な技術的情報を紹介しました。

まず、このモデルは規模とアーキテクチャにおいて新たな進歩を遂げました。

ベースモデル＋リファイナーモデルを革新的に採用しています。

2 つのパラメータサイズはそれぞれ35 億と66 億です。

これにより、SDXL 1.0 は現在最大のオープンイメージモデルの 1 つになります。

Stability AIの創設者であるEmad Mostaque氏は、パラメータの数を増やすことでモデルがより多くの概念を理解し、より深い事柄を教えることができるようになると述べた。

同時に、RLHF は SDXL バージョン 0.9 で強化されました。

そのため、SDXL 1.0 では短いプロンプトワードがサポートされ、Red Square と Red Square を区別できるようになりました。

具体的な合成プロセスでは、最初のステップで基本モデルがノイズの多い潜在変数を生成し、その後、洗練されたモデルによってノイズが除去されます。

基本モデルはスタンドアロンモジュールとしても使用できます。

これら 2 つのモデルを組み合わせると、コンピューティングリソースを消費することなく、より高品質の画像を生成できます。

公式発表によると、SDXL 1.0 は 8GB VRAM を搭載したコンシューマーグレードの GPU またはクラウドで実行できます。

さらに、SDXL 1.0 では微調整も改善され、カスタム LoRA またはチェックポイントを生成できるようになりました。

Stability AI チームは現在、SDXL 専用の T2I/ControlNet を使用して、特定のタスクに使用できる新世代の構造、スタイル、および組み合わせコントロールも構築しています。

ただし、これらの機能はまだベータテスト段階ですので、今後の正式アップデートにご注目ください。

要約すると、テキストマップの作成は段階的な反復プロセスであり、SDXL 1.0 の目標はこのプロセスを簡素化することです。

モスタク氏は、モデルを素早く微調整するために必要なのは、現在では5～10枚の写真だけだと語った。

また、ユーザーからのフィードバックからも、Stable Diffusion と比較して、SDXL 1.0 の方がすべての人を満足させることができることがわかります。

実際、Stability AI は今年 4 月から SDXL の最も早いベータ版をリリースしています。

6月から社内テストが始まり、しばらく前にバージョン0.9がリリースされました。その際に、オープンバージョンである最新バージョン1.0が7月にリリースされると発表されました。関連するコードウェイトは GitHub で公開されています。

さらに、Stability AI 機械学習の責任者は、SDXL 0.9 と比較してバージョン 1.0 では計算能力の需要が減っていると述べました。

興味があればぜひ行ってみてください〜

トライアル入場: https://clipdrop.co/stable-diffusion

GitHub: https://github.com/Stability-AI/generative-models

<<: Safetensors は、高速、効率的、安全、使いやすい新しいディープラーニングツールです。

>>: 自律走行の新しい方法がネイチャーの表紙に登場：夜を昼のように明るくする、浙江大学の博士

特大サイズのStable Diffusionが無料で付いてきます！文勝図の最強オープンモデル、プロンプトワードもシンプルに

青と白の磁器にムスクをプリント

オープンイメージモデルの「最大のカップ」

AI市場は2024年までに5000億ドルを超えると予想

マスク氏はAIデーでテスラに関する難しい技術的質問に答える予定

アルゴリズムの練習: 数独の基本解法

将来、人工知能ロボットに置き換えられる可能性のある10の仕事

AIデータストレージデバイスを選択するための6つの重要な要素

目標駆動型システムモデルは、人工汎用知能 (AGI) を実現するための鍵となるでしょうか?

デジタル時代においてヘルスケアサービスをより良くサポートするにはどうすればよいでしょうか?

マイクロソフト、物議を醸す顔認識機能を廃止へ

K 分割交差検証とグリッドサーチ

推薦する

LSTM は惨めに失敗しました!ある少年が時系列モデルを使って恋人の感情を予測した4ページの論文を発表した。

パニックになってるんですか？ロボットは共感の兆しを発達させ始めており、ロボットパートナーの次の動きを予測することができます。

鍾南山氏は人工知能カンファレンスでAI COVID-19画像認識などの技術について講演した。

動きながら描くと、2次元の人物になります：リアルタイムインタラクティブビデオスタイル化

機械学習: 教師なし学習: 9 つのクラスタリングアルゴリズム

AIに単純なことを教える: ゼロから最初のニューラルネットワークを構築する

3D多言語AIレポーターが登場。プレッシャーを感じることなく文章を書いたり翻訳したりできるだけでなく、国際的なスポーツイベントのレポートもできます。

AIがクラウドに依存しない理由：将来AIは疎外される

Pika 1.0 はアニメーション業界に完全な革命をもたらします!ドリームワークスの創設者は、3年後にはアニメーションのコストが10分の1に下がると予測

人工知能が人間の能力を高める4つの方法

暗号化アルゴリズムの鍵交換は少し安全ではない

AIと機械学習が克服すべき3つのハードル

ChatGPT も「逆方向に学習」するのでしょうか?