強力なオープンソース SDXL 1.0 がリリースされました!高品質、超シンプルなプロンプトワンクリック生成

強力なオープンソース SDXL 1.0 がリリースされました!高品質、超シンプルなプロンプトワンクリック生成

ちょうど今、Stability AI は次世代のテキスト グラフ モデルである SDXL 1.0 を正式にリリースしました。

ご存知のとおり、SDXL 0.9 はわずか 1 か月前にリリースされました。

公式ブログによると、このバージョン 1.0 は StabilityAI のフラッグシップ RAW 画像モデルであり、最高のオープンソース RAW 画像モデルでもあるとのことです。

キラー子猫

チャハオ

ゴーストライダー

SDXL1.0 について

何よりもまず、生画像モデルに関して最も重要なことは、もちろん生画像の品質です。

公式ブログの統計から、他のモデルと比較して、ユーザーはバージョン 1.0 で生成された画像を好んでいることがわかります。

この結果は、StabilityAI が Discord で実施した、これらの世代の安定拡散モデルの嗜好テストから得られたものです。

ご覧の通り、上図の縦軸は嗜好率、横軸は各世代の SDXL または SD モデルです。 1 か月前、バージョン 0.9 の優先率は 24.4% で、新しいバージョン 1.0 の 26.2% の優先率よりも低くなりました。

違いはそれほど明白ではありませんが、新しいモデルは古いモデルよりも優れていると言わざるを得ません。

StabilityAI によれば、SDXL はほぼあらゆる芸術的スタイルで高品質の画像を生成でき、1 対 1 のフォトリアリスティックな結果を実現するのに最適なモデルです。

モデルに特別な感覚を要求せずに特徴的な画像を生成できるため、スタイルの絶対的な自由が保証されます。

パラメータの面では、SDXL 1.0 は色の鮮やかさと精度の面で優れた調整を行っています。コントラスト、照明、影は SDXL 0.9 よりも優れています。新しいバージョンで生成される画像はすべて、ネイティブの 1024x1024 解像度を使用します。

さらに、SDXL は、手やテキストなど画像モデルではレンダリングが難しい概念や、さまざまなオブジェクトの空間配置を生成することができます。

例えば、次の4つの画像。

同時に、画像生成品質の向上に加え、プロンプト設定もより便利になりました。

現在、SDXL バージョン 1.0 では、わずか数語のプロンプトで複雑かつ詳細で美しい画像を生成できます。

以前は、ユーザーは満足のいく高品質の画像を得るためにプロンプ​​トに「傑作」などの単語を追加する必要がありましたが、今ではそうする必要はありません。

そして、もう 1 つの小さな詳細として、プロンプトの微妙な違いも鋭く認識できることが挙げられます。

たとえば、「The Red Square」が大文字の場合は観光名所の「赤の広場」を指し、「red square」が小文字の場合は赤い広場を指します。

SDXL は 1 ステップで意味を理解できるようになりました。

最大のオープンイメージモデル

モデルのパラメータスケールに関して言えば、SDXL 1.0 は現在のオープンイメージモデルの中で最も多くのパラメータを持っています。

関係者によると、今回は全く新しいアーキテクチャが使用され、基本モデルのパラメータ規模は35億に達し、66億のパラメータを持つ改良モデルもあるという。

完全なモデルは、潜在的拡散のための専門家パイプラインの混合で構成されています。

最初のステップでは、ベースモデルが(ノイズ)潜在変数を生成します。

2 番目のステップでは、最終的なノイズ除去ステップ専用の改良モデルを使用してさらに処理されます。ここで注目すべき重要な点は、ベース モデルはスタンドアロン モジュールとしても利用できるということです。

この 2 段階のアーキテクチャにより、速度を犠牲にしたり過剰な計算リソースを使用したりすることなく、堅牢な画像生成が保証されます。

SDXL 1.0 は、8GB の VRAM を搭載したコンシューマー グレードの GPU、またはクラウド対応の GPU で実行できます。

SDXL 1.0 を使用すると、カスタム データに合わせてモデルを微調整することがこれまで以上に簡単になります。

カスタム LoRA またはチェックポイントの生成では、多くのデータ処理は必要ありません。 Stability AI は現在、SDXL 専用の T2I/ControlNet を活用して、次世代のタスク固有の構造、スタイル、および構成制御を構築しています。

関係者によると、これらの機能は現在テストプレビュー段階にあるという。

実際、Stability AI は 6 月から SDXL 1.0 の機能をプレビューしており、モデルの新機能を紹介する研究専用バージョンもリリースしています。

関係者によると、SDXL 1.0 では、以前の SDXL モデルと比較して、より鮮やかな色、照明、コントラストを生成できる画像精製プロセスが改善されているという。

SDXL 1.0 では微調整機能も導入されており、ユーザーは高度にカスタマイズされた画像を簡単に作成できます。

使い方

また、最新の SDXL 1.0 の使用も非常に簡単です。

1. Clipdrop で SDXL 1.0 を体験してください。

忘れないでください。以下から選択できるスタイルは多数あります。

2. Stability AI の GitHub ページから SDXL 1.0 の重みと関連ソース コードを取得します。

3. Stability AI プラットフォームで API 経由で SDXL 1.0 を使用します。

4. AWS Sagemaker と AWS Bedrock で SDXL 1.0 を入手します。

5. Stable Foundation Discord に参加して、SDXL モデルのリアルタイム テストを実施できます。

6. DreamStudio は、画像生成用に SDXL 1.0 も提供します。

<<:  国内チームが新たなRLTFフレームワークを提案し、SOTAをリフレッシュしました!大規模なモデルはバグが少なく、より高品質なコードを生成します

>>:  「人工太陽」が正確に放電します! DeepMind、AI制御の核融合で新たなブレークスルーを達成

ブログ    
ブログ    
ブログ    

推薦する

自動運転のセキュリティ確保 - 主流のミドルウェア設計について

国内外の新車メーカーの急速な台頭により、自動車の知能レベルは向上し続けています。車両の中央コンピュー...

5つの新たなAI IoTアプリケーション

人工知能とモノのインターネットを組み合わせたこの新しい技術の波は、新たな機会をもたらし、業界全体の運...

AIを安全で信頼できるものにするためには、まずアルゴリズムの一般化能力を理解することから始める

ディープラーニング システムは、新しいデータに対してどの程度のパフォーマンス (一般化) を発揮しま...

機械学習は株式市場を正確に予測できるのでしょうか?

株式市場が始まって以来、人々はシステムを悪用し、市場に勝とうとしてきました。長年にわたり、人々は何千...

...

死角なしの360度!カリフォルニア大学バークレー校、中国で3DHMフレームワークをリリース:1枚の写真であらゆるビデオアクションを模倣可能

任意のポーズの写真を入力し、写真の人物に「指定された動画」の動きを真似してもらうのは簡単ではありませ...

ChatGPTがついにオンラインになり、回答のソースを提供できるようになりました

たった今、OpenAI が重要なニュースを発表しました。ChatGPT が正式にインターネットに接続...

DingTalk Flutter クロス 4 端末ソリューションの設計と技術実践

この記事では、主にDingTalkがFlutterをベースに構築したクロスクアッドターミナルアプリケ...

...

アリババが自社開発の音声認識モデルDFSMNをオープンソース化、精度は最大96.04%

[[232541]]最近、アリババDAMOアカデミーの機械知能研究所は、新世代の音声認識モデルDF...

数秒で AI を学ぶ - ディープラーニングの一般的な 4 つの活性化関数: シグモイド、Tanh、ReLU、Softmax

ディープラーニングにおける活性化関数は、ニューラル ネットワークの重要なコンポーネントです。活性化関...

GPT-4 コードインタープリターのベンチマーク! CUHKはモデルに数学の問題を解くコードを書かせ、そのスコアはGPT-4を上回る

GPT-4 コードインタープリターをベンチマークし、CUHK の最新の研究では「大きな動き」が発表さ...

ドローンが田舎に飛来、その価値は想像もできない

現在、技術の継続的な進歩と産業発展の継続的な加速により、エンターテインメント、輸送、救助などの分野で...

MITは、大規模な問題を解決するにはアルゴリズムがハードウェアよりも有用であることを証明した。

[[425167]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...

自動車開発者エコロジー戦略の調印式が成功裏に開催されました

2021年10月20日、国家インテリジェントコネクテッドビークルイノベーションセンター(以下、「イノ...