Vincent の画像は 10 倍高速になり、ビデオはリアルタイムでレンダリングされます。清華大学が LCM をリリース: すべての SD 大規模モデル、LoRA、プラグインなどと互換性あり。

潜在的整合性モデルは、生成速度を主な特徴とする画像生成アーキテクチャです。

複数の反復ステップを必要とする従来の拡散モデル (安定拡散など) とは異なり、LCM では、従来のモデルの約 30 ステップの効果をわずか 1 ～ 4 ステップで実現できます。

清華大学学際情報科学研究所の大学院生である羅思敏氏と譚一琴氏によって発明されたLCMは、テキスト画像生成速度を5～10倍向上させ、リアルタイム生成AIの時代を切り開きました。

LCM-LoRA: https://huggingface.co/papers/2311.05556

プロジェクトのホームページ: https://latent-consistency-models.github.io/

安定拡散キラー：LCM

LCM が登場する前は、さまざまなグループがさまざまな方向から SD1.5 と SDXL のさまざまな代替案を検討していました。これらのプロジェクトにはそれぞれ特徴がありますが、いずれも LoRA と互換性がなく、Stable Diffusion エコシステムと完全に互換性がないという欠点があります。リリース時間の順に、より重要なプロジェクトは次のとおりです。

モデル名	導入	スポーン速度	トレーニングの難易度	SDエコ適合性
ディープフロイド IF	高品質でテキストを生成できるが、アーキテクチャが複雑	もっとゆっくり	もっとゆっくり	互換性がない
カンディンスキー 2.2	SDXLより早くリリースされ、同等の高品質。ControlNetと互換性あり	似ている	似ている	互換性のないモデルとLoRA、ControlNetなどの一部のプラグインと互換性あり
ヴュルシュチェン V2	SDXLと同様の品質	2倍 - 2.5倍	より簡単に	互換性がない
SSD-1B	Segmind の SDXL から抽出、品質が若干低下	1.6倍	より簡単に	部分的に互換性あり
ピクサートα	ファーウェイは大学と協力して高品質の	似ている	SD1.5 10分の1	ControlNetなどの一部のプラグインと互換性があります
LCM (SDXL、SD1.5)	DreamShaperとSDXLからトレーニングされ、高品質で高速です	5倍～10倍	より簡単に	部分的に互換性あり
LCM-LoRA	小型で使いやすく、プラグインするだけでスピードアップしますが、品質が多少犠牲になります	5倍～10倍	より簡単に	すべてのSD大型モデル、LoRA、ControlNet、多数のプラグインと互換性があります

このとき、LCM-LoRA が登場しました。これは、SD1.5、SSD1B、SDXL を LCM の LoRA に統合し、すべての SDXL モデルに 5 倍高速な生成機能をもたらし、生成品質を少し犠牲にしながらも既存のすべての LoRA と互換性がありました。このプロジェクトは、Stable Diffusion エコシステム内の多数のプラグインと配布バージョンからすぐにサポートされました。

LCM は、生成品質と速度の両方を考慮しながら、独自の LCM 大規模モデル (LCM-SDXL など) または LCM-LoRA のトレーニングをサポートできるトレーニングスクリプトもリリースしました。たった 1 回のトレーニングで、生成品質を維持しながら速度を 5 倍に上げることができます。

現時点では、LCM エコシステムには SD を完全に置き換えるプロトタイプが存在します。

2023/11/22現在、LCMをサポートするオープンソースプロジェクトは次のとおりです。

安定拡散放出

WebUI (LCM-LoRA のネイティブサポート、LCM プラグインは LCM-SDXL をサポート)、ComfyUI、Fooocus (LCM-LoRA)、DrawThings

小型モデル
LCM-LoRAは他のLoRA、ControlNetと互換性があります
AnimateDiff WebUI プラグイン

サポートを追加する予定のプロジェクト:

WebUI マスターおよびサブマスターのサポート
トレーニングスクリプト Kohya SS
LCM-SDXL および LCM-DreamShaper 用 ControlNet
LCM-AnimateDiff

エコシステムが徐々に発展するにつれて、LCM は次世代画像生成の基盤レイヤーとして Stable Diffusion を完全に置き換える可能性を秘めています。

今後の展望

Stable Diffusion のリリース以来、生成コストは徐々に最適化され、LCM の出現により、画像生成コストが 1 桁直接削減されました。革命的なテクノロジーが登場するたびに、業界を改革する豊富な機会がもたらされます。 LCM は、少なくとも、画像生成コストの削減、ビデオ生成、リアルタイム生成という 3 つの側面で、業界の状況に大きな変化をもたらすことができます。

1. 画像生成コストがなくなる

C 製品側では、無料が有料に置き換えられます。 GPU コンピューティング能力の高コストによって制限されているため、Midjourney に代表される多数のグラフィックサービスは、ビジネスモデルとして無料の付加価値を選択しています。 LCM により、モバイルクライアント、パーソナルコンピューターの CPU、ブラウザー (WebAssembly)、および CPU の計算能力が、将来の画像生成の計算能力要件を満たすために、より簡単に弾力的に拡張できるようになります。 Midjourney などの単純な有料画像処理サービスは、高品質の無料サービスに置き換えられます。

B サーバー側では、減少した生成コンピューティングパワー需要が、増加したトレーニングコンピューティングパワー需要に置き換えられます。

AI画像生成サービスにおけるコンピューティング能力の需要はピークと谷の間で大きく変動し、購入したサーバーのアイドル時間は通常50%を超えます。この機能により、米国のReplicateや中国のAlibaba Cloudなど、多数の機能コンピューティングGPU（サーバーレスGPU）の開発が活発化しました。

ハードウェア仮想化の面では、RuiyunやTencent Cloudなどの国内企業も画像モデルのトレーニングに関連する仮想デスクトップ製品を発売している。コンピューティング能力がエッジ、クライアント、またはより簡単に拡張可能な CPU コンピューティング能力に分散されるにつれて、AI 画像生成はさまざまなアプリケーションシナリオで普及し、画像モデルの微調整の需要が大幅に増加します。イメージング分野では、プロフェッショナルで使いやすい垂直モデルトレーニングサービスが、次の段階でクラウドベースの GPU コンピューティングパワーの主な消費者になるでしょう。

2. ヴィンセントビデオ

現在、Vincent Video の非常に高い制作コストにより、この技術の開発と普及が制限されており、消費者向けグラフィックスカードでは低速でフレームごとにレンダリングすることしかできません。 AnimateDiff WebUI プラグインによって表される多くのプロジェクトは、LCM のサポートを優先しており、より多くの人が Vincent Video のオープンソースプロジェクトに参加できます。閾値が低くなれば、必然的に文生ビデオの普及と発展が加速するでしょう。

3分間の高速レンダリング: AnimateDiff Vid2Vid + LCM

3. リアルタイムレンダリング

速度の向上により、多数の新しいアプリケーションが生まれ、人々の想像力が絶えず広がりました。

RT-LCMとAR

RealTime LCM を先駆けとして、コンシューマーグレードの GPU で 1 秒あたり約 10 フレームのリアルタイムビデオ生成が初めて実現され、AR 分野に大きな影響を与えることは間違いありません。

現在、視野内のシーン全体を高解像度かつ低遅延でキャプチャして再描画するには、非常に高い計算能力が必要であるため、これまでの AR アプリケーションでは、主に新しいオブジェクトを追加し、特徴を抽出してから、一部のオブジェクトを低解像度で再描画することに重点が置かれていました。 LCM を使用すると、シーン全体をリアルタイムで再描画できるため、ゲーム、インタラクティブムービー、ソーシャルインタラクションなどのシナリオで無限の想像力を発揮できます。

将来、新しいゲームシーンを構築する必要はありません。AR グラスを装着するだけで、プレイヤーが探索できるネオンに照らされたサイバーパンクの未来のスタイルに、現在いる街が即座に変わります。将来のインタラクティブなホラー映画を観るときに、AR グラスを装着すると、家の中にある見慣れたものすべてがシーンにシームレスに統合され、寝室のドアの後ろに恐ろしいものが隠れるようになります。仮想と現実がシームレスに融合し、現実と夢を区別することがますます困難になります。そして、LCM がこのすべての根底にあるのかもしれません。

RT-LCM ビデオレンダリング

インタラクション方法 - 想像したものが実現します

Krea.aiとilumine.aiが初めて商品化したリアルタイム画像編集UIは、創作の敷居を改めて下げ、創造性の境界を広げ、より多くの人が細かい制御に基づいて最終的な絵画に対するリアルタイムのフィードバックを得ることができるようになりました。

Krea.ai リアルタイム画像編集

リアルタイム画像編集

モデリングソフトウェア + LCM は 3D モデリングの新しい方向性を探求し、3D モデラーが WYSIWYG に基づいてさらに一歩進んで、考えを形にする能力を獲得できるようにします。

LCMリアルタイム空間モデリングレンダリング

手は人間にとって最も役に立たないものです。なぜなら、手は脳のスピードに決して追いつけないからです。見たものがそのまま手に入るというやり方では遅すぎます。想像したものがそのまま手に入るというのが、これからのクリエイティブな仕事の主流になるでしょう。

LCM により、初めて、表示効果がインスピレーションと創造性のスピードに追いつくことが可能になりました。新しいインタラクションの方法が次々と登場し、AIGC 革命の最終目標は創造性のコストと技術的閾値をゼロに近づけることです。業界全体において、優れたアイデアは不足から過剰へと変化します。 LCM は私たちを未来へと一歩前進させます。

<<:

>>: LLaMA 2 エンドツーエンド推論が利用可能になりました。中国チームより