Vincent の画像は 10 倍高速になり、ビデオはリアルタイムでレンダリングされます。清華大学が LCM をリリース: すべての SD 大規模モデル、LoRA、プラグインなどと互換性あり。

Vincent の画像は 10 倍高速になり、ビデオはリアルタイムでレンダリングされます。清華大学が LCM をリリース: すべての SD 大規模モデル、LoRA、プラグインなどと互換性あり。

潜在的整合性モデルは、生成速度を主な特徴とする画像生成アーキテクチャです。

複数の反復ステップを必要とする従来の拡散モデル (安定拡散など) とは異なり、LCM では、従来のモデルの約 30 ステップの効果をわずか 1 ~ 4 ステップで実現できます。

清華大学学際情報科学研究所の大学院生である羅思敏氏と譚一琴氏によって発明されたLCMは、テキスト画像生成速度を5~10倍向上させ、リアルタイム生成AIの時代を切り開きました。

LCM-LoRA: https://huggingface.co/papers/2311.05556

プロジェクトのホームページ: https://latent-consistency-models.github.io/

安定拡散キラー:LCM

LCM が登場する前は、さまざまなグループがさまざまな方向から SD1.5 と SDXL のさまざまな代替案を検討していました。これらのプロジェクトにはそれぞれ特徴がありますが、いずれも LoRA と互換性がなく、Stable Diffusion エコシステムと完全に互換性がないという欠点があります。リリース時間の順に、より重要なプロジェクトは次のとおりです。

モデル名

導入

スポーン速度

トレーニングの難易度

SDエコ適合性

ディープフロイド IF

高品質でテキストを生成できるが、アーキテクチャが複雑

もっとゆっくり

もっとゆっくり

互換性がない

カンディンスキー 2.2

SDXLより早くリリースされ、同等の高品質。ControlNetと互換性あり

似ている

似ている

互換性のないモデルとLoRA、ControlNetなどの一部のプラグインと互換性あり

ヴュルシュチェン V2

SDXLと同様の品質

2倍 - 2.5倍

より簡単に

互換性がない

SSD-1B

Segmind の SDXL から抽出、品質が若干低下

1.6倍

より簡単に

部分的に互換性あり

ピクサートα

ファーウェイは大学と協力して高品質の

似ている

SD1.5 10分の1

ControlNetなどの一部のプラグインと互換性があります

LCM (SDXL、SD1.5)

DreamShaperとSDXLからトレーニングされ、高品質で高速です

5倍~10倍

より簡単に

部分的に互換性あり

LCM-LoRA

小型で使いやすく、プラグインするだけでスピードアップしますが、品質が多少犠牲になります

5倍~10倍

より簡単に

すべてのSD大型モデル、LoRA、ControlNet、多数のプラグインと互換性があります

このとき、LCM-LoRA が登場しました。これは、SD1.5、SSD1B、SDXL を LCM の LoRA に統合し、すべての SDXL モデルに 5 倍高速な生成機能をもたらし、生成品質を少し犠牲にしながらも既存のすべての LoRA と互換性がありました。このプロジェクトは、Stable Diffusion エコシステム内の多数のプラグインと配布バージョンからすぐにサポートされました。

LCM は、生成品質と速度の両方を考慮しながら、独自の LCM 大規模モデル (LCM-SDXL など) または LCM-LoRA のトレーニングをサポートできるトレーニング スクリプトもリリースしました。たった 1 回のトレーニングで、生成品質を維持しながら速度を 5 倍に上げることができます。

現時点では、LCM エコシステムには SD を完全に置き換えるプロトタイプが存在します。

2023/11/22現在、LCMをサポートするオープンソースプロジェクトは次のとおりです。

  • 安定拡散放出
  • WebUI (LCM-LoRA のネイティブ サポート、LCM プラグインは LCM-SDXL をサポート)、ComfyUI、Fooocus (LCM-LoRA)、DrawThings
  • 小型モデル
  • LCM-LoRAは他のLoRA、ControlNetと互換性があります

  • AnimateDiff WebUI プラグイン

サポートを追加する予定のプロジェクト:

  • WebUI マスターおよびサブマスターのサポート
  • トレーニングスクリプト Kohya SS
  • LCM-SDXL および LCM-DreamShaper 用 ControlNet
  • LCM-AnimateDiff

エコシステムが徐々に発展するにつれて、LCM は次世代画像生成の基盤レイヤーとして Stable Diffusion を完全に置き換える可能性を秘めています。

今後の展望

Stable Diffusion のリリース以来、生成コストは徐々に最適化され、LCM の出現により、画像生成コストが 1 桁直接削減されました。革命的なテクノロジーが登場するたびに、業界を改革する豊富な機会がもたらされます。 LCM は、少なくとも、画像生成コストの削減、ビデオ生成、リアルタイム生成という 3 つの側面で、業界の状況に大きな変化をもたらすことができます。

1. 画像生成コストがなくなる

C 製品側では、無料が有料に置き換えられます。 GPU コンピューティング能力の高コストによって制限されているため、Midjourney に代表される多数のグラフィック サービスは、ビジネス モデルとして無料の付加価値を選択しています。 LCM により、モバイル クライアント、パーソナル コンピューターの CPU、ブラウザー (WebAssembly)、および CPU の計算能力が、将来の画像生成の計算能力要件を満たすために、より簡単に弾力的に拡張できるようになります。 Midjourney などの単純な有料画像処理サービスは、高品質の無料サービスに置き換えられます。

B サーバー側では、減少した生成コン​​ピューティング パワー需要が、増加したトレーニング コンピューティング パワー需要に置き換えられます。

AI画像生成サービスにおけるコンピューティング能力の需要はピークと谷の間で大きく変動し、購入したサーバーのアイドル時間は通常50%を超えます。この機能により、米国のReplicateや中国のAlibaba Cloudなど、多数の機能コンピューティングGPU(サーバーレスGPU)の開発が活発化しました。

ハードウェア仮想化の面では、RuiyunやTencent Cloudなどの国内企業も画像モデルのトレーニングに関連する仮想デスクトップ製品を発売している。コンピューティング能力がエッジ、クライアント、またはより簡単に拡張可能な CPU コンピューティング能力に分散されるにつれて、AI 画像生成はさまざまなアプリケーション シナリオで普及し、画像モデルの微調整の需要が大幅に増加します。イメージング分野では、プロフェッショナルで使いやすい垂直モデルトレーニングサービスが、次の段階でクラウドベースの GPU コンピューティングパワーの主な消費者になるでしょう。

2. ヴィンセントビデオ

現在、Vincent Video の非常に高い制作コストにより、この技術の開発と普及が制限されており、消費者向けグラフィックス カードでは低速でフレームごとにレンダリングすることしかできません。 AnimateDiff WebUI プラグインによって表される多くのプロジェクトは、LCM のサポートを優先しており、より多くの人が Vincent Video のオープン ソース プロジェクトに参加できます。閾値が低くなれば、必然的に文生ビデオの普及と発展が加速するでしょう。

3分間の高速レンダリング: AnimateDiff Vid2Vid + ​​LCM

3. リアルタイムレンダリング

速度の向上により、多数の新しいアプリケーションが生まれ、人々の想像力が絶えず広がりました。

RT-LCMとAR

RealTime LCM を先駆けとして、コンシューマーグレードの GPU で 1 秒あたり約 10 フレームのリアルタイム ビデオ生成が初めて実現され、AR 分野に大きな影響を与えることは間違いありません。

現在、視野内のシーン全体を高解像度かつ低遅延でキャプチャして再描画するには、非常に高い計算能力が必要であるため、これまでの AR アプリケーションでは、主に新しいオブジェクトを追加し、特徴を抽出してから、一部のオブジェクトを低解像度で再描画することに重点が置かれていました。 LCM を使用すると、シーン全体をリアルタイムで再描画できるため、ゲーム、インタラクティブ ムービー、ソーシャル インタラクションなどのシナリオで無限の想像力を発揮できます。

将来、新しいゲームシーンを構築する必要はありません。AR グラスを装着するだけで、プレイヤーが探索できるネオンに照らされたサイバーパンクの未来のスタイルに、現在いる街が即座に変わります。将来のインタラクティブなホラー映画を観るときに、AR グラスを装着すると、家の中にある見慣れたものすべてがシーンにシームレスに統合され、寝室のドアの後ろに恐ろしいものが隠れるようになります。仮想と現実がシームレスに融合し、現実と夢を区別することがますます困難になります。そして、LCM がこのすべての根底にあるのかもしれません。

RT-LCM ビデオレンダリング

インタラクション方法 - 想像したものが実現します

Krea.aiとilumine.aiが初めて商品化したリアルタイム画像編集UIは、創作の敷居を改めて下げ、創造性の境界を広げ、より多くの人が細かい制御に基づいて最終的な絵画に対するリアルタイムのフィードバックを得ることができるようになりました。

Krea.ai リアルタイム画像編集

リアルタイム画像編集

モデリング ソフトウェア + LCM は 3D モデリングの新しい方向性を探求し、3D モデラーが WYSIWYG に基づいてさらに一歩進んで、考えを形にする能力を獲得できるようにします。

LCMリアルタイム空間モデリングレンダリング

手は人間にとって最も役に立たないものです。なぜなら、手は脳のスピードに決して追いつけないからです。見たものがそのまま手に入るというやり方では遅すぎます。想像したものがそのまま手に入るというのが、これからのクリエイティブな仕事の主流になるでしょう。

LCM により、初めて、表示効果がインスピレーションと創造性のスピードに追いつくことが可能になりました。新しいインタラクションの方法が次々と登場し、AIGC 革命の最終目標は創造性のコストと技術的閾値をゼロに近づけることです。業界全体において、優れたアイデアは不足から過剰へと変化します。 LCM は私たちを未来へと一歩前進させます。

<<: 

>>:  LLaMA 2 エンドツーエンド推論が利用可能になりました。中国チームより

ブログ    

推薦する

ヘルスケアにおけるAI導入が難しい理由

私たちはほぼ毎日、人工知能と医療業界におけるその応用に関する最新の記事を読んでおり、医療機関などのク...

AI初心者ガイド: MLとAIの違いを理解する

[51CTO.com クイック翻訳] 人工知能は現在、さまざまなハイテク分野で話題になっています。初...

体型の変化は千差万別! MIT が宇宙探査用人工物を開発 - モジュール式の自己再構成可能なマイクロロボット

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

Kuaishou AIテクノロジーがゲームチェーン全体に力を与える

導入ゲーム業界は近年急速に発展しており、2020年第1四半期だけでも中国のゲーム市場の売上高は700...

...

...

Java における 4 つの基本的な暗号化アルゴリズムの分析

シンプルな Java 暗号化アルゴリズムは次のとおりです。厳密に言えば、BASE64 は暗号化アルゴ...

ドバイが無人「空飛ぶ車」を試験:世界初のドローン旅客サービスとなる見込み

[[204952]]ボロコプター、ドバイで無人空飛ぶ車のテストを開始ロイター通信は北京時間9月26日...

...

高品質な人工知能メンタルヘルスカウンセリングアプリを開発するには?

生活の質は向上している一方で、人々の精神状態は悪化しています。 [[317751]]群衆の中にうつ病...

アルゴリズムの力: プログラマーはデスクトップ コンピューターを使用して、スーパーコンピューターの世界記録を破ります

有名なフランス人プログラマー、ファブリス・ベラール氏は最近、普通のデスクトップコンピュータ(2,00...

ジェフ・ディーンの1万語の記事:2020年のGoogleの10大分野におけるAI技術の発展

ジェフ・ディーン氏は数万語に及ぶ長文の記事を公開し、過去1年間のGoogleのさまざまな分野での成果...

Web アプリケーション向けビジネス チャットボット 12 選

[[315528]] [51CTO.com クイック翻訳] ビジネスの発展を推進するために、AI(人...

滴滴出行はオペレーションズリサーチ分野の最高賞であるワグナー優秀実践賞を受賞した初の中国企業となる。

2019年INFORMS年次総会が米国時間10月20日から23日までシアトルで開催されました。同総...