潜在的整合性モデルは、生成速度を主な特徴とする画像生成アーキテクチャです。 複数の反復ステップを必要とする従来の拡散モデル (安定拡散など) とは異なり、LCM では、従来のモデルの約 30 ステップの効果をわずか 1 ~ 4 ステップで実現できます。 清華大学学際情報科学研究所の大学院生である羅思敏氏と譚一琴氏によって発明されたLCMは、テキスト画像生成速度を5~10倍向上させ、リアルタイム生成AIの時代を切り開きました。 LCM-LoRA: https://huggingface.co/papers/2311.05556 プロジェクトのホームページ: https://latent-consistency-models.github.io/ 安定拡散キラー:LCMLCM が登場する前は、さまざまなグループがさまざまな方向から SD1.5 と SDXL のさまざまな代替案を検討していました。これらのプロジェクトにはそれぞれ特徴がありますが、いずれも LoRA と互換性がなく、Stable Diffusion エコシステムと完全に互換性がないという欠点があります。リリース時間の順に、より重要なプロジェクトは次のとおりです。
このとき、LCM-LoRA が登場しました。これは、SD1.5、SSD1B、SDXL を LCM の LoRA に統合し、すべての SDXL モデルに 5 倍高速な生成機能をもたらし、生成品質を少し犠牲にしながらも既存のすべての LoRA と互換性がありました。このプロジェクトは、Stable Diffusion エコシステム内の多数のプラグインと配布バージョンからすぐにサポートされました。 LCM は、生成品質と速度の両方を考慮しながら、独自の LCM 大規模モデル (LCM-SDXL など) または LCM-LoRA のトレーニングをサポートできるトレーニング スクリプトもリリースしました。たった 1 回のトレーニングで、生成品質を維持しながら速度を 5 倍に上げることができます。 現時点では、LCM エコシステムには SD を完全に置き換えるプロトタイプが存在します。 2023/11/22現在、LCMをサポートするオープンソースプロジェクトは次のとおりです。
サポートを追加する予定のプロジェクト:
エコシステムが徐々に発展するにつれて、LCM は次世代画像生成の基盤レイヤーとして Stable Diffusion を完全に置き換える可能性を秘めています。 今後の展望Stable Diffusion のリリース以来、生成コストは徐々に最適化され、LCM の出現により、画像生成コストが 1 桁直接削減されました。革命的なテクノロジーが登場するたびに、業界を改革する豊富な機会がもたらされます。 LCM は、少なくとも、画像生成コストの削減、ビデオ生成、リアルタイム生成という 3 つの側面で、業界の状況に大きな変化をもたらすことができます。 1. 画像生成コストがなくなる C 製品側では、無料が有料に置き換えられます。 GPU コンピューティング能力の高コストによって制限されているため、Midjourney に代表される多数のグラフィック サービスは、ビジネス モデルとして無料の付加価値を選択しています。 LCM により、モバイル クライアント、パーソナル コンピューターの CPU、ブラウザー (WebAssembly)、および CPU の計算能力が、将来の画像生成の計算能力要件を満たすために、より簡単に弾力的に拡張できるようになります。 Midjourney などの単純な有料画像処理サービスは、高品質の無料サービスに置き換えられます。 B サーバー側では、減少した生成コンピューティング パワー需要が、増加したトレーニング コンピューティング パワー需要に置き換えられます。 AI画像生成サービスにおけるコンピューティング能力の需要はピークと谷の間で大きく変動し、購入したサーバーのアイドル時間は通常50%を超えます。この機能により、米国のReplicateや中国のAlibaba Cloudなど、多数の機能コンピューティングGPU(サーバーレスGPU)の開発が活発化しました。 ハードウェア仮想化の面では、RuiyunやTencent Cloudなどの国内企業も画像モデルのトレーニングに関連する仮想デスクトップ製品を発売している。コンピューティング能力がエッジ、クライアント、またはより簡単に拡張可能な CPU コンピューティング能力に分散されるにつれて、AI 画像生成はさまざまなアプリケーション シナリオで普及し、画像モデルの微調整の需要が大幅に増加します。イメージング分野では、プロフェッショナルで使いやすい垂直モデルトレーニングサービスが、次の段階でクラウドベースの GPU コンピューティングパワーの主な消費者になるでしょう。 2. ヴィンセントビデオ 現在、Vincent Video の非常に高い制作コストにより、この技術の開発と普及が制限されており、消費者向けグラフィックス カードでは低速でフレームごとにレンダリングすることしかできません。 AnimateDiff WebUI プラグインによって表される多くのプロジェクトは、LCM のサポートを優先しており、より多くの人が Vincent Video のオープン ソース プロジェクトに参加できます。閾値が低くなれば、必然的に文生ビデオの普及と発展が加速するでしょう。 3分間の高速レンダリング: AnimateDiff Vid2Vid + LCM 3. リアルタイムレンダリング 速度の向上により、多数の新しいアプリケーションが生まれ、人々の想像力が絶えず広がりました。 RT-LCMとAR RealTime LCM を先駆けとして、コンシューマーグレードの GPU で 1 秒あたり約 10 フレームのリアルタイム ビデオ生成が初めて実現され、AR 分野に大きな影響を与えることは間違いありません。 現在、視野内のシーン全体を高解像度かつ低遅延でキャプチャして再描画するには、非常に高い計算能力が必要であるため、これまでの AR アプリケーションでは、主に新しいオブジェクトを追加し、特徴を抽出してから、一部のオブジェクトを低解像度で再描画することに重点が置かれていました。 LCM を使用すると、シーン全体をリアルタイムで再描画できるため、ゲーム、インタラクティブ ムービー、ソーシャル インタラクションなどのシナリオで無限の想像力を発揮できます。 将来、新しいゲームシーンを構築する必要はありません。AR グラスを装着するだけで、プレイヤーが探索できるネオンに照らされたサイバーパンクの未来のスタイルに、現在いる街が即座に変わります。将来のインタラクティブなホラー映画を観るときに、AR グラスを装着すると、家の中にある見慣れたものすべてがシーンにシームレスに統合され、寝室のドアの後ろに恐ろしいものが隠れるようになります。仮想と現実がシームレスに融合し、現実と夢を区別することがますます困難になります。そして、LCM がこのすべての根底にあるのかもしれません。 RT-LCM ビデオレンダリング インタラクション方法 - 想像したものが実現します Krea.aiとilumine.aiが初めて商品化したリアルタイム画像編集UIは、創作の敷居を改めて下げ、創造性の境界を広げ、より多くの人が細かい制御に基づいて最終的な絵画に対するリアルタイムのフィードバックを得ることができるようになりました。 Krea.ai リアルタイム画像編集 リアルタイム画像編集 モデリング ソフトウェア + LCM は 3D モデリングの新しい方向性を探求し、3D モデラーが WYSIWYG に基づいてさらに一歩進んで、考えを形にする能力を獲得できるようにします。 LCMリアルタイム空間モデリングレンダリング 手は人間にとって最も役に立たないものです。なぜなら、手は脳のスピードに決して追いつけないからです。見たものがそのまま手に入るというやり方では遅すぎます。想像したものがそのまま手に入るというのが、これからのクリエイティブな仕事の主流になるでしょう。 LCM により、初めて、表示効果がインスピレーションと創造性のスピードに追いつくことが可能になりました。新しいインタラクションの方法が次々と登場し、AIGC 革命の最終目標は創造性のコストと技術的閾値をゼロに近づけることです。業界全体において、優れたアイデアは不足から過剰へと変化します。 LCM は私たちを未来へと一歩前進させます。 |
>>: LLaMA 2 エンドツーエンド推論が利用可能になりました。中国チームより
私たちはほぼ毎日、人工知能と医療業界におけるその応用に関する最新の記事を読んでおり、医療機関などのク...
[51CTO.com クイック翻訳] 人工知能は現在、さまざまなハイテク分野で話題になっています。初...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
導入ゲーム業界は近年急速に発展しており、2020年第1四半期だけでも中国のゲーム市場の売上高は700...
シンプルな Java 暗号化アルゴリズムは次のとおりです。厳密に言えば、BASE64 は暗号化アルゴ...
[[204952]]ボロコプター、ドバイで無人空飛ぶ車のテストを開始ロイター通信は北京時間9月26日...
[[384945]]近年、人工知能 (AI) は強化学習アルゴリズムのサポートにより目覚ましい成果を...
生活の質は向上している一方で、人々の精神状態は悪化しています。 [[317751]]群衆の中にうつ病...
有名なフランス人プログラマー、ファブリス・ベラール氏は最近、普通のデスクトップコンピュータ(2,00...
ジェフ・ディーン氏は数万語に及ぶ長文の記事を公開し、過去1年間のGoogleのさまざまな分野での成果...
[[315528]] [51CTO.com クイック翻訳] ビジネスの発展を推進するために、AI(人...
2019年INFORMS年次総会が米国時間10月20日から23日までシアトルで開催されました。同総...