一枚4090枚、1秒間に二次元の女の子の写真100枚！カリフォルニア大学バークレー校などの新モデルがGithubを席巻、スループットが60倍近く増加

1 枚の画像を生成するのに 10 ミリ秒かかり、1 分間に 6,000 枚の画像を生成します。これはどういう意味ですか?

下の写真では、AI の超能力を深く感じることができます。

2D の女の子の画像を生成するためのプロンプトに新しい要素を追加し続けると、さまざまなスタイルの写真が一瞬にして表示されます。

このような驚異的なリアルタイム画像生成速度は、カリフォルニア大学バークレー校、日本の筑波大学などの研究者によって提案されたストリーム拡散法の結果です。

新しいソリューションは、100fps を超えるリアルタイムのインタラクティブな画像生成を可能にする拡散モデリングワークフローです。

論文アドレス: https://arxiv.org/abs/2312.12491

StreamDiffusion がオープンソース化された後、すぐに GitHub リストを独占し、3.7k のスターを獲得しました。

StreamDiffusion は、シーケンスノイズ除去の代わりに革新的なバッチ処理戦略を採用しており、従来の方法よりも約 1.5 倍高速です。さらに、著者らが提案した新しい残差分類器フリーガイダンス (RCFG) アルゴリズムは、従来の分類器フリーガイダンスよりも 2.05 倍高速です。

最も注目すべきは、この新しい方法では、RTX 4090 で 91.07fps の画像間生成速度を達成できることです。

将来的には、メタバース、ビデオゲームのグラフィックレンダリング、ライブビデオストリーミングなどのさまざまなシナリオにおいて、StreamDiffusion はこれらのアプリケーションの高スループット要件を満たすデータを迅速に生成します。

特に、リアルタイム画像生成は、ゲーム開発やビデオレンダリングに携わる人々に強力な編集および作成機能を提供できます。

リアルタイム画像生成用に設計

現在、さまざまな分野での拡散モデルの応用には、効率的な人間とコンピューターの相互作用を確保するために、高スループットで低レイテンシの拡散パイプラインが必要です。

典型的な例としては、拡散モデリングを使用して、ユーザーの入力にスムーズに応答できる仮想キャラクター VTuber を作成することが挙げられます。

高スループットとリアルタイムのインタラクション機能を向上させるために、現在の研究では、ノイズ除去の反復回数を 50 回から数回または 1 回に減らすことに重点を置いています。

一般的な戦略は、多段階拡散モデルをいくつかの段階に細分化し、常微分方程式 (ODE) を使用して拡散プロセスを再定式化することです。効率性を向上させるために、拡散モデルを定量化した人もいます。

最新の論文では、研究者らは直交方向から始めて、インタラクティブな画像生成の高スループットのために設計されたリアルタイム拡散パイプラインである StreamDiffusion を紹介しました。

既存のモデル設計作業は、StreamDiffusion と統合できます。さらに、高いスループットを維持しながら N ステップのノイズ除去拡散モデルを使用することもできるため、ユーザーにはより柔軟な選択肢が提供されます。

リアルタイム画像生成 | コラム 1 および 2: AI 支援によるリアルタイム描画の例、コラム 3: 3D アバターからの 2D イラストのリアルタイムレンダリング。 4列目と5列目: ライブカメラフィルター

具体的にはどのように実現されるのでしょうか?

StreamDiffusionアーキテクチャ

StreamDiffusion は、スループットを向上させるために設計された新しい拡散パイプラインです。

いくつかの主要な部分から構成されます:

ストリームバッチ処理戦略、残差分類器フリーガイダンス (RCFG)、入出力キュー、確率的類似性フィルター、事前計算手順、マイクロオートエンコーダーなどのモデル高速化ツール。

バッチノイズ除去

拡散モデルでは、ノイズ除去ステップが順番に実行されるため、U-Net の処理時間はステップ数に比例して増加します。

ただし、忠実度の高い画像を生成するには、ステップ数を増やす必要があります。

インタラクティブな拡散における高遅延生成の問題を解決するために、研究者は Stream Batch と呼ばれる方法を提案しました。

下の図に示すように、最新の方法では、1 つの画像が完全にノイズ除去されるまで待ってから次の入力画像を処理するのではなく、各ノイズ除去ステップの後に次の入力画像が受け入れられます。

これにより、各画像のノイズ除去手順がインターリーブされたノイズ除去バッチが形成されます。

研究者は、これらのインターリーブされたノイズ除去手順を 1 つのバッチにまとめることで、U-Net を使用して連続した入力のバッチを効率的に処理することができました。

時間ステップ t でエンコードされた入力画像は、時間ステップ t+n で生成およびデコードされます。ここで、n はノイズ除去ステップの数です。

残差分類器フリーブートストラッピング (RCFG)

共通分類器フリーガイド (CFG) は、無条件または否定された条件項と元の条件項の間でベクトル計算を実行するガイドです。元の条件の効果を高めるアルゴリズム。

これには、キューの効果を強化するなどの利点があります。

ただし、負の条件付き残差ノイズを計算するには、各入力潜在変数を負の条件付き埋め込みとペアにして、各推論時に U-Net に渡す必要があります。

この問題に対処するために、著者らは革新的な Residual Classifier-Free Guidance (RCFG) を導入しました。

この方法では、仮想残差ノイズを使用して負の条件を近似するため、負の条件ノイズはプロセスの初期段階でのみ計算でき、負の条件を埋め込む際の追加の U-Net 推論の計算コストが大幅に削減されます。

入力キューと出力キュー

入力画像をパイプラインで管理可能なテンソルデータ形式に変換すること、また逆に、デコードされたテンソルを出力画像に戻すことは、どちらも無視できないほどの追加処理時間を必要とします。

この画像処理時間をニューラルネットワーク推論パイプラインに追加しないようにするために、画像の前処理と後処理を異なるスレッドに分離して並列処理を実現します。

さらに、入力テンソルキューを使用することで、デバイス障害や通信エラーなどによる入力画像の一時的な中断にも対応でき、スムーズなストリーミングを実現します。

確率的類似性フィルタ

次の図は、VAE と U-Net を含むコア拡散推論パイプラインを示しています。

ノイズ除去バッチと事前計算されたヒント埋め込みキャッシュ、サンプリングされたノイズキャッシュ、およびスケジューラ値キャッシュを導入することで、推論パイプラインの速度が向上し、リアルタイムの画像生成が可能になります。

確率的類似性フィルタリング (SSF) は、GPU の電力消費を節約するように設計されており、拡散モデルパイプラインを動的にシャットダウンできるため、高速で効率的なリアルタイム推論を実現できます。

事前計算

U-Net アーキテクチャでは、入力としての潜在変数と条件付き埋め込みの両方が必要です。

通常、条件付き埋め込みは「キュー埋め込み」から派生し、フレーム間で一定のままになります。

これを最適化するため、研究者はヒント埋め込みを事前に計算し、キャッシュに保存します。インタラクティブモードまたはストリーミングモードでは、この事前計算されたヒント埋め込みキャッシュが呼び出されます。

U-Net では、事前に計算されたキュー埋め込みに基づいて各フレームのキーと値が計算されます。

そのため、研究者らは、これらのキーと値のペアを再利用できるように保存するように U-Net を変更しました。入力プロンプトが更新されるたびに、研究者は U-Net 内でこれらのキーと値のペアを再計算して更新します。

モデルの加速と小さなオートエンコーダ

速度を最適化するために、静的なバッチサイズと固定入力サイズ (高さと幅) を使用するようにシステムを構成します。

このアプローチにより、計算グラフとメモリ割り当てが特定の入力サイズに合わせて最適化され、処理が高速化されます。

ただし、異なる形状 (つまり、高さや幅が異なる) の画像を処理する必要がある場合は、異なるバッチサイズ (ノイズ除去手順のバッチサイズを含む) を使用する必要があることを意味します。

実験的評価

ノイズ除去バッチの定量評価

図 8 は、バッチノイズ除去と元の順次 U-Net サイクルの効率の比較を示しています。

バッチノイズ除去戦略を実装すると、研究者は処理時間が大幅に改善されることを発見しました。従来の U-Net サイクルの連続的なノイズ除去ステップと比較すると、時間が半分に短縮されます。

ニューラルモジュールアクセラレーションツール TensorRT を適用しても、研究者が提案したストリーミングバッチ処理により、さまざまなノイズ除去ステップで元の順次拡散パイプラインの効率を大幅に向上できます。

さらに、研究者らは最新の手法を、Huggingface Diffusers が開発した AutoPipeline-ForImage2Image パイプラインと比較しました。

平均推論時間の比較は表 1 に示されており、最新のパイプラインでは大幅な高速化が見られます。

TensorRT を使用すると、StreamDiffusion は 10 のノイズ除去ステップを実行するときに 13 倍の高速化を実現します。単一のノイズ除去ステップが含まれる場合、速度は最大 59.6 倍向上します。

TensorRT がなくても、StreamDiffusion は、シングルステップのノイズ除去を使用する場合は AutoPipeline の 29.7 倍の改善を達成し、10 ステップのノイズ除去を使用する場合は 8.3 倍の改善を達成します。

表2は、RCFGと従来のCFGを使用したフロー拡散パイプラインの推論時間を比較したものです。

シングルステップのノイズ除去の場合、Onetime-Negative RCFG と従来の CFG の推論時間はほぼ同じです。

したがって、ワンタイム RCFG と従来の CFG の推論時間は、シングルステップのノイズ除去では同様です。ただし、ノイズ除去のステップ数が増えるにつれて、従来の CFG から RCFG への推論速度の向上がより顕著になります。

ノイズ除去の 5 番目のステップでは、Self-Negative RCFG は従来の CFG よりも 2.05 倍高速で、Onetime-Negative RCFG は従来の CFG よりも 1.79 倍高速です。

次に、研究者らは、図 6 と 7 に示すように、提案された SSF のエネルギー消費量の包括的な評価を実施しました。

これらの図は、周期的な静的特徴を持つシーンを含む入力ビデオに SSF (しきい値 η を 0.98 に設定) を適用した場合の GPU 使用パターンを示しています。

比較分析により、入力画像が主に類似性の高い静止画像である場合、SSF を使用すると GPU 使用量を大幅に削減できることが示されています。

アブレーション研究

さまざまなノイズ除去ステップにおけるさまざまなモジュールの平均推論時間への影響を表 3 に示します。画像から画像への生成プロセスにおいて、さまざまなモジュールの削減が検証されていることがわかります。

定性的な結果

図10は、残差分類器フリーガイダンス（RCFG）を使用して生成された画像の高速条件調整の位置合わせプロセスを示しています。

いかなる形式の CFG も使用せずに生成された画像では、特に色の変更や存在しない要素の追加などの面で、効果的に実装されていない弱い位置合わせの手がかりが示されます。

対照的に、CFG または RCFG を使用すると、髪の色を変更したり、体のパターンを追加したり、メガネなどのオブジェクトを含めたりなど、元の画像を変更する機能が強化されます。注目すべきは、RCFG を使用すると、標準の CFG と比較してキューの影響を強化できることです。

最後に、標準的なテキストから画像への生成結果の品質を図 11 に示します。

sd-turbo モデルを使用すると、図 11 に示すような高品質の画像を 1 つのステップで生成できます。

GPU: RTX 4090、CPU: Core i9-13900K、OS: Ubuntu 22.04.3 LTS の環境で、研究者らが提案するフロー拡散パイプラインと sd-turbo モデルを使用して画像を生成すると、100fps を超える速度でこのような高品質の画像を生成することが可能です。

ネットユーザーがきっかけで、二次元の女の子が大量に登場した

最新プロジェクトのコードはオープンソース化されており、Github で 3.7k 個のスターを獲得しています。

プロジェクトアドレス: https://github.com/cumulo-autumn/StreamDiffusion

多くのネットユーザーがすでに自分だけの二次元嫁を作り始めている。

リアルタイムアニメーションもあります。

興味があれば、ぜひ自分でやってみてはいかがでしょうか？

<<:

>>: 調査によると、ChatGPTが提供するアドバイスは専門家が提供するアドバイスよりも包括的で役立つことがわかっています。

一枚4090枚、1秒間に二次元の女の子の写真100枚！カリフォルニア大学バークレー校などの新モデルがGithubを席巻、スループットが60倍近く増加

リアルタイム画像生成用に設計

StreamDiffusionアーキテクチャ

実験的評価

[強く推奨] 史上最も包括的な IT アーキテクト技術知識マップ 34 選

人工知能は将来言語をどのように変えるのでしょうか?

Yann LeCun 氏は衝撃的な発言をしました。「ディープラーニングは死んだ、微分可能プログラミング万歳！」

テクノロジーはどのようにして人々を怠惰にするのでしょうか?

アルゴリズムエンジニアのメリット: 超実践的技術ロードマップ

タオバオライブストリーミングトラフィックと供給間のエンドツーエンドの連携の調査

マシンビジョンにはどのようなハードウェアが含まれていますか?

人工知能のコミュニケーション：コンテキストは業界マネージャーにとって成功への道

2023 年に最も影響力のある 10 のオープンソース大規模言語モデル

ChatGPT は検索エンジンに取って代わることができますか?

推薦する

ICML賞を受賞したばかりの機械学習の専門家マックス・ウェリング氏がマイクロソフトに入社し、分子シミュレーションに注力

人工知能はブロックチェーンにどのような影響を与えるのでしょうか?

AI医薬品製造の全体像を理解するための1つの記事：年間売上高300億元、明確な3つの階層

人工知能、遺伝子編集、ノーベル賞の画期的な進歩により、80歳でも40歳に見えるようになる

時速22キロのスピードと50キロの荷重で、四足の車輪付きロボット「スイスマイル」は変形することを学んだ。

AIシミュレーターが物理シミュレーションで新たなSOTAを達成！

OpenAI CEO が自ら実演します!カスタムコマンドを使用して独自のカスタマイズされた AI アシスタントをトレーニングするためのガイド

サム・アルトマンは大胆な発言をした。「OpenAIにはGPT-5を訓練するのに十分な資金があり、人間はAGIの閾値に近づいている」

RedditユーザーがAppleのCSAMツールをリバースエンジニアリングし、アルゴリズムがすでに存在していることを発見

2022 年の 9 つの新しいテクノロジートレンドと雇用機会

AIが人々の恋愛探しをどうサポートするか

弱電産業におけるAIの応用動向