推論効率は ControlNet の 20 倍以上です。 Google、モバイルデバイスで利用可能な画像生成制御モデル「MediaPipe Diffusion」プラグインをリリース

推論効率は ControlNet の 20 倍以上です。 Google、モバイルデバイスで利用可能な画像生成制御モデル「MediaPipe Diffusion」プラグインをリリース

近年、拡散モデルはテキストから画像への生成において大きな成功を収め、画像生成品質の向上、推論パフォーマンスの向上、そして創造の拡張につながっています。

しかし、テキストのみで画像生成を制御すると、期待どおりの結果が得られないことがよくあります。たとえば、特定のキャラクターの姿勢や表情をテキストで指定することは困難です。

写真

最近、Google は MediaPipe Diffusion プラグインをリリースしました。これは、既存の事前トレーニング済み拡散モデルとその低ランク適応型 (LoRA) バリアントをサポートし、モバイル デバイス上で「制御可能なテキストから画像への生成」のための低コストのソリューションを実行できます。

背景

拡散モデルに基づく画像生成プロセスは、反復的なノイズ除去プロセスと考えることができます。

拡散モデルは、ノイズの多い画像から始めて、各ステップで徐々に画像のノイズを除去し、ターゲットコンセプトに一致する画像を生成します。テキストプロンプトを条件として採用することで、画像生成効果を大幅に向上させることができます。

テキストから画像への生成では、テキストの埋め込みがクロスアテンションレイヤーを介して画像生成モデルに接続されますが、オブジェクトの位置や姿勢など、テキストの手がかりでは説明が難しい情報がまだ残っています。

この問題を解決するために、研究者らは、拡散モデルに追加モデルを導入して、条件付き画像に制御情報を注入することを提案しました。

一般的に使用されるコントロール プロット方法は次のとおりです。

1. プラグアンドプレイは、入力画像から生成プロセスを逆にして初期ノイズ入力を導出するノイズ除去拡散暗黙モデル (DDIM) 反転法を使用し、次に拡散モデル (Stable Diffusion 1.5 の場合は 8 億 6000 万のパラメータ) を使用して入力画像から条件をエンコードします。

プラグ アンド プレイは、複製の拡散から自己注意を使用して空間特徴を抽出し、それをテキストから画像への拡散プロセスに挿入します。

2. ControlNet は、ゼロ初期化パラメータを持つ畳み込み層を介して接続された拡散モデル エンコーダーのトレーニング可能なコピーを作成し、デコーダー層に渡される条件情報をエンコードします。

3. T2I アダプターは、制御可能な生成で同様の結果を達成できるより小さなネットワーク (7,700 万パラメータ) であり、条件付き画像のみを入力として受け取り、その出力はすべての拡散反復で共有されます。

ただし、T2I アダプタ モデルはポータブル モバイル デバイス用に設計されていません。

MediaPipe 拡散プラグイン

条件付き生成をより効率的、カスタマイズ可能、スケーラブルにするために、研究者は MediaPipe 拡散プラグインを別のネットワークとして設計しました。

1. プラグ可能: 事前にトレーニングされたベースモデルと簡単に接続できます。

2. 最初からトレーニング: ベースモデルの事前トレーニング済みの重みを使用しません。

3. 移植性: 基本モデルはモバイル デバイスで実行でき、元のモデルと比較して推論コストはごくわずかです。

写真

プラグアンドプレイ、ControlNet、T2I アダプター、MediaPipe 拡散プラグインの比較、*数値は選択したモデルによって異なります

簡単に言うと、MediaPipe 拡散プラグインは、ポータブル デバイスで実行できるテキストから画像への生成モデルです。条件付き画像からマルチスケールの特徴を抽出し、対応する階層型拡散モデルのエンコーダーに追加します。テキストから画像への拡散モデルに接続すると、プラグイン モデルは画像生成に追加の条件付き信号を提供できます。

プラグイン ネットワークは、600 万個のパラメーターのみを持つ軽量モデルであり、MobileNetv2 の深い畳み込みと逆ボトルネックを使用して、モバイル デバイスでの高速推論を実現します。

写真

MediaPipe 拡散モデル プラグインは、出力を事前トレーニング済みのテキストから画像への生成モデルにプラグインできる別のネットワークであり、抽出された特徴は拡散モデルの関連するダウンサンプリング レイヤーに適用されます (青)。

ControlNet とは異なり、研究者はすべての拡散反復に同じ制御関数を挿入したため、画像生成プロセスではプラグインを 1 回実行するだけで済み、計算の労力を節約できます。

以下の例からわかるように、制御効果は各拡散ステップで有効であり、初期の反復でも生成プロセスを制御できます。反復を増やすと、画像とテキストプロンプトの位置合わせが改善され、より多くの詳細が生成されます。

MediaPipe 拡散プラグインを使用した生成プロセスのデモンストレーション

この研究では、研究者らは、MediaPipe 顔ランドマーク、MediaPipe 全体的ランドマーク、深度マップ、Canny エッジのプラグインを備えた拡散ベースのテキストから画像への生成モデルを開発しました。

各タスクでは、非常に大規模な画像テキスト データセットから約 100,000 枚の画像が選択され、対応する MediaPipe ソリューションを使用して制御信号が計算され、プラグインは PaLI に最適化された記述を使用してトレーニングされました。

フェイスランドマーク

MediaPipe Face Landmarker タスクは、顔の 478 個のランドマークを計算します (注意して)。

研究者たちは、MediaPipe の描画ユーティリティを使用して、顔の輪郭、口、目、眉毛、虹彩を含む人間の顔をレンダリングし、さまざまな色を使用して表現しました。

次の例は、顔のメッシュとプロンプトを調整することによってランダムに生成されたサンプルを示しています。対照的に、ControlNet とプラグインはどちらも、指定された条件下でテキストから画像への生成を制御できます。

写真

ControlNet と比較した、テキストから画像を生成するための顔ランドマーク プラグイン。

ホリスティックランドマーク

MediaPipe Holistic Landmark タスクには、体のポーズ、手、顔のメッシュのランドマークが含まれており、全体的な特徴を調整することでさまざまな様式化された画像を生成できます。

テキストから画像を生成するための総合的なランドマーク プラグイン。

深さ

ディーププラグインを使用したテキストから画像への生成。

賢いエッジ

画像にテキストを生成する Canny-edge プラグイン。

評価する

研究者らは、モデルのパフォーマンスを実証するために、顔ランドマーク プラグインの定量評価を実施しました。評価データセットには 5,000 枚の人間の画像が含まれており、使用された評価指標にはフレシェ開始距離 (FID) と CLIP スコアが含まれます。

ベースモデルは、事前学習済みのテキストから画像への拡散モデルStable Diffusion v1.5を使用します。

FID、CLIP、推論時間の定量的比較

実験結果の FID および CLIP スコアから判断すると、ControlNet および MediaPipe 拡散プラグインによって生成されたサンプルの品質は、ベース モデルの品質よりもはるかに優れています。

ControlNet とは異なり、プラグイン モデルは生成された画像ごとに 1 回だけ実行すればよく、ノイズ除去の各ステップで実行する必要がないため、推論時間は 2.6% しか増加しません。

研究者らは、サーバーマシン(Nvidia V100 GPU を使用)とモバイルデバイス(Galaxy S23)で 3 つのモデルのパフォーマンスを測定しました。サーバーでは、3 つのモデルすべてが 50 の拡散ステップを使用して実行され、モバイルデバイスでは、MediaPipe 画像生成アプリケーションを使用して 20 の拡散ステップが実行されました。

ControlNet と比較すると、MediaPipe プラグインはサンプル品質を維持しながら推論効率において明らかな利点を示します。

さまざまなモバイルデバイスでのプラグインの推論時間 (ミリ秒)

要約する

この研究で研究者らは、条件付き画像から抽出した特徴を拡散モデルに注入して画像生成プロセスを制御する、モバイルフレンドリーな条件付きテキストから画像への生成プラグインである MediaPipe を提案しました。

ポータブルプラグインは、サーバーまたはデバイス上で実行される事前トレーニング済みの拡散モデルに接続できるため、テキストから画像への生成とプラグインを完全にデバイス上で実行することで、生成AIをより柔軟に適用できます。

<<:  トランスフォーマーのメンバー8人全員がGoogleに亡命!最後の共著者は今月末に自身のビジネスを始めるために退社する。

>>:  清華大学と中国気象局の大規模モデルがネイチャー誌に掲載:世界レベルの問題を解決、「幽霊天気」の予報時間が初めて3時間に到達

ブログ    
ブログ    

推薦する

突如、Stable Diffusion 3がリリースされました!ソラと同じアーキテクチャですが、すべてがよりリアルです

1年以上の開発期間を経て、前世代に比べて3つの主要な機能に進化しました。さあ、効果を直接確かめてみま...

...

AI と新しい小売業が出会ったとき、両者は力を合わせて無敵になれるのでしょうか?

[51CTO.com オリジナル記事] 2018 年に最も人気のある 2 つの単語はどれでしょうか...

...

...

顔認識を禁止した後、サンフランシスコは検察官の事件処理を支援するためにAIを活用

最近、海外メディアの報道によると、サンフランシスコ市は7月1日に導入予定の「偏見削減ツール」を発表し...

Xing Bo 氏のチームの LLM360 は、大規模なモデルを真に透明化する総合的なオープンソース プロジェクトです。

オープンソース モデルは、数だけでなくパフォーマンスも増加しており、活発な活力を示しています。チュー...

AIが人間社会に与える影響

今後 25 年間は、既存の制御可能かつプログラム可能ないわゆる「人工知能」を活用して、人類が生物学の...

...

海雲傑迅は人工知能教育分野で総合的なサービスを提供するAI Goを立ち上げようとしている

[51CTO.com オリジナル記事] 今、業界で人気のテクノロジーは何ですか?それは間違いなく人工...

...

...

...

...

AR技術が携帯電話業界のブレークスルーとなる

[51CTO.comからのオリジナル記事] スマートフォンの開発はハードウェアの革新においてボトルネ...