推論効率は ControlNet の 20 倍以上です。 Google、モバイルデバイスで利用可能な画像生成制御モデル「MediaPipe Diffusion」プラグインをリリース

推論効率は ControlNet の 20 倍以上です。 Google、モバイルデバイスで利用可能な画像生成制御モデル「MediaPipe Diffusion」プラグインをリリース

近年、拡散モデルはテキストから画像への生成において大きな成功を収め、画像生成品質の向上、推論パフォーマンスの向上、そして創造の拡張につながっています。

しかし、テキストのみで画像生成を制御すると、期待どおりの結果が得られないことがよくあります。たとえば、特定のキャラクターの姿勢や表情をテキストで指定することは困難です。

写真

最近、Google は MediaPipe Diffusion プラグインをリリースしました。これは、既存の事前トレーニング済み拡散モデルとその低ランク適応型 (LoRA) バリアントをサポートし、モバイル デバイス上で「制御可能なテキストから画像への生成」のための低コストのソリューションを実行できます。

背景

拡散モデルに基づく画像生成プロセスは、反復的なノイズ除去プロセスと考えることができます。

拡散モデルは、ノイズの多い画像から始めて、各ステップで徐々に画像のノイズを除去し、ターゲットコンセプトに一致する画像を生成します。テキストプロンプトを条件として採用することで、画像生成効果を大幅に向上させることができます。

テキストから画像への生成では、テキストの埋め込みがクロスアテンションレイヤーを介して画像生成モデルに接続されますが、オブジェクトの位置や姿勢など、テキストの手がかりでは説明が難しい情報がまだ残っています。

この問題を解決するために、研究者らは、拡散モデルに追加モデルを導入して、条件付き画像に制御情報を注入することを提案しました。

一般的に使用されるコントロール プロット方法は次のとおりです。

1. プラグアンドプレイは、入力画像から生成プロセスを逆にして初期ノイズ入力を導出するノイズ除去拡散暗黙モデル (DDIM) 反転法を使用し、次に拡散モデル (Stable Diffusion 1.5 の場合は 8 億 6000 万のパラメータ) を使用して入力画像から条件をエンコードします。

プラグ アンド プレイは、複製の拡散から自己注意を使用して空間特徴を抽出し、それをテキストから画像への拡散プロセスに挿入します。

2. ControlNet は、ゼロ初期化パラメータを持つ畳み込み層を介して接続された拡散モデル エンコーダーのトレーニング可能なコピーを作成し、デコーダー層に渡される条件情報をエンコードします。

3. T2I アダプターは、制御可能な生成で同様の結果を達成できるより小さなネットワーク (7,700 万パラメータ) であり、条件付き画像のみを入力として受け取り、その出力はすべての拡散反復で共有されます。

ただし、T2I アダプタ モデルはポータブル モバイル デバイス用に設計されていません。

MediaPipe 拡散プラグイン

条件付き生成をより効率的、カスタマイズ可能、スケーラブルにするために、研究者は MediaPipe 拡散プラグインを別のネットワークとして設計しました。

1. プラグ可能: 事前にトレーニングされたベースモデルと簡単に接続できます。

2. 最初からトレーニング: ベースモデルの事前トレーニング済みの重みを使用しません。

3. 移植性: 基本モデルはモバイル デバイスで実行でき、元のモデルと比較して推論コストはごくわずかです。

写真

プラグアンドプレイ、ControlNet、T2I アダプター、MediaPipe 拡散プラグインの比較、*数値は選択したモデルによって異なります

簡単に言うと、MediaPipe 拡散プラグインは、ポータブル デバイスで実行できるテキストから画像への生成モデルです。条件付き画像からマルチスケールの特徴を抽出し、対応する階層型拡散モデルのエンコーダーに追加します。テキストから画像への拡散モデルに接続すると、プラグイン モデルは画像生成に追加の条件付き信号を提供できます。

プラグイン ネットワークは、600 万個のパラメーターのみを持つ軽量モデルであり、MobileNetv2 の深い畳み込みと逆ボトルネックを使用して、モバイル デバイスでの高速推論を実現します。

写真

MediaPipe 拡散モデル プラグインは、出力を事前トレーニング済みのテキストから画像への生成モデルにプラグインできる別のネットワークであり、抽出された特徴は拡散モデルの関連するダウンサンプリング レイヤーに適用されます (青)。

ControlNet とは異なり、研究者はすべての拡散反復に同じ制御関数を挿入したため、画像生成プロセスではプラグインを 1 回実行するだけで済み、計算の労力を節約できます。

以下の例からわかるように、制御効果は各拡散ステップで有効であり、初期の反復でも生成プロセスを制御できます。反復を増やすと、画像とテキストプロンプトの位置合わせが改善され、より多くの詳細が生成されます。

MediaPipe 拡散プラグインを使用した生成プロセスのデモンストレーション

この研究では、研究者らは、MediaPipe 顔ランドマーク、MediaPipe 全体的ランドマーク、深度マップ、Canny エッジのプラグインを備えた拡散ベースのテキストから画像への生成モデルを開発しました。

各タスクでは、非常に大規模な画像テキスト データセットから約 100,000 枚の画像が選択され、対応する MediaPipe ソリューションを使用して制御信号が計算され、プラグインは PaLI に最適化された記述を使用してトレーニングされました。

フェイスランドマーク

MediaPipe Face Landmarker タスクは、顔の 478 個のランドマークを計算します (注意して)。

研究者たちは、MediaPipe の描画ユーティリティを使用して、顔の輪郭、口、目、眉毛、虹彩を含む人間の顔をレンダリングし、さまざまな色を使用して表現しました。

次の例は、顔のメッシュとプロンプトを調整することによってランダムに生成されたサンプルを示しています。対照的に、ControlNet とプラグインはどちらも、指定された条件下でテキストから画像への生成を制御できます。

写真

ControlNet と比較した、テキストから画像を生成するための顔ランドマーク プラグイン。

ホリスティックランドマーク

MediaPipe Holistic Landmark タスクには、体のポーズ、手、顔のメッシュのランドマークが含まれており、全体的な特徴を調整することでさまざまな様式化された画像を生成できます。

テキストから画像を生成するための総合的なランドマーク プラグイン。

深さ

ディーププラグインを使用したテキストから画像への生成。

賢いエッジ

画像にテキストを生成する Canny-edge プラグイン。

評価する

研究者らは、モデルのパフォーマンスを実証するために、顔ランドマーク プラグインの定量評価を実施しました。評価データセットには 5,000 枚の人間の画像が含まれており、使用された評価指標にはフレシェ開始距離 (FID) と CLIP スコアが含まれます。

ベースモデルは、事前学習済みのテキストから画像への拡散モデルStable Diffusion v1.5を使用します。

FID、CLIP、推論時間の定量的比較

実験結果の FID および CLIP スコアから判断すると、ControlNet および MediaPipe 拡散プラグインによって生成されたサンプルの品質は、ベース モデルの品質よりもはるかに優れています。

ControlNet とは異なり、プラグイン モデルは生成された画像ごとに 1 回だけ実行すればよく、ノイズ除去の各ステップで実行する必要がないため、推論時間は 2.6% しか増加しません。

研究者らは、サーバーマシン(Nvidia V100 GPU を使用)とモバイルデバイス(Galaxy S23)で 3 つのモデルのパフォーマンスを測定しました。サーバーでは、3 つのモデルすべてが 50 の拡散ステップを使用して実行され、モバイルデバイスでは、MediaPipe 画像生成アプリケーションを使用して 20 の拡散ステップが実行されました。

ControlNet と比較すると、MediaPipe プラグインはサンプル品質を維持しながら推論効率において明らかな利点を示します。

さまざまなモバイルデバイスでのプラグインの推論時間 (ミリ秒)

要約する

この研究で研究者らは、条件付き画像から抽出した特徴を拡散モデルに注入して画像生成プロセスを制御する、モバイルフレンドリーな条件付きテキストから画像への生成プラグインである MediaPipe を提案しました。

ポータブルプラグインは、サーバーまたはデバイス上で実行される事前トレーニング済みの拡散モデルに接続できるため、テキストから画像への生成とプラグインを完全にデバイス上で実行することで、生成AIをより柔軟に適用できます。

<<:  トランスフォーマーのメンバー8人全員がGoogleに亡命!最後の共著者は今月末に自身のビジネスを始めるために退社する。

>>:  清華大学と中国気象局の大規模モデルがネイチャー誌に掲載:世界レベルの問題を解決、「幽霊天気」の予報時間が初めて3時間に到達

ブログ    
ブログ    
ブログ    

推薦する

米国のテクノロジー業界が冬を乗り切る中、プログラマーたちは仕事を維持するために率先して給与を削減している。 35歳の会社員:給料をもう少し下げてもいい

テクノロジー業界は歴史的に平均給与が最も高い業界の一つであり、リストのトップにランクされることも少な...

...

テキスト認識と表認識、このライブラリは直接呼び出します

PaddleOCR は、PaddlePaddle ディープラーニング フレームワークに基づいて開発さ...

...

通信ネットワーク運用イベントのナレッジグラフの構築

1. 通信ネットワーク運用シナリオまず、通信ネットワーク運用の背景についてご紹介します。通信ネットワ...

...

Apple の生成 AI ツール Apple GPT: 遅れて登場したが、他の利点もある

Appleは、ChatGPTやGoogleのBardのような大規模言語モデル(LLM)と競合する独自...

ジニ不純度: 決定木の構築にジニ不純度をどのように活用するか?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

...

スタンフォード大学:大きなモデルは間違った方向に「転がっている」のか?コンテキスト ウィンドウが長くなるほど、モデルは愚かになります。

言語モデルでは、コンテキスト ウィンドウは、特定のコンテキストに関連するテキストを理解して生成するた...

自動運転のフードデリバリーが利用可能に、Meituanがすぐにあらゆるものを配達

北京、首鋼冬季オリンピック公園。最近、「MAI Shop」という小売店がここにオープンし、すぐにネッ...

...

...

テンセントのロボットファミリーに新しいメンバーが加わりました。「新年の挨拶をして紅包をお願いする」ことができるロボット犬を見たことがありますか?

テンセントは3月2日、自社で完全に開発したソフトウェアとハ​​ードウェアを搭載した初のマルチモーダル...

4Paradigm、ビジネス担当者がAIアプリケーションを開発できるようにする新しいAIプラットフォームツールをリリース

9月18日、2018年世界人工知能会議中。 Fourth Paradigm は、自動機械学習プラット...