必要なパラメータはわずか1%で、その効果はControlNetを上回る。新しいAI塗装制御マスターが登場

必要なパラメータはわずか1%で、その効果はControlNetを上回る。新しいAI塗装制御マスターが登場

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

「新AI塗装ディテールコントロールマスター」 ControlNet-XSが登場!

重要な点は、パラメータが元の ControlNet の1%に過ぎないことです。

ケーキのフレーバーは自由に切り替えることができます:

△左の写真は改造前

人の服装を変えることも簡単です:

上の写真と同じスタイルで、ボディの形状はそのままに、芸術的な雰囲気が溢れています。

自然の景色を楽しみながら、四季を自由に楽しむこともできます。

そして、このフクロウは、生き物から直接彫刻に変身しました。

これほど小さなパラメータでこのような効果を達成したことに、ネットユーザーは驚き、論文を読むのが待ちきれないと語りました。

ControlNet-XSはハイデルベルク大学のコンピュータビジョン研究所によって開発されました。現在のところ、関連する論文や事前トレーニング済みモデルはまだ公開されていません。

しかし研究者らは、ControlNet-XS FIDスコアはControlNetよりも大幅に優れていると述べています。

Stable Diffusion-XL と Stable Diffusion 2.1 を制御するコードは、まもなくオープンソース化される予定です。

新世代コントロールマスター

まずはStableDiffusion-XLの制御について見てみましょう。

研究者は、さまざまなサイズの制御モデルを評価した結果、制御モデルは 26 億パラメータの StableDiffusion-XL ベース ネットワークと同じサイズである必要がないことを発見しました。

400M、104M、48M パラメータの ControlNet-XS 制御も明らかです。

深度マップはより直感的な表示を提供します。画像コンテンツの距離と深度に応じて、深度マップは正確な色深度を表示します。

研究者は行ごとに異なるシード値を設定しましたが、列ごとに同じシード値を設定したことに注意する必要があります。

さらに、オブジェクトの境界と輪郭を明確に表示する Canny エッジ検出マップもあります。

StableDiffusion の制御のために、研究者らは 491M、55M、および 14M パラメータを持つ 3 つのバージョンの ControlNet-XS を評価しました。

結果は、パラメータの 1.6% (865M) でも生成プロセスを確実に制御できることを示しています。

それで、これはどのように行われるのでしょうか?

ゼロからのトレーニング

オリジナルの ControlNet は、StableDiffusionベース モデルの U-Net エンコーダーのコピーであるため、エッジ マップなどの追加のガイダンス信号を含むベース モデルと同じ入力を受け取ります。

トレーニングされた ControlNet の中間出力は、ベース モデルのデコーダー レイヤーの入力に追加されます。 ControlNet のトレーニング プロセス全体を通じて、ベース モデルの重みは固定されたままになります。

ControlNet-XS の研究者は、このアプローチには問題があり、ControlNet をそれほど大きくする必要はないと考えています。

最初は、一連のステップで反復的に生成される安定拡散最終出力画像です。各ステップは、U-Net ネットワーク構造のエンコーダー部分とデコーダー部分で実行されます。

各反復におけるベース モデルと制御モデルの入力は、前のステップで生成された画像です。制御モデルは制御イメージも受信します。

問題は、エンコーダー フェーズでは両方のモデルが独立して実行されるのに対し、制御モデルからのフィードバックはベース モデルのデコード フェーズでのみ入力されることです。

全体として、結果として、修正/制御メカニズムが遅延されます

つまり、ControlNet は、基本モデルのエンコーダーがどのような「エラー」を起こすかを事前に予測しながら、修正/制御という2 つのタスクを実行する必要があります。

画像生成と制御には同様のモデル容量が必要であることを暗示することで、ControlNet の重みをベースモデルの重みで初期化し、その後微調整するのが自然です。

ControlNet-XSに関しては、設計が基本モデルとは異なり、 ControlNet-XSの重みはゼロからトレーニングされており、遅延フィードバックの問題が解決されていると研究者らは述べています。

上図に示すように、ベースモデルのエンコーダーから制御エンコーダー (A) への接続を追加することで、修正プロセスがベースモデルの生成プロセスに迅速に適応できるようにするアプローチです。しかし、ベースモデルのエンコーダーはまだブートストラップされていないため、遅延は完全には解消されません。

そのため、研究者はControlNet-XSからベースモデルエンコーダーへの接続を追加し、生成プロセス全体に直接影響を与えました(B)。

さらに、ミラー化されたデコード アーキテクチャの使用が ControlNet 設定 (C) で有用かどうかを評価しました。

最後に、研究者らは、Canny エッジとオリジナルの ControlNet によってガイドされた 3 つの異なるバリアント (A、B、C) の FID スコア パフォーマンスを COCO2017 検証セットで評価しました。

その結果、すべてのバリアントにおいて、元の ControlNet パラメータのほんの一部しか使用せずに大幅な改善が見られました。

その後、研究者らは、Canny エッジ マップと深度マップをガイドとして使用してバリアント B を考案し、それぞれ StableDiffusion2.1 と StableDiffusion-XL 用にサイズの異なる 3 つのモデルをトレーニングしました。

次のステップは、関連する論文、コード、事前トレーニング済みモデルが公開されるのを待つことです〜

プロジェクトアドレス: https://vislearn.github.io/ControlNet-XS/

<<:  ノーベル賞を予約しますか? DeepMind の創設者が「ノーベル賞」ラスカー賞を受賞、AlphaFold が「科学のための AI」のベンチマークに

>>:  GPT-4は「逆転の呪い」から逃れられない!新しい研究で判明:大規模モデルには推論上の欠陥がある:「AはB」とわかっていても、「BはA」とは限らない

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

再トレーニングなしでモデルを6倍圧縮:数学者チームが新しい量子化法を提案

RUDN大学の数学者チームは、再トレーニングに余分なリソースを費やすことなく、ニューラルネットワーク...

今後10年間の主要な投資の方向性を予測して、あなたは未来に向けて準備ができていますか?

古代から今日のモバイルインターネット時代に至るまで、人類の誕生以来、世界に影響を与えてきたあらゆる破...

...

2021 年の機械学習の 6 つのトレンド

機械学習は今日ではよく知られた革新的な技術となっています。ある調査によると、現在人々が使用しているデ...

QQがスーパーQQショーを開始:3D HDモデルが顔認識AIフェイスピンチをサポート

2月10日、QQ誕生23周年にあたり、テンセントQQチームは、これまでのテスト段階を経て、スーパー...

人工知能がITおよびAV業界にもたらす変化

【51CTO.com クイック翻訳】 [[425066]] ITおよびAV業界における人工知能IT(...

CLIPのフォーカスエリアを自由に指定!上海交通大学、復旦大学などがAlpha-CLIPをリリース:フルイメージ+ローカル検出機能を同時に維持

CLIP は最も人気のあるビジュアル ベース モデルであり、その適用シナリオには以下が含まれますが、...

顔認識は簡単すぎる、AIは指の動きも認識できる、これは非常に恐ろしい

現代のコンピューター ビジョン テクノロジーは、これまで映画でしか見たことのないようなテクノロジーの...

EllieMae が脅威ハンティングに AI を活用する方法

より積極的な基盤を構築するために、一部の組織では、攻撃が発生する前にデータを精査して高度な持続的脅威...

人工知能が自動車業界に与える影響

自動運転車の発売が近づいており、消費者の期待は高まっており、人工知能技術は自動車業界にさらに大きな影...

文字の組み合わせをソートするJavaアルゴリズム

Java の文字の組み合わせソートは、特に難しい問題ではありません。ブルートフォースとグラフ理論 (...

AI の力: Docker による機械学習アプリケーションの導入とスケーラビリティの簡素化

翻訳者 |李睿レビュー | Chonglou近年、機械学習の応用が爆発的に増加しており、堅牢でスケー...

...

データセンター不足がAIの未来を阻害している理由

多くの企業が AI テクノロジーの開発と導入に数十億ドルを投資しています。知的財産の問題、潜在的な規...