ControlNet作者の新作:AIペイントはレイヤー分けが可能に!このプロジェクトはオープンソース化されていないにもかかわらず、660個のスターを獲得しました

ControlNet作者の新作:AIペイントはレイヤー分けが可能に!このプロジェクトはオープンソース化されていないにもかかわらず、660個のスターを獲得しました

「決して単純な切り抜きではありません。」

ControlNet の著者による最近の研究は大きな注目を集めています。

ちょっとしたヒントですが、Stable Diffusion を使用すると、単一または複数の透明レイヤー(PNG)を直接生成できます。

たとえば、次の文:

寝室で髪が乱れている女性。
寝室にいる、髪が乱れた女性。

ご覧のとおり、AI はプロンプトを満たす完全な画像を生成するだけでなく、背景と文字を分離することもできます

また、キャラクターの PNG 画像を拡大してよく見ると、髪の毛の一本一本がはっきりと見えます。

別の例を見てみましょう。

田舎のテーブルで燃える薪の火。
田舎のテーブルの上で薪を燃やしている。

同様に、「燃えるマッチ」の PNG を拡大すると、炎の周りの黒い煙を分離することもできます。

これは、ControlNet の作者によって提案された新しい方法であるLayerDiffusionであり、大規模な事前トレーニング済み潜在拡散モデルを使用して透明な画像を生成できるようになります。

もう一度強調しておきたいのは、LayerDiffusion は決して画像を切り取るだけの単純なものではなく、鍵となるのは生成だということです。

ネットユーザーはこう言った。

これは、今日のアニメーションやビデオ制作において最も重要なプロセスの 1 つです。このステップを通過できれば、SD の一貫性は問題ではなくなったと言えます。

一部のネットユーザーは、このような作業は難しくなく、「ついでにアルファチャンネルを追加する」だけの問題だと思っていたが、驚いたことに、

ようやく出てくるまで長い時間がかかりました。

では、LayerDiffusion はどのように実装されるのでしょうか?

PNG、生成ルートへ

LayerDiffusion の核となるのは、潜在的透明性と呼ばれる手法です

簡単に言えば、 Stable Diffusion などの事前トレーニング済みの潜在拡散モデルの基礎となる分布を破壊することなく、モデルに透明性を追加できます。

具体的な実装の点では、慎重に設計された小さな変動(オフセット)を潜在画像に追加すると理解できます。この変動は追加チャネルとしてエンコードされ、RGB チャネルとともに完全な潜在画像を構成します。

透明性のエンコードとデコードを実現するために、著者らは 2 つの独立したニューラル ネットワーク モデルをトレーニングしました。1 つは潜在的透明性エンコーダーで、もう 1 つは潜在的透明性デコーダーです

エンコーダーは、元の画像の RGB チャネルとアルファ チャネルを入力として受け取り、透明度情報を潜在空間のオフセットに変換します。

デコーダーは、調整された潜在画像と再構成された RGB 画像を受け取り、潜在空間から透明情報を抽出して、元の透明画像を再構成します。

追加された潜在的な透明性が事前トレーニング済みモデルの潜在的な分布を破壊しないことを保証するために、著者らは「無害性」メトリックを提案しています。

このメトリックは、調整された潜在画像と元の画像に対する元の事前トレーニング済みモデルのデコーダーのデコード結果の違いを比較することにより、潜在的な透明性の影響を評価します。

トレーニング中、著者らは、再構築損失、アイデンティティ損失、および識別損失を組み合わせた結合損失関数も使用しました。

それらの機能は次のとおりです。

  • 再構築損失: デコードされた画像が元の画像に可能な限り類似していることを確認するために使用されます。
  • アイデンティティ損失: 調整された潜在画像が事前トレーニング済みのデコーダーによって正しくデコードできることを確認するために使用されます。
  • 識別器損失: 生成された画像のリアリティを向上させるために使用されます。

このアプローチでは、潜在拡散モデルを調整された潜在空間に合わせて微調整するだけで、任意の潜在拡散モデルを透明画像ジェネレーターに変換できます。

潜在的な透明性の概念は、複数の透明なレイヤーを生成するように拡張することも、他の条件付き制御システムと組み合わせて、前景/背景の条件付き生成、共同レイヤー生成、レイヤー コンテンツの構造制御などのより複雑な画像生成タスクを実現することもできます。



著者は、ControlNet を導入して LayerDiffusion の機能を充実させる方法も示していることにも注目に値します。

従来の切り抜きとの違い

LayerDiffusion と従来のカットアウトの違いについては、簡単にまとめると次の点になります。

ネイティブ生成と後処理

LayerDiffusion は、生成プロセスで透明情報を直接考慮してエンコードするネイティブの透明画像生成方法です。これは、モデルが画像を生成する際にアルファ チャネルを作成し、透明な画像を生成することを意味します。

従来の画像マット化方法では、通常、画像を生成または取得し、その後、クロマキー、エッジ検出、ユーザー指定のマスクなどの画像編集技術を使用して前景と背景を分離します。このアプローチでは、透明性を処理するために追加の手順が必要になることが多く、複雑な背景やエッジで不自然な遷移が生じる可能性があります。

潜在空間操作とピクセル空間操作

LayerDiffusion は、モデルがより複雑な画像機能を学習して生成できるようにする中間表現である潜在空間で動作します。潜在空間に透明性をエンコードすることで、モデルはピクセルレベルでの複雑な計算を必要とせずに、生成中に透明性を自然に処理できます。

従来の切り抜き技術は通常、ピクセル空間で実行され、色の置き換え、エッジのスムージングなど、元の画像を直接編集する必要がある場合があります。これらの方法では、半透明の効果(火、煙など)や複雑なエッジの処理が難しい場合があります。

データセットとトレーニング

LayerDiffusion は、大規模な透明画像ペアのデータセットを使用してトレーニングされ、モデルが高品質の透明画像を生成するために必要な複雑な分布を学習できるようにします。

従来の画像マッティング手法では、小規模なデータセットや特定のトレーニング セットに依存する場合があり、多様なシーンを処理する能力が制限される可能性があります。

柔軟性と制御

LayerDiffusion は、ユーザーがテキストプロンプトを介して画像生成をガイドし、複数のレイヤーを生成してブレンドおよび組み合わせ、複雑なシーンを作成できるため、柔軟性と制御性が向上します。

従来のマット処理方法では、特に複雑な画像コンテンツや透明度を扱う場合には、制御が制限される可能性があります。

品質比較

ユーザー調査によると、LayerDiffusion によって生成された透明画像はほとんどの場合(97%)ユーザーに好まれており、生成される透明コンテンツは視覚的に市販の透明アセットに匹敵するか、それよりも優れていることが示されています。

従来のマット処理方法では、特に難しい透明部分やエッジを扱う場合には、同じ品質が得られない場合があります。

要約すると、LayerDiffusion は透明な画像を生成および処理するための、より高度で柔軟な方法を提供します。

生成プロセス中に透明度を直接エンコードし、従来のマット処理方法では実現が難しい高品質の結果を生み出すことができます。

著者について

先ほど述べたように、この研究の著者の一人は、ControlNet の有名な発明者であるZhang Lyuminです。

彼は東呉大学を卒業し、学士号を取得しました。大学1年生の時にAIペインティングに関する論文を発表しました。学部在学中、トップカンファレンスで10本の初論文を発表しました。

現在、張龍民さんはスタンフォード大学で博士号取得を目指しているが、非常に控えめな人物で、Google Scholarにも登録していない。

現時点では、LayerDiffusion は GitHub でオープンソース化されていませんが、それでも皆の注目を集めており、660 個のスターを獲得しています。

結局のところ、張龍敏はネットユーザーから「時間管理の達人」とも評されているので、LayerDiffusionに興味がある友達は事前にマークしておくといいでしょう。

<<: 

>>:  ByteDance Wanka Cluster の技術詳細が明らかに: GPT-3 トレーニングが 2 日間で完了、コンピューティング パワーの使用率は Nvidia Megatron-LM を上回る

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ジャック・マー氏がまたもや的を射た発言:「将来、住宅はタマネギのように安くなる」のは固定資産税ではなく人工知能のせい?

「家はタマネギのように安くなる」というのは、家を買う余裕のないすべての人にとっての将来のビジョンな...

100キーワード学習法による人工知能(AI)の学習

100キーワード学習法は、キーワード(つまり、キーポイント)を中心に学習するという、効率的な学習法で...

2017 年のトップデータサイエンスと機械学習手法

[51CTO.com クイック翻訳] 統計によると、回答者が現在選択している最も一般的に使用されてい...

最新のAIオープンソースプロジェクト12件をダウンロードする必要があります

[[242968]] #TensorFlow に基づく強化学習フレームワークDopamine は、強...

ディープラーニングアーキテクチャにおける予測コーディングモデルに関しては、PredNetに目を向ける必要があります。

[[434722]] 0. はじめに予測的コーディングは認知科学における仮説です。高レベルの神経活...

Cloudera Greater Chinaのテクニカルディレクター、Liu Lifang氏:より正確なAIにはより正確なデータが必要

アプリケーションの可観測性と AI の信頼、リスク、セキュリティ管理は、ガートナーが 2023 年に...

機械学習の問題を解決する一般的な方法があります!これを読んでください

編集者注: この記事は、WeChat パブリック アカウント「Big Data Digest」(ID...

人工知能でIT運用を改革する方法

IT 組織は、サポートの改善、インフラストラクチャの最適化、システム障害の予測のために AI ベース...

2019 年に人工知能アルゴリズムのポジションをめぐる競争がこれほど激しいのはなぜでしょうか?

AI関連の学位取得者は高給を得るのが難しいとメディアが以前報じていたのとは全く対照的に、多くの応募...

Google Brain エンジニアの講演: TensorFlow とディープラーニング

この記事は、Google Brain エンジニアの Zhou Yuefeng 氏が QCon Sha...

7BモデルはGPT4-Vを超えます! HKUST などが「グラフ推論質問回答」データセットを公開 GITQA: 視覚的なグラフは推論能力を向上させることができます

グラフ ニューラル ネットワーク (GNN) は、グラフの構造情報を推論に活用するのに優れていますが...

...

最も人気のあるオープンソースの機械学習 JavaScript フレームワーク 5 つ

[[235929]]機械学習に興味がある、または JavaScript を使用して機械学習の専門家に...

エッジにAIを導入する3つのメリット

AIワークロードをエッジで実行することで、経済性の向上、意思決定の迅速化、自動化が可能になります。誇...

AIは機械設計にどのような影響を与えるのでしょうか?

人工知能は現在、ますます広く利用されるようになっています。ほとんどの場合、堅牢で適応性の高い AI ...