宮崎駿アニメの世界を一筆でスケッチしよう!スタンフォード大学の大型模型「𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩」、スケッチが数秒で傑作に変身

宮崎駿アニメの世界を一筆でスケッチしよう!スタンフォード大学の大型模型「𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩」、スケッチが数秒で傑作に変身

絵を描くだけで高精細な絵画が現れます。

たとえば中世の城を描くには、ドアと道を描くだけで、美しい城が現れます。

写真

郵便受けのあるホビットの家

海の端にある灯台(追記:海中の星空のような感じです)

スタンフォード大学の研究者たちは、スケッチを絵画に変えることができるモデル、𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩 を提唱しました。

さらに、𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩 は、生成された画像を完全なスケッチに変換し、ペイントの次のステップに関する提案を提供することもできます。

それで、それは具体的にどのように機能するのでしょうか?

スケッチ、編集可能

既存のスケッチ制御画像生成方法には、ControlNet、Sketch-Guided Diffusion、DiffSketching などがあります。

既存のスケッチから画像への変換方法には大きな利点がありますが、重大な欠陥があります。それは、完成したスケッチを処理するように訓練されていることです。

ただし、典型的な Sketchup ワークフローは、進行中の反復的な作業です。

アーティストは徐々に線を追加したり削除したりして、時には基本的な構造を構築してからより細かい詳細を掘り下げたり、時にはイメージのある領域に焦点を当ててから別の領域に移動したりします。

したがって、スケッチ段階でスケッチから画像への機能を実装する必要があります。

「Sketch-a-Sketch」では、研究者らは部分的なスケッチに基づいて画像を生成する ControlNet モデルを導入しました。

ControlNet を使用すると、Sketch-a-Sketch は次のことが可能になります。

1) スケッチプロセスのさまざまな段階でスケッチに対応する画像を生成する

2) これらの画像を使用して、芸術的なプロセスを導くのに役立つスケッチの提案を作成します。

問題: 既存の方法は一部のスケッチでは機能しない

これまでの研究では、画像と完成したスケッチのペアデータセットでトレーニングが行われてきました。

部分的なスケッチからイメージを生成しようとすると、これらのメソッドはスケッチを完成したスケッチとして扱います。

したがって、スケッチの残りの部分の空白は、入力スケッチのストロークに通常対応するコンテンツが画像に含まれてはならないことを示す指標と見なされます。

たとえば、家の最初の数本の線が与えられた場合、ControlNet は線が描かれている領域外の重要な詳細を生成することができません。

これらのスケッチの線に対応する特徴が、生成された画像に表示されます。たとえば、屋根を支える柱、手すりの上部、ポーチの下部などです。

ただし、スケッチに空白のみが含まれている領域にも、主要な画像の特徴が多数存在します。

トレーニングデータ: 線をランダムに削除して作成した部分スケッチ

Photo-Sketch は、部分的に完成したスケッチとテキストの説明が付いた画像を含む、既存のデータセットとしては最大のものです。

ただし、このデータセットには次の欠点があります。

1) スケッチは1,000枚までとなります。

2) すべての画像は屋外のシーンです(多様性に欠け、一般的なテキスト条件を生成できません)。

3) 既存の絵をトレースして作成する(多くのアーティストの描画プロセスに対応しない可能性のある筆順を適用する)。

そのため、私たちは部分的なスケッチと組み合わせたキャプション付きの画像の独自のデータセットをプログラムで構築しました。

スタンフォード大学の研究者のアプローチは、1) HED を使用して画像をラスタライズされたエッジ マップに変換する、2) エッジ マップを一連のストロークにベクトル化する、3) ストロークの一部をランダムに削除するというものです。

任意の順序でストロークを削除することで、任意の順序で描かれたストロークを条件とする画像を生成することもできるため、さまざまなスケッチスタイルに対応できます。

研究者らは、LAION Art の 45,000 枚の画像を使用してペアデータセットを構築し、画像とスケッチのペアに対して Stable Diffusion 1.5 を条件付けるように ControlNet モデルをトレーニングしました。

トレーニングされたモデルは、テキストの説明と部分的なスケッチを入力として受け取り、完成したスケッチの可能性のある部分に対応する生成された画像を出力します。

さまざまなレベルの完全性を持つ多数のランダムな部分スケッチでトレーニングすることで、モデルはあらゆるレベルの完全性のスケッチを最終画像に変換することを学習することに注意してください。

つまり、モデルでは線を描く順序について何も想定しません。

線は任意の順序で描くことができ、𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩 はスケッチの現在の状態に基づいて画像を生成します。

必要な画像を生成する

アーティストが画像の一部をどのようにペイントするかよくわからない場合は、描画した線に基づいてさまざまな画像仕上げを生成できます。

たとえば、カップの取っ手をどのように描いたらよいかよくわからないので、𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩 は次の 3 つの画像を生成します。

これらの生成された画像を使用して、Sketch-a-Sketch は潜在的な描画線の提案を提供できます。

生成された画像に対して HED を実行して既存の図面の潜在的な完成を生成すると、提案された線の画像を取得できます。

制御可能なスタイル

画像のキャプションと基礎となる拡散スケルトンは、画像の視覚化と提案されたラインに大きな影響を与えます。

他のテキスト制御の拡散アプリケーションと同様に、𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩 では、ヒントを通じて生成された画像のスタイルやコンテンツを変更できます。

下の画像では、単語を 1 つ変更するだけで、スポーツカーの視覚化のスタイルを制御できます。

ヒント: スポーツカー、リアル

ヒント: スポーツカー、漫画

ヒント: スポーツカー、影

ヒント: スポーツカー、錆びている

バックボーン ネットワーク (Stable Diffusion 1.5) でトレーニングされた ControlNet は、バックボーン ネットワークの微調整されたバージョンでも引き続き適切に動作することが以前に確認されています。

この機能は一部の Sketch ControlNet モデルにも適用され、Sketch-a-Sketch が特定のドメイン向けに微調整されたモデルから提案を生成できるようになります。

たとえば、ジブリ拡散を使用してジブリ風のキャラクターを生成することができます。

著者について

ヴィシュヌ・サルッカイ

Vishnu Sarukkai はスタンフォード大学の博士課程の学生で、Chris Ré と Kayvon Fatahalian が指導教員です。彼はスタンフォード大学でコンピューターサイエンスの学士号を取得しました。

彼の研究対象には機械学習とコンピューターグラフィックスがあり、最近の研究では制御可能な拡散モデルに焦点を当てています。

クリストファー・レ

スタンフォード人工知能研究所 (SAIL)、基礎モデル研究センター (CRFM)、機械学習グループ (生物学) の准教授。

ケイヴォン・ファタハリアン

Kayvon Fatahalian のチームは、高度なコンピュータ グラフィックスとビデオ理解アプリケーションをサポートする計算システム (多くの場合、高性能で並列) を作成します。最近の研究には、「AI トレーニング」のための仮想環境の高性能シミュレーションが含まれます。

<<:  AIモデルの「レッドチーム」からの迅速な修正を期待しないでください

>>: 

ブログ    

推薦する

初心者向けガイド: Numpy、Keras、PyTorch を使用した単純な線形回帰

[[433966]]図 1 に示すように、さまざまな種類の機械学習技術は、さまざまなカテゴリに分類で...

ワールドカップはスコア予測にAIを使用。今回はスイスの銀行を信頼できるか?

ワールドカップが本格的に開幕し、大手データおよび人工知能技術組織もワールドカップの予想に参加している...

...

...

美団点評におけるディープラーニングの応用

序文近年、ディープラーニングは音声、画像、自然言語処理などの分野で優れた成果を上げており、最も注目さ...

...

ナレッジグラフの紹介と応用

[[376661]]人間は知識を獲得する過程で、物事の本質にますます注意を払うようになります。人工知...

...

...

ボストン大学の「Platypus-70B」がHugging Face大型模型ランキングでトップに!効率的なデータセットと独自のLoRA微調整が鍵

Hugging Faceのオープンソース大型モデルのランキングがまた更新されました。今回のランキング...

独立サイトへのアクセス数が10万を超えました。YidiantianxiaのKreadoAIのサポートにより、海外のウィッグ市場でこのように活躍できることがわかりました。

近年、ウィッグ業界は海外進出のホットな分野として、国際市場で急速に台頭してきました。 Statist...

私の国は自動運転のための最初の閉鎖された高速道路テスト環境を構築しました

1月21日、公安部交通管理科学研究所は、工業情報化部、公安部、江蘇省人民政府が共同で建設する「国家イ...

マスク氏が示唆:脳の寄生虫が人間を超人的なAIを作らせる

マスク氏はツイッターで奇妙な見解を表明した。人類が超人的な人工知能を創り出した理由は、ある種の「脳寄...

AI人工知能は研究室から生産現場へと進出したが、依然として大きな課題に直面している。

国内企業におけるAI導入の現状アクセンチュアが世界各国の企業幹部を対象に実施した「中国企業はどのよう...

テンセントは大人のプレイヤーから厳しい批判を受けた!実名認証だけでは不十分、顔認証も必要

[[422724]]今学期の一番の話題は、未成年がゲームをプレーできなくなった平日です!これにより、...