宮崎駿アニメの世界を一筆でスケッチしよう!スタンフォード大学の大型模型「𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩」、スケッチが数秒で傑作に変身

宮崎駿アニメの世界を一筆でスケッチしよう!スタンフォード大学の大型模型「𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩」、スケッチが数秒で傑作に変身

絵を描くだけで高精細な絵画が現れます。

たとえば中世の城を描くには、ドアと道を描くだけで、美しい城が現れます。

写真

郵便受けのあるホビットの家

海の端にある灯台(追記:海中の星空のような感じです)

スタンフォード大学の研究者たちは、スケッチを絵画に変えることができるモデル、𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩 を提唱しました。

さらに、𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩 は、生成された画像を完全なスケッチに変換し、ペイントの次のステップに関する提案を提供することもできます。

それで、それは具体的にどのように機能するのでしょうか?

スケッチ、編集可能

既存のスケッチ制御画像生成方法には、ControlNet、Sketch-Guided Diffusion、DiffSketching などがあります。

既存のスケッチから画像への変換方法には大きな利点がありますが、重大な欠陥があります。それは、完成したスケッチを処理するように訓練されていることです。

ただし、典型的な Sketchup ワークフローは、進行中の反復的な作業です。

アーティストは徐々に線を追加したり削除したりして、時には基本的な構造を構築してからより細かい詳細を掘り下げたり、時にはイメージのある領域に焦点を当ててから別の領域に移動したりします。

したがって、スケッチ段階でスケッチから画像への機能を実装する必要があります。

「Sketch-a-Sketch」では、研究者らは部分的なスケッチに基づいて画像を生成する ControlNet モデルを導入しました。

ControlNet を使用すると、Sketch-a-Sketch は次のことが可能になります。

1) スケッチプロセスのさまざまな段階でスケッチに対応する画像を生成する

2) これらの画像を使用して、芸術的なプロセスを導くのに役立つスケッチの提案を作成します。

問題: 既存の方法は一部のスケッチでは機能しない

これまでの研究では、画像と完成したスケッチのペアデータセットでトレーニングが行われてきました。

部分的なスケッチからイメージを生成しようとすると、これらのメソッドはスケッチを完成したスケッチとして扱います。

したがって、スケッチの残りの部分の空白は、入力スケッチのストロークに通常対応するコンテンツが画像に含まれてはならないことを示す指標と見なされます。

たとえば、家の最初の数本の線が与えられた場合、ControlNet は線が描かれている領域外の重要な詳細を生成することができません。

これらのスケッチの線に対応する特徴が、生成された画像に表示されます。たとえば、屋根を支える柱、手すりの上部、ポーチの下部などです。

ただし、スケッチに空白のみが含まれている領域にも、主要な画像の特徴が多数存在します。

トレーニングデータ: 線をランダムに削除して作成した部分スケッチ

Photo-Sketch は、部分的に完成したスケッチとテキストの説明が付いた画像を含む、既存のデータセットとしては最大のものです。

ただし、このデータセットには次の欠点があります。

1) スケッチは1,000枚までとなります。

2) すべての画像は屋外のシーンです(多様性に欠け、一般的なテキスト条件を生成できません)。

3) 既存の絵をトレースして作成する(多くのアーティストの描画プロセスに対応しない可能性のある筆順を適用する)。

そのため、私たちは部分的なスケッチと組み合わせたキャプション付きの画像の独自のデータセットをプログラムで構築しました。

スタンフォード大学の研究者のアプローチは、1) HED を使用して画像をラスタライズされたエッジ マップに変換する、2) エッジ マップを一連のストロークにベクトル化する、3) ストロークの一部をランダムに削除するというものです。

任意の順序でストロークを削除することで、任意の順序で描かれたストロークを条件とする画像を生成することもできるため、さまざまなスケッチスタイルに対応できます。

研究者らは、LAION Art の 45,000 枚の画像を使用してペアデータセットを構築し、画像とスケッチのペアに対して Stable Diffusion 1.5 を条件付けるように ControlNet モデルをトレーニングしました。

トレーニングされたモデルは、テキストの説明と部分的なスケッチを入力として受け取り、完成したスケッチの可能性のある部分に対応する生成された画像を出力します。

さまざまなレベルの完全性を持つ多数のランダムな部分スケッチでトレーニングすることで、モデルはあらゆるレベルの完全性のスケッチを最終画像に変換することを学習することに注意してください。

つまり、モデルでは線を描く順序について何も想定しません。

線は任意の順序で描くことができ、𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩 はスケッチの現在の状態に基づいて画像を生成します。

必要な画像を生成する

アーティストが画像の一部をどのようにペイントするかよくわからない場合は、描画した線に基づいてさまざまな画像仕上げを生成できます。

たとえば、カップの取っ手をどのように描いたらよいかよくわからないので、𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩 は次の 3 つの画像を生成します。

これらの生成された画像を使用して、Sketch-a-Sketch は潜在的な描画線の提案を提供できます。

生成された画像に対して HED を実行して既存の図面の潜在的な完成を生成すると、提案された線の画像を取得できます。

制御可能なスタイル

画像のキャプションと基礎となる拡散スケルトンは、画像の視覚化と提案されたラインに大きな影響を与えます。

他のテキスト制御の拡散アプリケーションと同様に、𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩 では、ヒントを通じて生成された画像のスタイルやコンテンツを変更できます。

下の画像では、単語を 1 つ変更するだけで、スポーツカーの視覚化のスタイルを制御できます。

ヒント: スポーツカー、リアル

ヒント: スポーツカー、漫画

ヒント: スポーツカー、影

ヒント: スポーツカー、錆びている

バックボーン ネットワーク (Stable Diffusion 1.5) でトレーニングされた ControlNet は、バックボーン ネットワークの微調整されたバージョンでも引き続き適切に動作することが以前に確認されています。

この機能は一部の Sketch ControlNet モデルにも適用され、Sketch-a-Sketch が特定のドメイン向けに微調整されたモデルから提案を生成できるようになります。

たとえば、ジブリ拡散を使用してジブリ風のキャラクターを生成することができます。

著者について

ヴィシュヌ・サルッカイ

Vishnu Sarukkai はスタンフォード大学の博士課程の学生で、Chris Ré と Kayvon Fatahalian が指導教員です。彼はスタンフォード大学でコンピューターサイエンスの学士号を取得しました。

彼の研究対象には機械学習とコンピューターグラフィックスがあり、最近の研究では制御可能な拡散モデルに焦点を当てています。

クリストファー・レ

スタンフォード人工知能研究所 (SAIL)、基礎モデル研究センター (CRFM)、機械学習グループ (生物学) の准教授。

ケイヴォン・ファタハリアン

Kayvon Fatahalian のチームは、高度なコンピュータ グラフィックスとビデオ理解アプリケーションをサポートする計算システム (多くの場合、高性能で並列) を作成します。最近の研究には、「AI トレーニング」のための仮想環境の高性能シミュレーションが含まれます。

<<:  AIモデルの「レッドチーム」からの迅速な修正を期待しないでください

>>: 

推薦する

人工知能が台頭しています。インテリジェントセキュリティの開発はどのように進んでいますか?

セキュリティ業界は、人工知能の市場を長く有する業界として、人工知能の発展に対する理解がより明確で、そ...

GNNの実装はもはや難しくありません。この記事では、効率的なGNNとスケーラブルなグラフ表現学習の最新の進歩についてまとめています。

グラフ ニューラル ネットワークは、現実世界に適用する場合、メモリ制限、ハードウェア制限、信頼性制限...

2019 年に注目すべき 11 の JavaScript 機械学習ライブラリ

ほとんどの機械学習は Python などの言語で行われますが、フロントエンドとバックエンドの両方にお...

ゲーム開発における機械学習の活用

機械学習のメリット機械学習は多くの分野で驚異的な進歩を遂げてきました。応用分野の観点から見ると、機械...

二度とアルゴリズムの罠に陥らないでください!背後にいる人物を見つけ出す

誰もがこのような経験をしたことがあると思います。道路を運転しているとき、携帯電話は位置情報と速度を送...

...

AIと宇宙技術が日常生活をどう改善するか

衛星から都市計画まで、人工知能の進歩は新たな洞察をもたらしています。 [[270081]]宇宙技術と...

...

AI時代:従来の常識を超えた大胆な未来

今日の世界では、人工知能 (AI) が驚異的なスピードで進歩しており、その進歩に遅れを取らないことが...

データとAIの成熟度に到達することがビジネス価値を引き出す鍵

[[419580]]データから実用的なリアルタイムの洞察を生成するには、企業は人工知能や機械学習の導...

2GBのDAYU200に大規模な言語モデルをローカルにデプロイする

実装のアイデアと手順軽量 LLM モデル推論フレームワーク InferLLM を OpenHarmo...

...

これは機械学習ツールに関する最も包括的なハンドブックかもしれません。

[[419906]]私はこれまで、人工知能とデータサイエンスのオープンソース プロジェクトを数多く...

OpenAI セキュリティシステムディレクターが長文記事を執筆: 大規模モデルに対する敵対的攻撃と防御

ChatGPTのリリースにより、大規模な言語モデルのアプリケーションが加速し、大規模に展開されていま...

これらの6つのヒントを活用してAIガバナンスの問題を解決しましょう

AI ガバナンスは、データ プライバシー、アルゴリズムのバイアス、コンプライアンス、倫理など、企業内...