漫画の着色に機械学習を使用する

漫画の着色に機械学習を使用する

何百ものトレーニング データの例を手描きせずに、シンプルなカラー スキームを自動的に適用できますか?

教師あり機械学習の大きな問題は、大量のカテゴリデータが必要になることです。特に、そのようなデータがない場合(世の中はビッグデータであふれていますが、ほとんどの人は未だにそのようなデータを持っていません)は、本当に問題です。

一部の企業は特定の種類の機密データを大量に利用できますが、ほとんどの組織やアプリケーションでは、適切な種類の機密データを十分に作成するのはコストがかかりすぎるため不可能です。ある時点では、これはまだデータがあまりない分野です (たとえば、まれな病気を診断する場合や、データが私たちが知っているわずかな情報と一致するかどうかを判断する場合など)。また、Amazon Turkers やサマージョブを使用して、必要なデータを手動で分類するのはコストがかかりすぎることもあります。映画ほどの長さのビデオの場合、フレームごとに分類するコストは、1 フレームあたり 1 セントでもすぐに膨れ上がってしまいます。

ビッグデータ需要の大きな問題

私たちのチームが現在解決しようとしている問題は、何百、何千もの手描きのトレーニング データがなくても、白黒のピクセル画像にシンプルなカラー スキームを自動的に提供するようにモデルをトレーニングできるかどうかです。

この実験(私たちは Dragon Painting と呼んでいます)では、ディープラーニングにおける分類データに対する膨大な需要に対処するために、次のアプローチを使用します。

  • 急速に増加する小規模データセットにはルールベースの戦略を使用します。
  • トレーニング データが非常に限られている場合に自動漫画レンダリングを実現するために、TensorFlow 画像変換モデルである Pix2Pix フレームワークを借用します。

私は、論文 (Isola らによる「Image-to-Image Translation with Conditional Adversarial Networks」) で説明されている機械学習画像変換モデルである Pix2Pix フレームワークを見たことがあります。このフレームワークでは、A が風景画像 B のグレースケール バージョンであると想定し、AB ペアでトレーニングした後に風景画像に色を付けます。私の問題もこれに似ていますが、唯一の問題はトレーニング データです。

このモデルをトレーニングするためのカラー画像を提供するために、一生をかけて絵を描いたり色を塗ったりしたくないので、必要なトレーニング データは非常に限られています。ディープラーニング モデルには、数千 (または数百) のトレーニング データが必要です。

Pix2Pix のケースに基づくと、少なくとも 400 ~ 1000 個の白黒データとカラーデータのペアが必要です。どれくらい描きたいかと聞かれましたよね?たぶん30だけ。漫画の花と漫画のドラゴンの小さなコレクションを描いて、それらをデータセットに含めることができるかどうかを確認しました。

80% ソリューション: コンポーネントごとに色分け

コンポーネントルールに従って白黒ピクセルをカラー化する

トレーニング データが不足している場合、最初に尋ねるべき質問は、問題に対する優れた非機械学習アプローチがあるかどうか、完全な解決策がない場合は部分的な解決策があるかどうか、そしてその部分的な解決策は私たちにとって役立つかどうかです。花やドラゴンに色を付けるには、本当に機械学習の手法が必要なのでしょうか?あるいは、色付けの幾何学的ルールを指定できるでしょうか?

コンポーネントごとに色分けする方法

今、私の問題を解決するための機械学習以外のアプローチがあります。私は子供に、自分の絵をどのように着色したいかを伝えることができました。花の中心をオレンジ色に、花びらを黄色に、ドラゴンの体をオレンジ色に、ドラゴンのトゲを黄色に塗るのです。

最初は、これが役に立たないように見えました。なぜなら、コンピューターは中心が何なのか、花びらが何なのか、本体が何なのか、そしてスパイクが何なのかを知らなかったからです。しかし、花とドラゴンの部分を連結コンポーネントの観点から定義し、絵画の 80% を着色するための幾何学的ソリューションを得ることができることがわかりました。80% では十分ではありませんが、戦略的違反変換、パラメーター、機械学習を使用して、部分的なルールベースのソリューションを 100% に導くことができます。

接続されたコンポーネントは、Windows ペイント (または同様のアプリケーション) の色を使用します。たとえば、バイナリの白黒画像に色を付ける場合、白いピクセルをクリックすると、白いピクセルは黒を通過せずに新しい色に変わります。漫画のドラゴンや花のスケッチでは、最も大きな白い部分は背景で、次に大きい部分は胴体(腕と脚を含む)または花の中心で、残りはトゲと花びらです。ドラゴンの目は例外で、背景からの距離で区別できます。

戦略的なルールとPix2Pixを使用して100%に到達します

私のスケッチの一部はルールに従っていません。不注意に引いた線が隙間を残したり、後ろ足がトゲで着色されたり、中央に小さなデイジーが描かれたときに花びらと中心が入れ替わったりします。

幾何学的ルールを使用して色付けできない 20% については、他の方法で対処する必要があります。そこで、Pix2Pix モデルを使用します。このモデルでは、ルールに違反する例を含め、少なくとも 400 ~ 1000 個のスケッチ/色のペアをデータセットとして必要とします (Pix2Pix 論文の最小データセット)。

したがって、ルールに違反するすべての例については、手動で色を付ける (後ろ足など) か、ルールに従ったスケッチ/色のペアをいくつか選択してルールを破ることになります。 A 内のいくつかの線を削除するか、同じ関数 (f) を使用して中央に配置された花 A と B をさらに変換して、データセットに追加できる、中央に配置された小さな花の新しいペア f(A) と f(B) を作成します。

ガウスフィルタと同相写像を使用して最大化する

コンピューター ビジョンでは、幾何学的変換を使用してデータセットを拡張するのが一般的です。たとえば、ループ、パン、ズームなどです。

しかし、ひまわりをデイジーに変えたり、ドラゴンの鼻をボールとトゲに変えたりする必要がある場合はどうでしょうか?

あるいは、データの量を増やして過剰適合を無視する必要がある場合はどうでしょうか?次に、最初のデータセットの 10 ~ 30 倍の大きさのデータセットが必要になります。

ひまわりはr -> rキューブによってデイジーに変換されます

ガウスフィルタの強化

単位円の特定の同相写像は、美しいデイジー (r -> r 立方体など) を作成でき、ガウス フィルターはドラゴンの鼻を変形できます。これらは両方とも、急速に成長しているデータセットに非常に役立ち、生成される大量のデータこそが私たちが必要としているものです。ただし、アフィン変換ではできない方法で描画のスタイルを変更し始める可能性もあります。

これにより、単純なカラー化スキームを自動的に設計する方法についてのこれまでの考察よりもさらに別の疑問が生じます。外部の観察者とアーティスト自身の両方にとって、アーティストのスタイルを定義するものは何でしょうか?彼らはいつ自分たちの絵画スタイルを確立したのでしょうか?独自の描画アルゴリズムがないなんてあり得ないですよね?ツール、アシスタント、共同作業者の違いは何ですか?

どこまで行けるでしょうか?

塗装への投資はどの程度まで抑えられるのでしょうか?特定のアーティストの作品として認識できるテーマとスタイルを維持しながら、どれだけのバリエーションと複雑さを生み出すことができるでしょうか?無限のキリン、ドラゴン、花が描かれたパレードの巻物を完成させるには何が必要ですか?このような写真があったら、何ができるでしょうか?

これらは、私たちが今後の研究で引き続き検討していく問題です。

しかし今では、ルール、拡張機能、Pix2Pix モデルが機能します。花の色付けは結構うまくできたので、ドラゴンの色付けもできたらいいなと思います。

結果: 花のモデルをトレーニングして花を着色します。

結果: ドラゴンモデルのトレーニングのトレーニング結果。

さらに詳しく知るには、PyCon Cleveland 2018 での Gretchen Greene の講演「DragonPaint – 小さなデータから漫画に色を付ける」にご参加ください。

<<:  2018年栄智連ITイネーブラーサミットのゲストラインナップが発表されました

>>:  誇大宣伝サイクルを経ても、チャットボットがまだ普及していないのはなぜでしょうか?

ブログ    

推薦する

門戸を開くと、エンタープライズ機械学習が急成長

[[394391]]自動運転から機械翻訳、不正取引の特定から音声認識、衛星画像認識からビデオストリー...

ブラックホールの中には何があるのでしょうか?物理学者は量子コンピューティングと機械学習を使って

BGRによると、PRX Quantum誌に最近発表された研究では、ブラックホール内部をさらに詳しく調...

...

AI脳を搭載したドローン:群衆の中の暴力的な人々を正確に識別できる

[[233174]]もしある日私を殴りたくなったら、ただ殴って終わりにできると思いますか?今はそんな...

MIT は隠れた物体を「認識」できるロボットを開発中。「私たちはロボットに超人的な認識力を与えようとしている」

MITの研究者らは、視覚と無線周波数(RF)センシングを組み合わせて、視界から隠れている物体でも見...

聞いてください、トランスフォーマーはサポートベクターマシンです

Transformer は、学界で議論を巻き起こしたサポート ベクター マシン (SVM) の新しい...

AIはあらゆるブランドに影響を与えており、適応できないブランドは消滅するだろう

インテリジェントエージェントはブランドをスクリーニングし、商取引を再形成し、消費者の選択を導きます。...

インタビュアー: 「最後にアルゴリズムを書いてください。単一のリンクリストを使用して加算を実行してみましょう...」

[[286163]]質問: 空でない 2 つのリンク リストが与えられた場合、2 つの負でない整数...

データ保護にはAIベースのセキュリティ戦略が必要

回答者の半数だけが、自社のデータセキュリティ戦略が AI の発展に追いついていると答えました。さらに...

GitHubで3,000以上のいいねを獲得した「機械学習ロードマップ」は、モンスターをアップグレードして倒す方法を教えてくれる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

AI モデルの 3 種類のバイアスとその修正方法

自動化された意思決定ツールは組織内でますます一般的になりつつあります。しかし、顔認識システムからオン...

...

GIF 圧縮アルゴリズムの発明者が IEEE の最高栄誉賞を受賞

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...