漫画の着色に機械学習を使用する

何百ものトレーニングデータの例を手描きせずに、シンプルなカラースキームを自動的に適用できますか?

教師あり機械学習の大きな問題は、大量のカテゴリデータが必要になることです。特に、そのようなデータがない場合（世の中はビッグデータであふれていますが、ほとんどの人は未だにそのようなデータを持っていません）は、本当に問題です。

一部の企業は特定の種類の機密データを大量に利用できますが、ほとんどの組織やアプリケーションでは、適切な種類の機密データを十分に作成するのはコストがかかりすぎるため不可能です。ある時点では、これはまだデータがあまりない分野です (たとえば、まれな病気を診断する場合や、データが私たちが知っているわずかな情報と一致するかどうかを判断する場合など)。また、Amazon Turkers やサマージョブを使用して、必要なデータを手動で分類するのはコストがかかりすぎることもあります。映画ほどの長さのビデオの場合、フレームごとに分類するコストは、1 フレームあたり 1 セントでもすぐに膨れ上がってしまいます。

ビッグデータ需要の大きな問題

私たちのチームが現在解決しようとしている問題は、何百、何千もの手描きのトレーニングデータがなくても、白黒のピクセル画像にシンプルなカラースキームを自動的に提供するようにモデルをトレーニングできるかどうかです。

この実験（私たちは Dragon Painting と呼んでいます）では、ディープラーニングにおける分類データに対する膨大な需要に対処するために、次のアプローチを使用します。

急速に増加する小規模データセットにはルールベースの戦略を使用します。
トレーニングデータが非常に限られている場合に自動漫画レンダリングを実現するために、TensorFlow 画像変換モデルである Pix2Pix フレームワークを借用します。

私は、論文 (Isola らによる「Image-to-Image Translation with Conditional Adversarial Networks」) で説明されている機械学習画像変換モデルである Pix2Pix フレームワークを見たことがあります。このフレームワークでは、A が風景画像 B のグレースケールバージョンであると想定し、AB ペアでトレーニングした後に風景画像に色を付けます。私の問題もこれに似ていますが、唯一の問題はトレーニングデータです。

このモデルをトレーニングするためのカラー画像を提供するために、一生をかけて絵を描いたり色を塗ったりしたくないので、必要なトレーニングデータは非常に限られています。ディープラーニングモデルには、数千 (または数百) のトレーニングデータが必要です。

Pix2Pix のケースに基づくと、少なくとも 400 ～ 1000 個の白黒データとカラーデータのペアが必要です。どれくらい描きたいかと聞かれましたよね？たぶん30だけ。漫画の花と漫画のドラゴンの小さなコレクションを描いて、それらをデータセットに含めることができるかどうかを確認しました。

80% ソリューション: コンポーネントごとに色分け

コンポーネントルールに従って白黒ピクセルをカラー化する

トレーニングデータが不足している場合、最初に尋ねるべき質問は、問題に対する優れた非機械学習アプローチがあるかどうか、完全な解決策がない場合は部分的な解決策があるかどうか、そしてその部分的な解決策は私たちにとって役立つかどうかです。花やドラゴンに色を付けるには、本当に機械学習の手法が必要なのでしょうか?あるいは、色付けの幾何学的ルールを指定できるでしょうか?

コンポーネントごとに色分けする方法

今、私の問題を解決するための機械学習以外のアプローチがあります。私は子供に、自分の絵をどのように着色したいかを伝えることができました。花の中心をオレンジ色に、花びらを黄色に、ドラゴンの体をオレンジ色に、ドラゴンのトゲを黄色に塗るのです。

最初は、これが役に立たないように見えました。なぜなら、コンピューターは中心が何なのか、花びらが何なのか、本体が何なのか、そしてスパイクが何なのかを知らなかったからです。しかし、花とドラゴンの部分を連結コンポーネントの観点から定義し、絵画の 80% を着色するための幾何学的ソリューションを得ることができることがわかりました。80% では十分ではありませんが、戦略的違反変換、パラメーター、機械学習を使用して、部分的なルールベースのソリューションを 100% に導くことができます。

接続されたコンポーネントは、Windows ペイント (または同様のアプリケーション) の色を使用します。たとえば、バイナリの白黒画像に色を付ける場合、白いピクセルをクリックすると、白いピクセルは黒を通過せずに新しい色に変わります。漫画のドラゴンや花のスケッチでは、最も大きな白い部分は背景で、次に大きい部分は胴体（腕と脚を含む）または花の中心で、残りはトゲと花びらです。ドラゴンの目は例外で、背景からの距離で区別できます。

戦略的なルールとPix2Pixを使用して100％に到達します

私のスケッチの一部はルールに従っていません。不注意に引いた線が隙間を残したり、後ろ足がトゲで着色されたり、中央に小さなデイジーが描かれたときに花びらと中心が入れ替わったりします。

幾何学的ルールを使用して色付けできない 20% については、他の方法で対処する必要があります。そこで、Pix2Pix モデルを使用します。このモデルでは、ルールに違反する例を含め、少なくとも 400 ～ 1000 個のスケッチ/色のペアをデータセットとして必要とします (Pix2Pix 論文の最小データセット)。

したがって、ルールに違反するすべての例については、手動で色を付ける (後ろ足など) か、ルールに従ったスケッチ/色のペアをいくつか選択してルールを破ることになります。 A 内のいくつかの線を削除するか、同じ関数 (f) を使用して中央に配置された花 A と B をさらに変換して、データセットに追加できる、中央に配置された小さな花の新しいペア f(A) と f(B) を作成します。

ガウスフィルタと同相写像を使用して最大化する

コンピュータービジョンでは、幾何学的変換を使用してデータセットを拡張するのが一般的です。たとえば、ループ、パン、ズームなどです。

しかし、ひまわりをデイジーに変えたり、ドラゴンの鼻をボールとトゲに変えたりする必要がある場合はどうでしょうか?

あるいは、データの量を増やして過剰適合を無視する必要がある場合はどうでしょうか?次に、最初のデータセットの 10 ～ 30 倍の大きさのデータセットが必要になります。

ひまわりはr -> rキューブによってデイジーに変換されます

ガウスフィルタの強化

単位円の特定の同相写像は、美しいデイジー (r -> r 立方体など) を作成でき、ガウスフィルターはドラゴンの鼻を変形できます。これらは両方とも、急速に成長しているデータセットに非常に役立ち、生成される大量のデータこそが私たちが必要としているものです。ただし、アフィン変換ではできない方法で描画のスタイルを変更し始める可能性もあります。

これにより、単純なカラー化スキームを自動的に設計する方法についてのこれまでの考察よりもさらに別の疑問が生じます。外部の観察者とアーティスト自身の両方にとって、アーティストのスタイルを定義するものは何でしょうか?彼らはいつ自分たちの絵画スタイルを確立したのでしょうか？独自の描画アルゴリズムがないなんてあり得ないですよね？ツール、アシスタント、共同作業者の違いは何ですか?

どこまで行けるでしょうか？

塗装への投資はどの程度まで抑えられるのでしょうか?特定のアーティストの作品として認識できるテーマとスタイルを維持しながら、どれだけのバリエーションと複雑さを生み出すことができるでしょうか?無限のキリン、ドラゴン、花が描かれたパレードの巻物を完成させるには何が必要ですか?このような写真があったら、何ができるでしょうか?

これらは、私たちが今後の研究で引き続き検討していく問題です。

しかし今では、ルール、拡張機能、Pix2Pix モデルが機能します。花の色付けは結構うまくできたので、ドラゴンの色付けもできたらいいなと思います。

結果: 花のモデルをトレーニングして花を着色します。

結果: ドラゴンモデルのトレーニングのトレーニング結果。

さらに詳しく知るには、PyCon Cleveland 2018 での Gretchen Greene の講演「DragonPaint – 小さなデータから漫画に色を付ける」にご参加ください。

<<: 2018年栄智連ITイネーブラーサミットのゲストラインナップが発表されました

>>: 誇大宣伝サイクルを経ても、チャットボットがまだ普及していないのはなぜでしょうか?