漫画の着色に機械学習を使用する

漫画の着色に機械学習を使用する

何百ものトレーニング データの例を手描きせずに、シンプルなカラー スキームを自動的に適用できますか?

教師あり機械学習の大きな問題は、大量のカテゴリデータが必要になることです。特に、そのようなデータがない場合(世の中はビッグデータであふれていますが、ほとんどの人は未だにそのようなデータを持っていません)は、本当に問題です。

一部の企業は特定の種類の機密データを大量に利用できますが、ほとんどの組織やアプリケーションでは、適切な種類の機密データを十分に作成するのはコストがかかりすぎるため不可能です。ある時点では、これはまだデータがあまりない分野です (たとえば、まれな病気を診断する場合や、データが私たちが知っているわずかな情報と一致するかどうかを判断する場合など)。また、Amazon Turkers やサマージョブを使用して、必要なデータを手動で分類するのはコストがかかりすぎることもあります。映画ほどの長さのビデオの場合、フレームごとに分類するコストは、1 フレームあたり 1 セントでもすぐに膨れ上がってしまいます。

ビッグデータ需要の大きな問題

私たちのチームが現在解決しようとしている問題は、何百、何千もの手描きのトレーニング データがなくても、白黒のピクセル画像にシンプルなカラー スキームを自動的に提供するようにモデルをトレーニングできるかどうかです。

この実験(私たちは Dragon Painting と呼んでいます)では、ディープラーニングにおける分類データに対する膨大な需要に対処するために、次のアプローチを使用します。

  • 急速に増加する小規模データセットにはルールベースの戦略を使用します。
  • トレーニング データが非常に限られている場合に自動漫画レンダリングを実現するために、TensorFlow 画像変換モデルである Pix2Pix フレームワークを借用します。

私は、論文 (Isola らによる「Image-to-Image Translation with Conditional Adversarial Networks」) で説明されている機械学習画像変換モデルである Pix2Pix フレームワークを見たことがあります。このフレームワークでは、A が風景画像 B のグレースケール バージョンであると想定し、AB ペアでトレーニングした後に風景画像に色を付けます。私の問題もこれに似ていますが、唯一の問題はトレーニング データです。

このモデルをトレーニングするためのカラー画像を提供するために、一生をかけて絵を描いたり色を塗ったりしたくないので、必要なトレーニング データは非常に限られています。ディープラーニング モデルには、数千 (または数百) のトレーニング データが必要です。

Pix2Pix のケースに基づくと、少なくとも 400 ~ 1000 個の白黒データとカラーデータのペアが必要です。どれくらい描きたいかと聞かれましたよね?たぶん30だけ。漫画の花と漫画のドラゴンの小さなコレクションを描いて、それらをデータセットに含めることができるかどうかを確認しました。

80% ソリューション: コンポーネントごとに色分け

コンポーネントルールに従って白黒ピクセルをカラー化する

トレーニング データが不足している場合、最初に尋ねるべき質問は、問題に対する優れた非機械学習アプローチがあるかどうか、完全な解決策がない場合は部分的な解決策があるかどうか、そしてその部分的な解決策は私たちにとって役立つかどうかです。花やドラゴンに色を付けるには、本当に機械学習の手法が必要なのでしょうか?あるいは、色付けの幾何学的ルールを指定できるでしょうか?

コンポーネントごとに色分けする方法

今、私の問題を解決するための機械学習以外のアプローチがあります。私は子供に、自分の絵をどのように着色したいかを伝えることができました。花の中心をオレンジ色に、花びらを黄色に、ドラゴンの体をオレンジ色に、ドラゴンのトゲを黄色に塗るのです。

最初は、これが役に立たないように見えました。なぜなら、コンピューターは中心が何なのか、花びらが何なのか、本体が何なのか、そしてスパイクが何なのかを知らなかったからです。しかし、花とドラゴンの部分を連結コンポーネントの観点から定義し、絵画の 80% を着色するための幾何学的ソリューションを得ることができることがわかりました。80% では十分ではありませんが、戦略的違反変換、パラメーター、機械学習を使用して、部分的なルールベースのソリューションを 100% に導くことができます。

接続されたコンポーネントは、Windows ペイント (または同様のアプリケーション) の色を使用します。たとえば、バイナリの白黒画像に色を付ける場合、白いピクセルをクリックすると、白いピクセルは黒を通過せずに新しい色に変わります。漫画のドラゴンや花のスケッチでは、最も大きな白い部分は背景で、次に大きい部分は胴体(腕と脚を含む)または花の中心で、残りはトゲと花びらです。ドラゴンの目は例外で、背景からの距離で区別できます。

戦略的なルールとPix2Pixを使用して100%に到達します

私のスケッチの一部はルールに従っていません。不注意に引いた線が隙間を残したり、後ろ足がトゲで着色されたり、中央に小さなデイジーが描かれたときに花びらと中心が入れ替わったりします。

幾何学的ルールを使用して色付けできない 20% については、他の方法で対処する必要があります。そこで、Pix2Pix モデルを使用します。このモデルでは、ルールに違反する例を含め、少なくとも 400 ~ 1000 個のスケッチ/色のペアをデータセットとして必要とします (Pix2Pix 論文の最小データセット)。

したがって、ルールに違反するすべての例については、手動で色を付ける (後ろ足など) か、ルールに従ったスケッチ/色のペアをいくつか選択してルールを破ることになります。 A 内のいくつかの線を削除するか、同じ関数 (f) を使用して中央に配置された花 A と B をさらに変換して、データセットに追加できる、中央に配置された小さな花の新しいペア f(A) と f(B) を作成します。

ガウスフィルタと同相写像を使用して最大化する

コンピューター ビジョンでは、幾何学的変換を使用してデータセットを拡張するのが一般的です。たとえば、ループ、パン、ズームなどです。

しかし、ひまわりをデイジーに変えたり、ドラゴンの鼻をボールとトゲに変えたりする必要がある場合はどうでしょうか?

あるいは、データの量を増やして過剰適合を無視する必要がある場合はどうでしょうか?次に、最初のデータセットの 10 ~ 30 倍の大きさのデータセットが必要になります。

ひまわりはr -> rキューブによってデイジーに変換されます

ガウスフィルタの強化

単位円の特定の同相写像は、美しいデイジー (r -> r 立方体など) を作成でき、ガウス フィルターはドラゴンの鼻を変形できます。これらは両方とも、急速に成長しているデータセットに非常に役立ち、生成される大量のデータこそが私たちが必要としているものです。ただし、アフィン変換ではできない方法で描画のスタイルを変更し始める可能性もあります。

これにより、単純なカラー化スキームを自動的に設計する方法についてのこれまでの考察よりもさらに別の疑問が生じます。外部の観察者とアーティスト自身の両方にとって、アーティストのスタイルを定義するものは何でしょうか?彼らはいつ自分たちの絵画スタイルを確立したのでしょうか?独自の描画アルゴリズムがないなんてあり得ないですよね?ツール、アシスタント、共同作業者の違いは何ですか?

どこまで行けるでしょうか?

塗装への投資はどの程度まで抑えられるのでしょうか?特定のアーティストの作品として認識できるテーマとスタイルを維持しながら、どれだけのバリエーションと複雑さを生み出すことができるでしょうか?無限のキリン、ドラゴン、花が描かれたパレードの巻物を完成させるには何が必要ですか?このような写真があったら、何ができるでしょうか?

これらは、私たちが今後の研究で引き続き検討していく問題です。

しかし今では、ルール、拡張機能、Pix2Pix モデルが機能します。花の色付けは結構うまくできたので、ドラゴンの色付けもできたらいいなと思います。

結果: 花のモデルをトレーニングして花を着色します。

結果: ドラゴンモデルのトレーニングのトレーニング結果。

さらに詳しく知るには、PyCon Cleveland 2018 での Gretchen Greene の講演「DragonPaint – 小さなデータから漫画に色を付ける」にご参加ください。

<<:  2018年栄智連ITイネーブラーサミットのゲストラインナップが発表されました

>>:  誇大宣伝サイクルを経ても、チャットボットがまだ普及していないのはなぜでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

5G、AI、クラウドコンピューティング…東京五輪の裏側にある「ブラックテクノロジー」を徹底検証

8月8日夜、第32回夏季オリンピック競技大会(以下、東京オリンピック)が閉幕した。選手たちの俊敏な姿...

Google の新しい AI が話題に!世界で最も長い単語を描くことができる

友達、この英語の単語が何だか知っていますか?超微細珪火山性肺炎。これは45文字からなる世界最長の単語...

Heroku クラウドにディープラーニング Web アプリケーションをデプロイするためのヒントとコツ

[51CTO.com クイック翻訳] Heroku Cloud は、Web 開発者や機械学習愛好家の...

AI、機械学習、ディープラーニングのつながりと違いを1つの記事で理解する

急速に変化する今日のテクノロジーの世界では、人工知能 (AI)、機械学習 (ML)、ディープラーニン...

AIとIoTが交通管理に及ぼす6つの影響

物流と輸送は世界貿易とサプライチェーン管理にとって極めて重要であり、テクノロジーの急速な発展により、...

Daguan Data が自社開発の OCR と NLP 技術を統合し、インテリジェント RPA をリリース<

2019年7月26日、人工知能企業Daguan Dataは北京で「大道知建」をテーマにした製品発表...

複数のAI企業の人事担当者/面接官が明かす:機械学習エンジニアの採用方法

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

人工知能アルゴリズム: 遺伝的アルゴリズム

この本の最初の 2 章では、進化アルゴリズムをやや抽象的な意味で定義しています。スコアリング、選択、...

新しい展開のアイデア | Minuet: GPU での 3D スパース畳み込みの高速化

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

視覚慣性走行距離計のIMU事前統合モデルについてお話しましょう

エンジニアリングの実践では、単に視覚オドメトリ (VO) を使用するのではなく、視覚と IMU を組...

食品産業における人工知能:農家の意思決定を支援する

人工知能は食品システムを最適化できると思いますか? 精密農業からパーソナライズされた栄養管理まで、農...