AIが絵の描き方を教えてくれる

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

初心者の画家が上手な手描きの肖像画を描くにはどうすればいいでしょうか?

時間をかけて練習するだけでなく、以下のツールも使えるかもしれません！

まず、次のように顔の輪郭を描く必要があります。

すると、コンピューターは肖像画の全体的な構造の線を参考のために表示します。

次に、顔の細部のヒントラインを示します。

最終的には、次のような作品を描くことができるようになります。

初心者が白紙を素手で使うよりずっといいと思いませんか？

肖像画を描くための2ステップガイド

このツールはdualFaceと呼ばれます。

初心者や一般ユーザーが適切な肖像画を描くのに役立つ理由は、最初の線に従って描画できるためです。

肖像画の全体的な枠組みと局所的な詳細のスケッチ線を提供します。

それに従うだけで、絵の訓練を受けていない不器用な人でも完成できます！

グローバルガイダンスの段階では、dualFace は、ユーザーが描いた大まかなアウトラインに基づいて、内部データベースから関連する複数の顔を検索できます。

ポートレートを閉じて、キャンバスの背景に顔の輪郭の候補を表示します。

ローカルガイダンス段階では、dualFace はグローバルガイダンスによって描かれた輪郭を使用して、深層生成モデルを使用して顔画像を合成します。

次に、合成結果の詳細（目、鼻、口など）を補助線として指定します。

グローバルステージでは、ポートレートはデータベース内の実際の肖像画であることに注意してください。ローカルステージは合成された仮想ポートレートです。

両方のステージで同じポートレートを使用しないのはなぜですか?

これは、コンピューターによるガイダンスをより多様化するために行われます。結局のところ、データベース内の人数は限られています。

モデルは、より詳細に肖像画を区別できます。

さらに、dualFace には切り替え機能があり、ユーザーは最も適切なローカルガイダンスを選択できます。

ローカルガイドが期待どおりでないとユーザーが判断した場合は、ボタンをクリックして描画プロセスを完全なガイドに戻すことができます。

局ステージ。

これら 2 つのステージの動作は次のとおりです。

グローバルブート

グローバルガイダンスステージは、データ生成、輪郭マッチング、インタラクティブガイダンスの 3 つのステップに分かれています。

データ生成は、データベース内の顔画像を顔の輪郭に変換することです。

彼らは双方向セグメンテーションネットワーク (BiSeNet) を使用して、元の顔画像の意味ラベルマスクを生成しました。ここから

顔の輪郭はセマンティックラベルマスクから抽出されます。マスクの各ピクセル（目、鼻、口など）には

元の画像の顔タグ ID (後で検索しやすくするため)。

さらに、輪郭画像は対応する元の顔画像と一緒に保存されます。

輪郭マッチングステップでは、ユーザーが描いた輪郭とデータベースに保存されている輪郭画像との類似度を計算し、最も近い輪郭を取得します。

クローズアップ画像。 GALIF（ガボール局所線ベース特徴、局所線に基づくガボール）を使用する

スケッチ検索とローカル形状マッチングのための画像特徴記述子（R特徴記述子）を使用します。

インタラクティブなガイダンスステップでは、ユーザーの継続的に更新されるストロークに基づいて、最も類似した「候補オブジェクト」をリアルタイムで取得し、それらを変換します。

シャドウマップ。

現地ガイド

全体的な構造図を提供した後、システムは詳細な線の提供を開始します。

ローカルガイダンスステージは、マスク生成とポートレートスケッチ生成の 2 つのステップで構成されます。

マスク生成ステップでは、グローバルステージでのユーザーの描画と、グローバルステージで生成されたデータを使用します - データ生成部分

ライブラリのフェイスマスクでは、システムは以下に示すように最終的なマスクを生成できます。

肖像画生成ステップでは、MaskGANを使用して前の段階に一致する「実際の人物」の肖像画を生成し、APdrawi

ngGAN は肖像画をスケッチに変換します。

その中で、2つの生成モデルは独立して訓練されているので、それらを接続するために、このステップでは勾配ブースティング決定も使用する。

GBDT ツリーは、顔のランドマークを計算し、マージされたマスクをバイナリ背景輪郭に変換するために使用されます。

この段階では、複数の詳細な肖像画のスケッチを生成でき、ユーザーは後続の描画の参照として最も必要なものを選択できます。

テスト。最初に描いたアウトラインが不完全でも問題ありません。「ストロークマスクマッピング」によって、欠けている部分を最適化できます。

「自動的に完了します。」

以上が二段階指導の具体的な実施プロセスです。

次に、ツールの有効性を定性的に検証するためにユーザー調査を実施しました。

抽象的な入力を正しく識別できません

DualFace は、Windows 10 プラットフォーム上で Python で記述されたリアルタイム描画プログラムです。

グローバルガイダンス段階では、マウスを放すたびに画像を取得するのに平均0.36秒かかりますが、ローカルガイダンス段階では、

ポートレート画像の撮影には2.78 秒かかります。

以下は、テスターの全体、ローカル、全体的なユーザーエクスペリエンスに関するアンケート調査の結果です。満点は5点、平均点は

3.9以上。

全体的なユーザーエクスペリエンスの点では、すべての参加者が、このツールによって肖像画をより上手に描くことができると感じました。

他の描画ツールと比較して、dualFace は空間関係や顔の詳細の描画評価において高い結果を達成しました。

平均スコアはそれぞれ4.5と4.32でした。

したがって、dualFace は、正しい顔の空間関係と詳細な顔の特徴を通じて、ユーザーがより良い結果を得られるようガイドできます。

他の描画プログラムでは実現できない肖像画の作成が可能です。

また、下の一番右の写真を見ると、dualFace で描画する時間は最短で 4 分 15 秒、最長で 17 分 15秒であることが分かります。

約10分後。ユーザーの描画スキルはさまざまですが、より多くの時間を費やすことで必然的に描画の質が向上します。

図の結果。

実験の結果は次のとおりです。

システムによって提供される案内マップのレベルは同様であることがわかりますが、最終結果はユーザーの実際の状況によって依然としてある程度制限されます。

描画レベル

しかし、前述のように、最後のグループは眉毛と目を描いただけであり、システムは制限されず、

完全なガイドマップ。

もちろん、彼らのアプローチにも限界があります。抽象的なスケッチを合理的なフェイスマスクに変換できない可能性があります。

例えば、次の図でユーザーが描いた輪郭の口が誤って鼻の一部とみなされ、次のような一連の結果になります。

写真の鼻は正しくありません。

これは、顔データベースに実際の写真が含まれており、dualFace はリアルなスタイルの肖像画の描画のみをサポートしているためです。

そのため、これを使用して顔の表情や誇張された漫画の形状などの高度なセマンティックスケッチを実現することは困難です。

著者について

このプロジェクトの研究者は、日本の北陸先端科学技術大学院大学と東京大学の研究者です。

前者は1990年に設立された研究機関としての特徴を持つ日本の国立大学であり、日本が支援する科学研究の重点分野を数多く有しています。

そのレベルは東京大学や京都大学に匹敵し、情報科学分野の研究は極めて先進的です。

研究メンバー7人のうち、論文の第一著者と第二著者を含む4人が中国人である。

試用版は GitHub からダウンロードできます。

https://github.com/shasph/dualFace

論文の宛先:

https://www.arxiv-vanity.com/papers/2104.12297/

<<: AIを活用して都市の建物の特性を識別し、地震などの災害に対するリスクを予測する

>>: 協働ロボットがインダストリー4.0戦略の中核となる理由

ICRA 2022 優秀論文: 自動運転用 2D 画像を鳥瞰図に変換し、モデル認識精度を 15% 向上

ブログ

「人工知能、データサイエンス、機械学習」について語る -- 概要

ブログ

ロボット犬の悩み：ネットセレブの研修生になるのは簡単だが、ビジネスの研修生になるのは難しい

ブログ

機械学習モデルの導入が不安ですか?ここにステップバイステップのチュートリアルがあります

ブログ

人工知能タスクに知っておくべき 11 個の Python ライブラリ

ブログ

機械学習モデルの仕組み

ブログ

AI とクラウドコンピューティングが出会うとき、サービスとしての AI は神でしょうか、それとも悪魔でしょうか?

ブログ

スマート革命の始まり！ AIは今後10年間で医療と芸術に革命を起こすだろう

ブログ

AIが絵の描き方を教えてくれる

肖像画を描くための2ステップガイド

グローバルブート

現地ガイド

抽象的な入力を正しく識別できません

著者について

ICRA 2022 優秀論文: 自動運転用 2D 画像を鳥瞰図に変換し、モデル認識精度を 15% 向上

「人工知能、データサイエンス、機械学習」について語る -- 概要

ロボット犬の悩み：ネットセレブの研修生になるのは簡単だが、ビジネスの研修生になるのは難しい

機械学習モデルの導入が不安ですか?ここにステップバイステップのチュートリアルがあります

人工知能タスクに知っておくべき 11 個の Python ライブラリ

機械学習モデルの仕組み

AI とクラウドコンピューティングが出会うとき、サービスとしての AI は神でしょうか、それとも悪魔でしょうか?

スマート革命の始まり！ AIは今後10年間で医療と芸術に革命を起こすだろう

推薦する

ルート計画、経路探索アルゴリズムの導入とコード実装

さようなら鉄丼！もう一つの業界が混乱に陥っています!中国建設銀行が正式に発表

巨大企業の障壁の中で、人工知能のサブセクターでリーダーが出現している。これはAIにとって真の新しいチャンスである。

SantaGPTが来ました！ GPT-4は完璧なクリスマスの実現をお手伝いします

AIは病気の診断や新薬の設計に大きな可能性を秘めている

感情分析に NLP を使用する理由は何ですか?

AIを使ってアニメーションを作成する方法と、さまざまなツールがあなたを待っています

人工知能技術はCOVID-19の流行との戦いで重要な役割を果たしてきた

2020 年のトップ 10 テクノロジートレンド

猫とチャットできるようになりました！生成型AIがもたらす包括的な革命：5年以内に初の動物言語を解読