シングルを保存: このオブジェクトジェネレーターは、将来のオブジェクトがどのように見えるかを確認するのに役立ちます

将来の妻や夫がどんな人か分からないですか?さあ、まずはAIを使って予測してみましょう。

[[312332]]

長年独身だったあなたの大切な人がどんな姿になっているかを空想したことがありますか?最近、ディープラーニングコミュニティで、ニューラルネットワークを通じて大切な人の外見を生成するオープンソースプロジェクトが人気を集めています。どんな人と一緒になるか知りたいですか?生成された効果を試したネットユーザーもいる。

プロジェクトアドレス: https://github.com/irfanICMLL/CoupleGenerator

作者自身も2017年からオープンソースプロジェクトとして公開されており、当時はTensorFlowを使用していたが、最近プロジェクトがGitHubにアップデートされたと紹介している。

オブジェクトを取得するには、8800回のトレーニングステップのみが必要です

このプロジェクトでは、100組以上の新婚夫婦の結婚式の写真が使用され、画像はクローラーを使用してBaiduからクロールされました。

これらの結婚式の写真はすべて、お祝いの雰囲気のある単一の赤い背景、はっきりとした顔と顔の特徴という統一されたテンプレートを使用しており、モデルのトレーニングに親しみやすく便利です。

トレーニングサンプルの 1 つ。クロール方法: https://blog.csdn.net/qq_27879381/article/details/65015280#comments

モデルの構築とトレーニングでは、プロジェクトは画像の特徴を学習するためのスケルトンネットワークとして VGG を使用します。 VGG は、2014 年に Karen Simonyan と Andrew Zisserman によって公開された一般的なニューラルネットワークアーキテクチャであり、複数のレイヤーを積み重ねることがコンピュータービジョンのパフォーマンスを向上させる重要な要素であることを実証しました。 VGGNet には 16 または 19 のレイヤーが含まれており、主に小さな 3×3 畳み込み演算と 2×2 プーリング演算で構成されています。

VGG の利点は、プーリング操作を使用せずに複数の小さな畳み込みカーネルを積み重ねることで、パラメータの数を制限しながらネットワークの表現の深さを増やすことができることです。たとえば、単一の 7×7 層を使用する代わりに、3 つの 3×3 畳み込み層を積み重ねることで、いくつかの制限を克服できます。

まず、これは 1 つの非線形関数ではなく 3 つの非線形関数を組み合わせることで、決定関数の識別力と代表性を高めます。 2 番目に、受容野は変更されないまま、パラメータの数が 81% 削減されます。さらに、小さな畳み込みカーネルの使用は正規化子の役割も果たし、さまざまな畳み込みカーネルの有効性を向上させます。

結果を生成するプロセスでは、モデルは pix2pix メソッドを使用します。 Pix2pix は、GAN アーキテクチャに基づくスタイル転送モデルです。これは、Zhu Junyan らが執筆した論文「Image-to-Image Translation with Conditional Adversarial Networks」から生まれました。この論文は CVPR 2017 で公開されて以来、多くのフレームワークに実装されています。

Pix2pix は、ペアになった画像データを使用して、ある画像から別の画像に変換する方法を学習し、リアルな画像を生成します。

pix2pix を使用して、さまざまなスタイルや目的の画像を変換します。

Pix2pix では、ジェネレーターはエンコーダー/デコーダーまたは U-Net アーキテクチャを採用しています。

2 つの Pix2pix ジェネレータアーキテクチャ。

では、このプロジェクトはどのように活用すればよいのでしょうか?

使い方

このプロジェクトでは、著者は次のようなコンテンツを提供しています。

CKPT モデルファイル:

https://cloudstor.aarnet.edu.au/plus/s/YHDWgez1g3RFc6o

VGG 重みファイル:

https://github.com/machrisaa/tensorflow-vgg

トレーニングデータ:

https://cloudstor.aarnet.edu.au/plus/s/VWZJaWfbla3kFch

使用中は、VGG 重みファイルとトレーニングデータをダウンロードし、コードを実行環境にダウンロードして、autotest.sh ファイルを実行する必要があります。

効果

8800 ステップのトレーニング後、モデルは指定された画像に対して次の生成結果を提供します。

トレーニングデータがあまりないことを考慮すると、生成される画像の品質にはまだ改善の余地があります。さらに、モデルがいくつかの興味深い特徴も学習していることに気づくでしょう。たとえば、元の画像の右上隅には結婚証明書があり、生成された画像でもこの特徴が保持されています。

プロジェクト著者紹介

このプロジェクトの作者は、現在オーストラリアのアデレード大学で Shen Chunhua 教授の指導の下、コンピューターサイエンスの博士号を取得している非常に美しい若い女性です。

[[312335]]

劉一凡。

劉さんは北京航空航天大学のオートメーション科学と電気工学学院で学士課程と修士課程を修了し、2016年に北京市優秀卒業生に選ばれました。 2018 年 11 月に博士号取得のためにアデレード大学に入学する前、彼女は Microsoft Research Asia の上級研究員であり、2018 ACM 優秀会員である Jingdong Wang 教授の客員学生でした。

Liu 氏の主な研究対象は、画像セマンティックセグメンテーションを含むニューラルコンピューティングとパターン認識の分野です。学術研究面では、2017年から2019年にかけて、CVPR、ICCV、PAKDD、IEA/AIE、PACLINGなどの国際学術会議に第一著者または共著者として発表した論文が多数採択され、その中には口頭発表論文も含まれていました。

これは彼女の個人ホームページです: https://irfanicmll.github.io/

実際のテスト結果はどうですか?

プロジェクトの効果を試すために、プロジェクトの事前トレーニング済みの重み (8800 回の反復) と VGG16 の事前トレーニング済みの重みもダウンロードしました。データセットが非常に小さいため、まずはプロジェクト内のデータで効果を試します。以下に示すように、プロジェクトのデータセットディレクトリ内の画像をテストに使用します。左側には 2 セットの入力画像が表示され、右側には出力画像が表示されます。生成された結果から判断すると、性別に関係なく、常にもう一方の外見を生成でき、少し肌の滑らかさも実現されています。

肖像画だけあげたらどうですか？現在、モデルの生成ルールは、入力画像の左側の肖像画を出力するというもののようです。肖像画が 1 つだけ入力された場合、効果は悪くなる可能性があります。この考えを検証するために、上記の 2 枚の写真を 1 枚の肖像画に切り取り、モデルに入力しました。さすがに今は世代があまりよくないですね。以下に示すように、左側に 2 セットの入力サンプルがあり、右側に出力エフェクトがあります。

データがテストデータセットから取得されない場合はどうなりますか?デフォルトの入力ルールをカップル写真にして再度試してみました。データセットにないカップルのポートレートサンプルを入力し、モデルの生成効果を確認します。下の図のように、左側が入力画像、右側が出力結果ですが、生成された画像は認識しにくいです。カップルの画像はオンライン検索結果から取得されました。

確かに、既存のデータを使用して将来のオブジェクトの出現を予測するというアイデアは良いものですが、データの量が少なすぎるため、モデルの一般化能力はまだ必要なレベルに達していません。一般的に、独身者はパートナーの写真を生成するためにこれだけに頼ることはできません。

プロジェクト作者はまた、データの量が比較的少なく、効果はあまり良くないが、コードとデータをさらなるトレーニングに利用することは誰でも歓迎され、プロジェクトの進捗にもさらに注目していくと述べた。

<<: 機械学習初心者必読: 6 つのシンプルで実用的なアルゴリズムと学習曲線

>>: 自動運転の知識ポピュラーサイエンス自動運転車の7つのコア技術