シングルを保存: このオブジェクトジェネレーターは、将来のオブジェクトがどのように見えるかを確認するのに役立ちます

シングルを保存: このオブジェクトジェネレーターは、将来のオブジェクトがどのように見えるかを確認するのに役立ちます

将来の妻や夫がどんな人か分からないですか?さあ、まずはAIを使って予測してみましょう。

[[312332]]

長年独身だったあなたの大切な人がどんな姿になっているかを空想したことがありますか?最近、ディープラーニング コミュニティで、ニューラル ネットワークを通じて大切な人の外見を生成するオープン ソース プロジェクトが人気を集めています。どんな人と一緒になるか知りたいですか?生成された効果を試したネットユーザーもいる。

プロジェクトアドレス: https://github.com/irfanICMLL/CoupleGenerator

作者自身も2017年からオープンソースプロジェクトとして公開されており、当時はTensorFlowを使用していたが、最近プロジェクトがGitHubにアップデートされたと紹介している。

オブジェクトを取得するには、8800回のトレーニングステップのみが必要です

このプロジェクトでは、100組以上の新婚夫婦の結婚式の写真が使用され、画像はクローラーを使用してBaiduからクロールされました。

これらの結婚式の写真はすべて、お祝いの雰囲気のある単一の赤い背景、はっきりとした顔と顔の特徴という統一されたテンプレートを使用しており、モデルのトレーニングに親しみやすく便利です。

トレーニング サンプルの 1 つ。クロール方法: https://blog.csdn.net/qq_27879381/article/details/65015280#comments

モデルの構築とトレーニングでは、プロジェクトは画像の特徴を学習するためのスケルトン ネットワークとして VGG を使用します。 VGG は、2014 年に Karen Simonyan と Andrew Zisserman によって公開された一般的なニューラル ネットワーク アーキテクチャであり、複数のレイヤーを積み重ねることがコンピューター ビジョンのパフォーマンスを向上させる重要な要素であることを実証しました。 VGGNet には 16 または 19 のレイヤーが含まれており、主に小さな 3×3 畳み込み演算と 2×2 プーリング演算で構成されています。

VGG の利点は、プーリング操作を使用せずに複数の小さな畳み込みカーネルを積み重ねることで、パラメータの数を制限しながらネットワークの表現の深さを増やすことができることです。たとえば、単一の 7×7 層を使用する代わりに、3 つの 3×3 畳み込み層を積み重ねることで、いくつかの制限を克服できます。

まず、これは 1 つの非線形関数ではなく 3 つの非線形関数を組み合わせることで、決定関数の識別力と代表性を高めます。 2 番目に、受容野は変更されないまま、パラメータの数が 81% 削減されます。さらに、小さな畳み込みカーネルの使用は正規化子の役割も果たし、さまざまな畳み込みカーネルの有効性を向上させます。

結果を生成するプロセスでは、モデルは pix2pix メソッドを使用します。 Pix2pix は、GAN アーキテクチャに基づくスタイル転送モデルです。これは、Zhu Junyan らが執筆した論文「Image-to-Image Translation with Conditional Adversarial Networks」から生まれました。この論文は CVPR 2017 で公開されて以来、多くのフレームワークに実装されています。

Pix2pix は、ペアになった画像データを使用して、ある画像から別の画像に変換する方法を学習し、リアルな画像を生成します。

pix2pix を使用して、さまざまなスタイルや目的の画像を変換します。

Pix2pix では、ジェネレーターはエンコーダー/デコーダーまたは U-Net アーキテクチャを採用しています。

2 つの Pix2pix ジェネレータ アーキテクチャ。

では、このプロジェクトはどのように活用すればよいのでしょうか?

使い方

このプロジェクトでは、著者は次のようなコンテンツを提供しています。

  • CKPT モデル ファイル:

https://cloudstor.aarnet.edu.au/plus/s/YHDWgez1g3RFc6o

  • VGG 重みファイル:

https://github.com/machrisaa/tensorflow-vgg

  • トレーニングデータ:

https://cloudstor.aarnet.edu.au/plus/s/VWZJaWfbla3kFch

使用中は、VGG 重みファイルとトレーニング データをダウンロードし、コードを実行環境にダウンロードして、autotest.sh ファイルを実行する必要があります。

効果

8800 ステップのトレーニング後、モデルは指定された画像に対して次の生成結果を提供します。

トレーニングデータがあまりないことを考慮すると、生成される画像の品質にはまだ改善の余地があります。さらに、モデルがいくつかの興味深い特徴も学習していることに気づくでしょう。たとえば、元の画像の右上隅には結婚証明書があり、生成された画像でもこの特徴が保持されています。

プロジェクト著者紹介

このプロジェクトの作者は、現在オーストラリアのアデレード大学で Shen Chunhua 教授の指導の下、コンピューターサイエンスの博士号を取得している非常に美しい若い女性です。

[[312335]]

劉一凡。

劉さんは北京航空航天大学のオートメーション科学と電気工学学院で学士課程と修士課程を修了し、2016年に北京市優秀卒業生に選ばれました。 2018 年 11 月に博士号取得のためにアデレード大学に入学する前、彼女は Microsoft Research Asia の上級研究員であり、2018 ACM 優秀会員である Jingdong Wang 教授の客員学生でした。

Liu 氏の主な研究対象は、画像セマンティックセグメンテーションを含むニューラルコンピューティングとパターン認識の分野です。学術研究面では、2017年から2019年にかけて、CVPR、ICCV、PAKDD、IEA/AIE、PACLINGなどの国際学術会議に第一著者または共著者として発表した論文が多数採択され、その中には口頭発表論文も含まれていました。

これは彼女の個人ホームページです: https://irfanicmll.github.io/

実際のテスト結果はどうですか?

プロジェクトの効果を試すために、プロジェクトの事前トレーニング済みの重み (8800 回の反復) と VGG16 の事前トレーニング済みの重みもダウンロードしました。データ セットが非常に小さいため、まずはプロジェクト内のデータで効果を試します。以下に示すように、プロジェクトのデータセット ディレクトリ内の画像をテストに使用します。左側には 2 セットの入力画像が表示され、右側には出力画像が表示されます。生成された結果から判断すると、性別に関係なく、常にもう一方の外見を生成でき、少し肌の滑らかさも実現されています。

肖像画だけあげたらどうですか?現在、モデルの生成ルールは、入力画像の左側の肖像画を出力するというもののようです。肖像画が 1 つだけ入力された場合、効果は悪くなる可能性があります。この考えを検証するために、上記の 2 枚の写真を 1 枚の肖像画に切り取り、モデルに入力しました。さすがに今は世代があまりよくないですね。以下に示すように、左側に 2 セットの入力サンプルがあり、右側に出力エフェクトがあります。

データがテスト データセットから取得されない場合はどうなりますか?デフォルトの入力ルールをカップル写真にして再度試してみました。データセットにないカップルのポートレートサンプルを入力し、モデルの生成効果を確認します。下の図のように、左側が入力画像、右側が出力結果ですが、生成された画像は認識しにくいです。カップルの画像はオンライン検索結果から取得されました。

確かに、既存のデータを使用して将来のオブジェクトの出現を予測するというアイデアは良いものですが、データの量が少なすぎるため、モデルの一般化能力はまだ必要なレベルに達していません。一般的に、独身者はパートナーの写真を生成するためにこれだけに頼ることはできません。

プロジェクト作者はまた、データの量が比較的少なく、効果はあまり良くないが、コードとデータをさらなるトレーニングに利用することは誰でも歓迎され、プロジェクトの進捗にもさらに注目していくと述べた。

<<:  機械学習初心者必読: 6 つのシンプルで実用的なアルゴリズムと学習曲線

>>:  自動運転の知識 ポピュラーサイエンス 自動運転車の7つのコア技術

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

科学者らが世界最小の「カニ」遠隔操作歩行ロボットを公開。ノミよりも小さい

最近、米国ノースウェスタン大学のエンジニアたちが、小さくてかわいいカニの形をした、史上最小の遠隔操作...

ヘッドライトから始めて、自動運転はどのようにして攻撃性を排除するのでしょうか?

これは、鞭で打たれるとどんどん速く回転するコマのような「高離職率」社会です。技術推論において非常に重...

ビッグデータと人工知能が戦略的な新興分野となる

最近、教育部は「教育部の高等大学教育の建設を加速し、人材育成能力を全面的に向上させることに関する意見...

劉厳紅が7日間で1000万人のフォロワーを獲得した背後で、スマートフィットネス業界が静かに台頭している

ジェイ・チョウの『本草綱目』のメロディーにのせて、劉恒紅の健康指導が再び始まった。 7日間でフォロワ...

マスク氏はマイクロソフトの論文をOpenAIを訴える根拠として利用した。「あなたたちはすでにAGIを認めている」

おそらく、これを敢えて実行できるのはマスク氏だけだろう。 Microsoft の論文を証拠として使っ...

保険詐欺防止リスク管理の実践

1. 保険業界における詐欺防止に関する問題点とよくある事例保険業界における詐欺問題はますます深刻化し...

ドローンを飛ばすことはいつでもできるわけではない

[[354481]]古来より人々は鳥のように青い空を飛ぶことを夢見てきました。子供の頃の紙飛行機であ...

人工知能をより人間らしくする 高齢者向けにAIをもっとデジタル化すべき

人工知能は新たなインフラの一つとして、人々の社会生活のあらゆる分野に統合され、あらゆるものがつながり...

...

...

百度CTO王海鋒氏:オープンソースは技術革新と産業発展の原動力である

12月20日、国家深層学習技術応用工程研究室と百度が共催するWAVE SUMMIT+2020深層学習...

ロボットは銀行業務を破壊するのか?

[[223220]]世界経済フォーラムの最近のレポートでは、2020年までに先進国で500万の雇用...

公共の場での顔認識は全面的に禁止される可能性があります。ちょうど今、欧州議会はAI規制を強化することを決定した

[[427521]]昨日、欧州議会はAI生体認証技術に基づく大規模な監視の全面禁止を求める決議を可決...

...

...