トランプの「猫と犬バージョン」を生成、偽顔ツールStarGANv2が壊れており、アルゴリズムがオープンソース化されている

トランプの「猫と犬バージョン」を生成、偽顔ツールStarGANv2が壊れており、アルゴリズムがオープンソース化されている

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

AIを使ってトランプ大統領の顔を猫に変えたり、自分の顔を美しいオルセンと組み合わせたりしたいとしたら、どうしますか?

おそらく、2 つの AI ツールを思い浮かべるでしょう。しかし、Deepfake で生成された顔は不自然すぎる上、GAN で生成された偽の顔は深くカスタマイズすることが困難です。

現在、韓国のチームによって開発されたスタイル転送モデル StarGANv2 は、この問題を完璧に解決できます。

GANに以前から注目してきた学生であれば、2017年末に高麗大学とClova AI研究所が立ち上げたスタイル転送モデルであるStarGANを覚えているはずです。

顔写真を入力するだけで、StarGAN は髪型、性別、年齢を変更した後のあなたの姿を教えてくれます。

StarGANv2は同じ研究チームによってリリースされたアップグレード版であり、CVPR 2020に含まれています。最近、彼らは公式の実装コードを GitHub でリリースし、ネットユーザーによってすぐに試されました。

StarGANv2 には、人間の顔用と動物の顔用の 2 つのトレーニング データセットがあります。

もともとこの2つは「別々」だったが、一部の人々はこの2つを混ぜて、トランプ氏の顔を動物の顔の事前トレーニングモデルに入力することを主張した。その結果、猫に変わったトランプ氏の顔は次のようになります。

犬の顔と合成するとこうなります。モデルさんは犬にスーツまで着せています。

インストールと使用方法

このような興味深いモデルをインストールするにはどうすればいいでしょうか?幸いなことに、StarGANv2 開発チームは完全なコードと事前トレーニング済みのモデルを提供しました。

まず、プロジェクトをローカルにクローンします。

  1. git クローンhttps://github.com/clovaai/stargan-v2.git
  2. cd スターガン-v2/

依存関係をインストールします:

  1. conda create -n スターガン- v2 python = 3.6.7
  2. conda をアクティブ化 stargan-v2
  3. conda インストール -y pytorch= 1.4 . 0 torchvision= 0.5 . 0 cudatoolkit= 10.0 -c pytorch
  4. conda インストール x264==' 1 ! 152.20180717 ' ffmpeg= 4.0 . 2 -c conda-forge
  5. pip で opencv-python== 4.1 . 2.30 ffmpeg-python== 0.2 . 0 scikit-image== 0.16 . 2 をインストールします
  6. pip インストール pillow== 7.0 . 0 scipy== 1.2 . 1 tqdm== 4.43 . 0 munch== 2.5 . 0

次に、事前トレーニング済みのデータセットをダウンロードします。最初の 2 つは顔データセットと事前トレーニング済みのモデルで、後者は動物の顔です。

  1. bash download.sh 事前トレーニング済みネットワーク-celeba-hq
  2. bash ダウンロード.sh ウィング
  3. bash ダウンロード.sh 事前トレーニング済みネットワーク-afhq

最後に、変換する写真をデータセット内の画像と同じアスペクト比にトリミングし、次のコマンドを入力して画像を変換します。

  1. python main.py --mode サンプル --num_domains 2 --resume_iter 100000 --w_hpf 1 \
  2. --checkpoint_dir expr/checkpoints/celeba_hq \
  3. --result_dir expr/results/celeba_hq \
  4. —src_dir 資産/代表者/celeba_hq/src \
  5. --ref_dir 資産/代表者/celeba_hq/ref

その効果は他のGANよりもはるかに優れている

StarGANv2 は 4 つのモジュールで構成されています。

  1. ジェネレーターは、入力画像を特定のドメインのスタイル エンコーディングを反映した出力画像に変換します。
  2. マッピング ネットワークは、潜在コードをトレーニング中にランダムに選択された複数のドメインのスタイル エンコーディングに変換します。
  3. スタイル エンコーダーは画像のスタイル エンコーディングを抽出し、ジェネレーターが参照ガイド付き画像合成を実行できるようにします。
  4. 識別器は、複数のドメインから本物の画像と偽の画像を区別します。

著者はスタイル転送実験のためにランダムに 10 枚の画像を選択しましたが、結果として得られた FID は他の同様のモデルよりもはるかに小さくなりました。

また、4 つのモデルによって生成された画像を A​​MT プラットフォームにアップロードして手動で選択しました。テスターの大多数は、StarGANv2 によって生成された画像の方が高品質であると考えました。

手動選択の結果からも、StarGANv2 は動物の顔を生成するのに優れていることがわかります。ネットユーザーがトランプ氏のアバターを動物モデルで作り変えたいと思うのも不思議ではありません。

ポータル

論文アドレス: https://arxiv.org/abs/1912.01865v2

公式実装コード: https://github.com/clovaai/stargan-v2

<<:  安全な生産を守り、ロボット、IoTなどの技術サポートを提供します。

>>:  モンローとドラゴンマザーがあなたと話すことを学びましょう。静止画とビデオだけです

ブログ    
ブログ    
ブログ    

推薦する

世界をより高いレベルのイノベーションへと導く AI テクノロジー トップ 10

Analytics Insight は、世界を次のレベルのイノベーションに押し上げるトップ 10 ...

岐路に立つ交通:自動運転の未来はどうなるのか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

OpenAI CLIPモデルポケット版、24MBでテキスト画像マッチングを実現、iPhoneでも実行可能

OpenAI の CLIP モデルは、画像とテキスト カテゴリのマッチングに非常に優れていますが、元...

AIGCと因果推論により双方向の

本文に入る前に、まずはJiuzhang Yunji DataCanvasを紹介したいと思います。九張...

警告!長距離LiDAR認識

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

ハードコア! CES 2021 アワード: 労働者は仮想人間、口紅は AI アルゴリズムを追加、ロボットは毛皮で覆われる

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

2022年、人工知能が未来への新たなパスワードを開く

大型家電や自動車を購入するとき、インテリジェント音声機能が搭載されているかどうかを尋ねますか?はい、...

人工知能医療機器業界は前進する

[[443093]]新世代の人工知能技術の台頭は、医療業界にインテリジェント変革を実現するための新た...

AIが人事と採用を変える3つの方法

[[407974]]人工知能はこれまで以上にビジネスにおいて重要な役割を果たしています。プロフェッシ...

...

エッジコンピューティングの探究: プロセッサ、アルゴリズム、メモリ

エッジコンピューティングとは最近、エッジコンピューティングは、人工知能やモノのインターネットの分野で...

2019年にロボット競争は減速するでしょうか?

[[253005]] 「中国製造2025」の実施に伴い、ロボット産業は社会への参入を加速し始めてい...