トランプの「猫と犬バージョン」を生成、偽顔ツールStarGANv2が壊れており、アルゴリズムがオープンソース化されている

トランプの「猫と犬バージョン」を生成、偽顔ツールStarGANv2が壊れており、アルゴリズムがオープンソース化されている

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

AIを使ってトランプ大統領の顔を猫に変えたり、自分の顔を美しいオルセンと組み合わせたりしたいとしたら、どうしますか?

おそらく、2 つの AI ツールを思い浮かべるでしょう。しかし、Deepfake で生成された顔は不自然すぎる上、GAN で生成された偽の顔は深くカスタマイズすることが困難です。

現在、韓国のチームによって開発されたスタイル転送モデル StarGANv2 は、この問題を完璧に解決できます。

GANに以前から注目してきた学生であれば、2017年末に高麗大学とClova AI研究所が立ち上げたスタイル転送モデルであるStarGANを覚えているはずです。

顔写真を入力するだけで、StarGAN は髪型、性別、年齢を変更した後のあなたの姿を教えてくれます。

StarGANv2は同じ研究チームによってリリースされたアップグレード版であり、CVPR 2020に含まれています。最近、彼らは公式の実装コードを GitHub でリリースし、ネットユーザーによってすぐに試されました。

StarGANv2 には、人間の顔用と動物の顔用の 2 つのトレーニング データセットがあります。

もともとこの2つは「別々」だったが、一部の人々はこの2つを混ぜて、トランプ氏の顔を動物の顔の事前トレーニングモデルに入力することを主張した。その結果、猫に変わったトランプ氏の顔は次のようになります。

犬の顔と合成するとこうなります。モデルさんは犬にスーツまで着せています。

インストールと使用方法

このような興味深いモデルをインストールするにはどうすればいいでしょうか?幸いなことに、StarGANv2 開発チームは完全なコードと事前トレーニング済みのモデルを提供しました。

まず、プロジェクトをローカルにクローンします。

  1. git クローンhttps://github.com/clovaai/stargan-v2.git
  2. cd スターガン-v2/

依存関係をインストールします:

  1. conda create -n スターガン- v2 python = 3.6.7
  2. conda をアクティブ化 stargan-v2
  3. conda インストール -y pytorch= 1.4 . 0 torchvision= 0.5 . 0 cudatoolkit= 10.0 -c pytorch
  4. conda インストール x264==' 1 ! 152.20180717 ' ffmpeg= 4.0 . 2 -c conda-forge
  5. pip で opencv-python== 4.1 . 2.30 ffmpeg-python== 0.2 . 0 scikit-image== 0.16 . 2 をインストールします
  6. pip インストール pillow== 7.0 . 0 scipy== 1.2 . 1 tqdm== 4.43 . 0 munch== 2.5 . 0

次に、事前トレーニング済みのデータセットをダウンロードします。最初の 2 つは顔データセットと事前トレーニング済みのモデルで、後者は動物の顔です。

  1. bash download.sh 事前トレーニング済みネットワーク-celeba-hq
  2. bash ダウンロード.sh ウィング
  3. bash ダウンロード.sh 事前トレーニング済みネットワーク-afhq

最後に、変換する写真をデータセット内の画像と同じアスペクト比にトリミングし、次のコマンドを入力して画像を変換します。

  1. python main.py --mode サンプル --num_domains 2 --resume_iter 100000 --w_hpf 1 \
  2. --checkpoint_dir expr/checkpoints/celeba_hq \
  3. --result_dir expr/results/celeba_hq \
  4. —src_dir 資産/代表者/celeba_hq/src \
  5. --ref_dir 資産/代表者/celeba_hq/ref

その効果は他のGANよりもはるかに優れている

StarGANv2 は 4 つのモジュールで構成されています。

  1. ジェネレーターは、入力画像を特定のドメインのスタイル エンコーディングを反映した出力画像に変換します。
  2. マッピング ネットワークは、潜在コードをトレーニング中にランダムに選択された複数のドメインのスタイル エンコーディングに変換します。
  3. スタイル エンコーダーは画像のスタイル エンコーディングを抽出し、ジェネレーターが参照ガイド付き画像合成を実行できるようにします。
  4. 識別器は、複数のドメインから本物の画像と偽の画像を区別します。

著者はスタイル転送実験のためにランダムに 10 枚の画像を選択しましたが、結果として得られた FID は他の同様のモデルよりもはるかに小さくなりました。

また、4 つのモデルによって生成された画像を A​​MT プラットフォームにアップロードして手動で選択しました。テスターの大多数は、StarGANv2 によって生成された画像の方が高品質であると考えました。

手動選択の結果からも、StarGANv2 は動物の顔を生成するのに優れていることがわかります。ネットユーザーがトランプ氏のアバターを動物モデルで作り変えたいと思うのも不思議ではありません。

ポータル

論文アドレス: https://arxiv.org/abs/1912.01865v2

公式実装コード: https://github.com/clovaai/stargan-v2

<<:  安全な生産を守り、ロボット、IoTなどの技術サポートを提供します。

>>:  モンローとドラゴンマザーがあなたと話すことを学びましょう。静止画とビデオだけです

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

.Netガベージコレクションメカニズムはアルゴリズムと世代の年齢を理解します

ガベージ コレクターは基本的に、すべてのオブジェクトが参照されている場所を追跡し、オブジェクトが参照...

PenFedは人工知能を活用して高度なパーソナライゼーションを実現

米国第2位の信用組合であるPenFedは、人工知能を活用して顧客とのやり取りの方法を変えようとしてい...

顔認識の今後の発展は、どうすればより「面子を保つ」ことができるでしょうか?

顔認識技術の利用が増えるにつれ、さまざまなリスクが徐々に明らかになってきています。 CCTVの「3....

...

2022 年のビジネス インテリジェンスの 7 つのトレンド

ビジネス インテリジェンスは AI に置き換えられることはありません。BI は今でも存在し、役立って...

生成AIとクラウドの相互利益を探る

近年、生成 AI とクラウドの融合に関心が集まっているのには理由があります。人工知能 (AI) とク...

FacebookはVRキーボードを使ってデータを入力する方法を開発中

海外メディアの報道によると、仮想現実(VR)でオフィスワークを遂行するのは容易ではないという。本当に...

ビジネスリーダーがAIを導入する際に指針となる5つの基本原則

たとえば、私が 25 年以上携わってきた市場調査業界を考えてみましょう。 AI は、さまざまな方法で...

クラウド ネイティブが新たな標準になりますが、人工知能はそれに備えていますか?

テクノロジーの発展に伴い、クラウド コンピューティング テクノロジーは進歩し続け、その目的も変化して...

Byteチームは、認知生成リストSoTAを理解するためのマルチモーダルLLMであるLynxモデルを提案しました。

GPT4 などの現在の大規模言語モデル (LLM) は、画像が与えられた場合にオープンエンドの指示...

スマートロボットが顧客サービスに革命を起こす

カスタマー サービスにおけるインテリジェント ボットは顧客データを収集して分析し、消費者の行動や好み...

機械学習におけるモデルドリフト

今日、機械学習モデルはビジネス上の意思決定の主な原動力となっています。他のビジネス戦略と同様に、これ...

DingTalk Flutter クロス 4 端末ソリューションの設計と技術実践

この記事では、主にDingTalkがFlutterをベースに構築したクロスクアッドターミナルアプリケ...