ワンクリックで漫画に変身！流行のDouyin特殊効果の背後にある技術

昨日、李栄浩は目が小さいことで再び注目を集めた。

「特殊効果では李容浩の目は大きくできない」というトピックの下に、李容浩と楊丞琳の結婚式の写真を入れ替えた動画がある。顔を入れ替えた後、李容浩の目は完全に一本の線になっている。孫紅磊も微博の「鍋が釜を黒く呼ぶ」という投稿をリポストした。

この特殊効果はやりすぎです、李さん、誰かがあなたをからかっています!

これに対しネットユーザーのコメントは「ハハハハハハハ」の声が相次いだ。

注意深い人なら、ビデオ内のTik Tok APPのロゴに気づいたかもしれません。それは正しい！目が小さい人にはあまり優しくない上記の機能は、Tik Tokがリリースした新しい「漫画に変身」特殊効果です。

たった 1 回のクリックで実際の人物が漫画に変わる効果の背後には、敵対的生成ネットワーク (GAN) があります。

ワンクリックで次元の壁を破る

現在、Douyinの「漫画に変身」特殊効果は人気チャレンジリストの「今週のリアルタイムリスト」（2002年6月15日～21日）で1位にランクされており、約867万2000人のユーザーが利用している。

その中には多くの著名人が同じ動画を撮影しており、遊び方も様々でした。

例えば、陳和は二次元世界の封印を解くために、ハエたたきのような「謎の鍵」を取り出した。

G.E.M.はガラスを拭いて表情を変える。

張一星がラップをしている間、彼は手振りを使って何回次元間を移動していたか全く知らなかった。

二次元の世界に入った後、スターたちの髪型、顔の特徴、その他の細部は「完璧に復元」され、遊び心と機敏さのタッチも加わります。

しかし、実在の人物を漫画風に描くことは珍しいことではありません。近年、特殊効果のある写真撮影アプリが次々と登場しており、写真やビデオを漫画風、古代風、手描き風、油絵風に変えたり、性別や年齢を変えたりすることもユーザーにとって簡単です。

生成的敵対ネットワーク (GAN)

顔を変えることに関しては、生成的敵対ネットワーク GAN という技術を避けることはできません。

Leifeng.com（公式アカウント：Leifeng.com）は以前、GANはディープラーニングモデルとして、機械学習における比較的新しい概念であると報じた。これは、Google Brainの著名な科学者であるイアン・グッドフェロー氏とそのチームが2014年10月に発表した論文「Generative Adversarial Networks」で初めて登場した。

機械学習モデルは、生成モデルと識別モデルの2種類に分けられます。それぞれの機能は、その名前が示すように、データセットに基づいて生成および判断することです。

イアン・グッドフェローが「GANの父」となった理由は、敵対的推定を通じて生成モデルを推定するという独創的な概念を提案したからです。彼は生成モデルと識別モデルを同時にトレーニングし、両者を競争させました。生成モデルは識別モデルを欺くために、できるだけリアルな画像を生成すべきです。同時に、識別モデルも、生成モデルによって生成された画像と元のデータセットを区別するために最善を尽くすべきです。

このプロセスは、ゲームにおける 2 人のプレーヤーの戦いに似ています。最初は両者とも混乱していますが、最終的には「議論が進むにつれて真実が明らかになります。」このような機械間の自発的な相互学習は非常に知的であると言えます。

GAN には多くの種類がありますが、最も一般的なのは Cycle GAN です。

実際、CycleGAN は顔変換における重要な初期の試みです。ソースからターゲットへの変換だけでなく、逆変換も実行できるため、2 つのカテゴリ間の変換関係を簡単に学習し、変換された画像の品質をより確実にすることができます。

上の図のように、シマウマを馬に変えることができるのであれば、動作を変えても馬を再びシマウマに戻すことができます。同様に、夏を冬にしたり、シーンを変えて冬を夏に戻すこともできます。

前述のTik Tokアニメ風の顔を変える特殊効果については具体的な技術情報は公開されていないが、これまでにも人間の顔を漫画画像に変換する試みはCycleGANを使用しており、関連論文も2019年7月にプレプリントプラットフォームarXivで公開されている。

この研究では、いわゆるランドマーク支援CycleGANが利用されたことは注目に値します。

論文によれば、ここでの「ランドマーク」は私たちがよく言う「ランドマーク」ではなく、顔の特徴を指しており、この技術はCycleGANの特別バージョン、「顔の特徴支援付きCycleGAN」と理解できる。

この技術がいかに優れているかを知るために、結果を見てみましょう (Leifeng.com 注: 右から 2 番目の列は CycleGAN によって生成され、右から 1 番目の列は顔の特徴の支援を受けて CycleGAN によって生成されています)。

現実の美人が二次元ロリになった。

イケメンが生成した漫画画像も素敵ですね。

さらに、いくつかの研究チームは、GAN に基づく顔の特徴を使用して、低解像度の画像を高解像度の画像に変換しました。長年悩まされていた近視が治った気がします！

これを見て、すごい！と叫びたくなりますか？

実際、生きている人間を生きている人間に変えるなど、さらに奇跡的なこともあります。

これはスペインのインターネットチェスボードメーカー REGIUM の Web サイトにある従業員の個人情報ページです。特に変わった点はないようです。しかし実際には、フレーム内の 4 人のエンジニアはすべて「偽の人物」であり、現実には存在しません。

Leifeng.com は、これらの「人工人物」が海外の顔作成ウェブサイト this person does not existing.com から来ており、これらの写真も GAN に基づいていることを知りました。

しかし、顔を変える技術の登場とともに、一夜にして人気となり3日で消えてしまったZAOアプリや、世界的に悪名高いディープフェイクなど、さまざまな問題も発生しており、各方面から懸念を引き起こしている。

こうした顔を変える技術をどのように合理的に活用するかは、検討すべき問題です。

<<: 機械学習で大規模なデータセットを処理する方法

>>: AIOps ツールがクラウドコンピューティングに新たな命を吹き込む理由

ワンクリックで漫画に変身！流行のDouyin特殊効果の背後にある技術

AIによる顔の変形がトレンドになり、人工知能の世界があなたの探索を待っています

GPT-4Vと人間のデモンストレーションによるロボットのトレーニング：目が学習し、手がそれに従う

人工知能を定義する10のキーワード

OpenAI の公式プロンプト単語ガイドよりも包括的な 26 の黄金律により、LLM のパフォーマンスが 50% 以上向上します。

AIがDotAのトッププレイヤーに勝利したのは画期的なことでしょうか？ OpenAIが詳細を発表

ライアットを繰り返し失敗に導いた作者、ピン：作者は若くして交通事故で亡くなり、何千行ものソースコードが世界を変えた

アマゾンが新しいAlexa音声アシスタントをリリース、よりスマートで自然な会話

OpenAIは10月に開発された画像生成器DALL-E 3の新バージョンをリリースした。

Tensorflow はディープラーニングに基づいて画像補完をどのように実装するのでしょうか?

推薦する

AI 異常検出は企業にどのようなメリットをもたらすのでしょうか?

GitHubオープンソース130+スター：PPYOLOシリーズをベースにターゲット検出アルゴリズムを再現する方法をHand in handで教える

ディープラーニングに基づく教師あり音声分離

AI は金融業界がランサムウェアに効果的に対抗するのに役立つでしょうか?

AIは追いつこうと努力しているが、5Gはカーブで追い越しつつある。トランプ氏が不安にならないわけがない。

コグニティブ時代のIBMの新しいカスタマーサービスセンターは、人間と機械のコラボレーションでより大きな価値を生み出します

1行のコードでデバッグと印刷を排除し、アルゴリズムの学習を支援

ブロックチェーン投資の10大リスクポイント。これらを理解していないなら投資しないでください！

マイクロソフトが新たなAIアクセス原則を発表、同社史上最大の投資計画

2021年のスマートシティの変革と再構築のトレンド

TIC 2018で人工知能が熱く議論され、AIが応用段階に突入