偽造AIがまた進化しました！たった一枚の写真で、スピーチと歌のビデオが自動的に生成されます

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

数え切れないほどの「ショートビデオ」を作成し、多くの有名人になりすましてきた有名な顔変更ツールであるディープフェイクが、今度は次元削減攻撃を受けた。

この新しい AI は、ビデオを改ざんするのではなく、静止写真を直接ビデオに変換します。

シュワルツェネッガーの写真はこんな感じです。

話し始めました:

ラッパーの2パック・シャクール：

口を開けることができます:

顔の静止写真があれば、それが誰であっても、この新しい AI によって、どんな声でも追加して発音することができます。

もちろん、話すだけでなく、100年以上前に生きていた「ロシアの邪悪な僧侶」ラスプーチンにビヨンセのHaloを歌わせるなど、歌うことも問題ありません。

声と性別は完全に一致していないが、絵と歌の組み合わせはなんとも言えない不気味さを感じさせる。

この AI は写真に合わせてリップシンクするだけではありません。話している人に喜び、怒り、悲しみ、幸せなどさまざまな感情を抱かせることもできます。

ハッピー：

悲しい：

揚げ髪：

これらの眉毛、これらの視線、これらの顔の筋肉は、顔面麻痺に苦しむ多くの俳優を救うでしょう！

この研究は、インペリアル・カレッジ・ロンドンとサムスンによるものです。研究者らは、本物と偽物の区別が難しい 24 本のビデオで構成されるチューリングテストも用意しました。簡単なテストを受けたところ、正しく推測できたのは半分程度だけでした。

言い換えれば、AI が生成した「本物と偽物の孫悟空」は、人間を騙すには十分だということです。

任意のテキストを入力して動画の登場人物の唇の形を変えるスタンフォード大学のこれまでの研究や、サムスンの話し顔を変える研究と比較すると、実装の難易度ははるかに高いと言える。

多くのネットユーザーが衝撃を受けた。

今はラスプーチンがヘイローを歌っていますが、将来メキシコでトランプ風の選挙運動が行われるのでしょうか？怖いですね。

テクノロジーメディアのThe Vergeも次のようにコメントしています。

こうした研究は、噂や政治宣伝に利用されるのではないかと常に人々を心配させており、これはアメリカの議員にとって本当に頭痛の種となっている。もちろん、政治分野における脅威はそれほど深刻ではないと主張することもできますが、ディープフェイクは確かに一部の人々、特に女性を傷つけています。彼女たちの同意なしに恥ずかしく屈辱的なポルノビデオを作成するためにディープフェイクが利用されたのです。

また、この技術が普及すれば、悪いことをする人たちに隠蔽する口実を与えることになると考える人もいる。

この技術が成熟し、トランプが実際に何か悪いことをしている短いビデオが出てきたら、トランプはそれを偽のビデオだと簡単に言うことができるだろう。
ハハ、それは素晴らしいですね。将来、悪者が捕まったら、「それは真実じゃない、偽のビデオだ」と言えるでしょう。

マルチディスクリミネータ構造

1 枚の写真から一貫性のあるビデオを作成するにはどうすればよいでしょうか?研究者たちは、これには時間的生成敵対ネットワーク (Temporal GAN) の助けが必要だと考えています。

論理的に考えると、生成された偽のビデオをリアルにするには、画面上で少なくとも次の2 つの要素が満たされる必要があることは理解しにくいことではありません。

まず、顔画像は高品質である必要があり、次に、会話の内容と一致し、唇や眉毛などの顔の特徴の位置を調整する必要があります。複雑な顔キャプチャ技術を使用する必要はありません。今では、機械学習の手法のみを使用して人間の顔を自動的に合成できます。

その秘密は、2018 年に提案された Temporal GAN (時間的生成敵対ネットワーク) にあります。

これは、静止画像と音声から顔のビデオを生成する、エンドツーエンドの音声駆動型顔アニメーション合成モデルです。

Temporal GAN には 2 つの識別子があります。1 つはフレーム識別子で、生成された画像が鮮明で詳細であることを保証します。もう 1 つはシーケンス識別子で、聞こえた音に反応して対応する顔の動きを生成しますが、効果はそれほど良くありません。

△ Temporal GANモデルの模式図

時間的 GAN を使用したエンドツーエンドの音声駆動型顔アニメーション

https://arxiv.org/abs/1805.09313

本研究では、研究者らはこの時間的生成敵対ネットワークを借用し、2つの時間的識別器を使用して生成されたビデオに対してオーディオとビジュアルの対応を実行し、リアルな顔の動きを生成しました。

同時に、モデルはまばたきなどの新たな表情を自発的に生成するように促されます。

ということで、音声ベースの顔合成モデルの最新バージョンがここにあります。このモデルは時間ジェネレータと3 つの識別子で構成されており、構造は次のとおりです。

これはよく組織化された分業構造です。ジェネレーターは、単一の画像とオーディオ信号を入力として受け取り、それを 0.2 秒の重複フレームに分割する役割を担います。各オーディオフレームは、ビデオフレームの中央に配置する必要があります。

このジェネレーターは、コンテンツエンコーダー、アイデンティティエンコーダー、フレームデコーダー、およびノイズジェネレーターで構成されています。さまざまなモジュールが埋め込み可能なモジュールに結合され、デコードネットワークを通じてフレームに変換されます。

このシステムは、それぞれ独自の役割を持つ複数の識別子を使用して、自然なビデオのさまざまな側面をキャプチャします。

フレームディスクリミネーターは、フレームが本物か偽物かを判断し、話者の顔の高品質なビデオ再構築を実現する 6 層の畳み込みニューラルネットワークです。

シーケンスディスクリミネータは、フレームが自然な動きを示す一貫したビデオを形成することを保証します。

同期ディスクリミネータは、オーディオとビジュアルの同期の要件を強制し、画像とオーディオを同期する方法を決定します。 2 つのエンコーダを使用してオーディオとビデオの埋め込み情報を取得し、ユークリッド距離に基づいて判断を行います。

同期識別子の構造は次のとおりです。

それだけです。高価な顔キャプチャ技術は必要ありません。必要なのは、写真とオーディオクリップを組み合わせてスムーズで一貫性のあるビデオを作成するこのようなネットワークだけです。

30以上のCVPR論文の著者

この研究には、インペリアル・カレッジ・ロンドンのiBUGグループに所属し、知的行動の理解に焦点を当てた Konstantinos Vougioukas、Stavros Petridis、Maja Pantic の 3 人の著者がいます。2 人目と 3 人目の著者も、英国の Samsung AI センターの従業員です。

筆頭著者のコンスタンティノス・ヴーギオカスは、2011年にパトラス大学で電気工学とコンピュータ工学の学士号を取得した後、エディンバラ大学に進学し、人工知能の修士号を取得しました。

現在、Konstantinos Vougioukas は、インペリアル・カレッジ・ロンドンの Maja Pantic 教授 (本記事の 3 番目の著者) の指導の下で博士号取得を目指しており、主な研究分野は人間の行動の合成と顔の行動の合成です。

マヤ・パンティッチ教授は、iBUG チームの責任者であり、ケンブリッジのサムスン AI センターの研究ディレクターです。彼女は、表情分析、人間の姿勢分析、感情および社会的シグナル分析に関する250 本以上の論文を発表しており、引用数は 25,000 回を超えています。

2005 年以来、Maja Pantic は学生を指導して 30 件を超える CVPR (ワークショップを含む) 論文を発表してきました。

マヤ・パンティッチ教授のホームページ:

https://ibug.doc.ic.ac.uk/people/mpantic

ポータル

GAN によるリアルな音声駆動型顔アニメーション

https://arxiv.org/abs/1906.06337

プロジェクトのホームページ:

https://sites.google.com/view/facial-animation

GitHub: