偽造AIがまた進化しました!たった一枚の写真で、スピーチと歌のビデオが自動的に生成されます

偽造AIがまた進化しました!たった一枚の写真で、スピーチと歌のビデオが自動的に生成されます

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

数え切れないほどの「ショートビデオ」を作成し、多くの有名人になりすましてきた有名な顔変更ツールであるディープフェイクが、今度は次元削減攻撃を受けた。

この新しい AI は、ビデオを改ざんするのではなく、静止写真を直接ビデオに変換します。

シュワルツェネッガーの写真はこんな感じです。

話し始めました:

ラッパーの2パック・シャクール:

口を開けることができます:

顔の静止写真があれば、それが誰であっても、この新しい AI によって、どんな声でも追加して発音することができます。

もちろん、話すだけでなく、100年以上前に生きていた「ロシアの邪悪な僧侶」ラスプーチンにビヨンセのHaloを歌わせるなど、歌うことも問題ありません。

声と性別は完全に一致していないが、絵と歌の組み合わせはなんとも言えない不気味さを感じさせる。

この AI は写真に合わせてリップシンクするだけではありません。話している人に喜び、怒り、悲しみ、幸せなどさまざまな感情を抱かせることもできます。

ハッピー:

悲しい:

揚げ髪:

これらの眉毛、これらの視線、これらの顔の筋肉は、顔面麻痺に苦しむ多くの俳優を救うでしょう!

この研究は、インペリアル・カレッジ・ロンドンとサムスンによるものです。研究者らは、本物と偽物の区別が難しい 24 本のビデオで構成されるチューリング テストも用意しました。簡単なテストを受けたところ、正しく推測できたのは半分程度だけでした。

言い換えれば、AI が生成した「本物と偽物の孫悟空」は、人間を騙すには十分だということです。

任意のテキストを入力して動画の登場人物の唇の形を変えるスタンフォード大学のこれまでの研究や、サムスンの話し顔を変える研究と比較すると、実装の難易度ははるかに高いと言える。

多くのネットユーザーが衝撃を受けた。

今はラスプーチンがヘイローを歌っていますが、将来メキシコでトランプ風の選挙運動が行われるのでしょうか?怖いですね。

テクノロジーメディアのThe Vergeも次のようにコメントしています。

こうした研究は、噂や政治宣伝に利用されるのではないかと常に人々を心配させており、これはアメリカの議員にとって本当に頭痛の種となっている。もちろん、政治分野における脅威はそれほど深刻ではないと主張することもできますが、ディープフェイクは確かに一部の人々、特に女性を傷つけています。彼女たちの同意なしに恥ずかしく屈辱的なポルノビデオを作成するためにディープフェイクが利用されたのです。

また、この技術が普及すれば、悪いことをする人たちに隠蔽する口実を与えることになると考える人もいる。

この技術が成熟し、トランプが実際に何か悪いことをしている短いビデオが出てきたら、トランプはそれを偽のビデオだと簡単に言うことができるだろう。

ハハ、それは素晴らしいですね。将来、悪者が捕まったら、「それは真実じゃない、偽のビデオだ」と言えるでしょう。

マルチディスクリミネータ構造

1 枚の写真から一貫性のあるビデオを作成するにはどうすればよいでしょうか?研究者たちは、これには時間的生成敵対ネットワーク (Temporal GAN) の助けが必要だと考えています。

論理的に考えると、生成された偽のビデオをリアルにするには、画面上で少なくとも次の2 つの要素が満たされる必要があることは理解しにくいことではありません。

まず、顔画像は高品質である必要があり、次に、会話の内容と一致し、唇や眉毛などの顔の特徴の位置を調整する必要があります。複雑な顔キャプチャ技術を使用する必要はありません。今では、機械学習の手法のみを使用して人間の顔を自動的に合成できます。

その秘密は、2018 年に提案された Temporal GAN (時間的生成敵対ネットワーク) にあります。

これは、静止画像と音声から顔のビデオを生成する、エンドツーエンドの音声駆動型顔アニメーション合成モデルです。

Temporal GAN には 2 つの識別子があります。1 つはフレーム識別子で、生成された画像が鮮明で詳細であることを保証します。もう 1 つはシーケンス識別子で、聞こえた音に反応して対応する顔の動きを生成しますが、効果はそれほど良くありません。

Temporal GANモデルの模式図

時間的 GAN を使用したエンドツーエンドの音声駆動型顔アニメーション

https://arxiv.org/abs/1805.09313

本研究では、研究者らはこの時間的生成敵対ネットワークを借用し、2つの時間的識別器を使用して生成されたビデオに対してオーディオとビジュアルの対応を実行し、リアルな顔の動きを生成しました。

同時に、モデルはまばたきなどの新たな表情を自発的に生成するように促されます。

ということで、音声ベースの顔合成モデルの最新バージョンがここにあります。このモデルは時間ジェネレータ3 つの識別子で構成されており、構造は次のとおりです。

これはよく組織化された分業構造です。ジェネレーターは、単一の画像とオーディオ信号を入力として受け取り、それを 0.2 秒の重複フレームに分割する役割を担います。各オーディオ フレームは、ビデオ フレームの中央に配置する必要があります。

このジェネレーターは、コンテンツ エンコーダー、アイデンティティ エンコーダー、フレーム デコーダー、およびノイズ ジェネレーターで構成されています。さまざまなモジュールが埋め込み可能なモジュールに結合され、デコード ネットワークを通じてフレームに変換されます。

このシステムは、それぞれ独自の役割を持つ複数の識別子を使用して、自然なビデオのさまざまな側面をキャプチャします。

フレーム ディスクリミネーターは、フレームが本物か偽物かを判断し、話者の顔の高品質なビデオ再構築を実現する 6 層の畳み込みニューラル ネットワークです。

シーケンス ディスクリミネータは、フレームが自然な動きを示す一貫したビデオを形成することを保証します。

同期ディスクリミネータは、オーディオとビジュアルの同期の要件を強制し、画像とオーディオを同期する方法を決定します。 2 つのエンコーダを使用してオーディオとビデオの埋め込み情報を取得し、ユークリッド距離に基づいて判断を行います。

同期識別子の構造は次のとおりです。

それだけです。高価な顔キャプチャ技術は必要ありません。必要なのは、写真とオーディオ クリップを組み合わせてスムーズで一貫性のあるビデオを作成するこのようなネットワークだけです。

30以上のCVPR論文の著者

この研究には、インペリアル・カレッジ・ロンドンのiBUGグループに所属し、知的行動の理解に焦点を当てた Konstantinos Vougioukas、Stavros Petridis、Maja Pantic の 3 人の著者がいます。2 人目と 3 人目の著者も、英国の Samsung AI センターの従業員です。

筆頭著者のコンスタンティノス・ヴーギオカスは、2011年にパトラス大学で電気工学とコンピュータ工学の学士号を取得した後、エディンバラ大学に進学し、人工知能の修士号を取得しました。

[[268730]]

現在、Konstantinos Vougioukas は、インペリアル・カレッジ・ロンドンの Maja Pantic 教授 (本記事の 3 番目の著者) の指導の下で博士号取得を目指しており、主な研究分野は人間の行動の合成と顔の行動の合成です。

マヤ・パンティッチ教授は、iBUG チームの責任者であり、ケンブリッジのサムスン AI センターの研究ディレクターです。彼女は、表情分析、人間の姿勢分析、感情および社会的シグナル分析に関する250 本以上の論文を発表しており、引用数は 25,000 回を超えています。

[[268731]]

2005 年以来、Maja Pantic は学生を指導して 30 件を超える CVPR (ワークショップを含む) 論文を発表してきました。

マヤ・パンティッチ教授のホームページ:

https://ibug.doc.ic.ac.uk/people/mpantic

ポータル

GAN によるリアルな音声駆動型顔アニメーション

https://arxiv.org/abs/1906.06337

プロジェクトのホームページ:

https://sites.google.com/view/facial-animation

GitHub:

https://github.com/DinoMan/speech-driven-animation

<<:  優れたオープンソースの音声認識/音声テキスト変換システム 5 つ

>>:  AIアプリケーションの実践と業界のエンパワーメントに焦点を当てたWOT2019グローバル人工知能カンファレンスが成功裏に終了しました。

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

2019 AIIA開発者会議記者会見が北京で開催

10月10日、2019 AIIA人工知能開発者会議の記者会見が北京で開催されました。 2019年AI...

将来のモバイル通信ネットワーク、6Gと人工知能の統合

将来の 6G ネットワークのより豊富なビジネス アプリケーションと極めて厳しいパフォーマンス要件を満...

アマゾン、AIが女性の求職者に低い評価を与えたため研究チームを解散に追い込まれる

[[246043]]アマゾンの機械学習チームは2014年以来、優秀な人材の求職活動をよりスマートにす...

650億のパラメータ、すべてのパラメータを8つのGPUで微調整可能:Qiu Xipengのチームは大規模モデルの閾値を下げました

大規模モデルに向けて、テクノロジー大手はより大規模なモデルをトレーニングしており、学界はそれらを最適...

AI がソフトウェアをテストし、バグを修正できるようになれば、プログラマーの仕事は楽になるのでしょうか?

10月18日のニュース、単純な手作業から複雑な法的判断や医療診断まで、ロボットと人工知能が驚くべき...

AIは病気の診断や新薬の設計に大きな可能性を秘めている

ヘルスケア業界は常にイノベーションの先駆者であり続けています。しかし、病気やウイルスが変異し続ける中...

エッジAIとは何ですか?

エッジ AI は、今日のデジタル変革の時代に台頭している 2 つのテクノロジー、エッジ コンピューテ...

脆弱なニューラル ネットワーク: カリフォルニア大学バークレー校が敵対的サンプル生成のメカニズムを説明します。

ニューラル ネットワークを「騙す」ために使用される敵対的サンプルは、コンピューター ビジョンと機械学...

ディープラーニングにおける正規化の概要(Python コード付き)

編集者注: 日々の仕事や研究において、データ サイエンティストが遭遇する最も一般的な問題の 1 つは...

解読: ボストン ダイナミクスがアルゴリズムを使用してアトラス ロボットの感覚世界を構築する方法

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

AIが顧客発見の「スーパーパワー」をもたらす3つの方法

もし何かスーパーパワーを与えられるとしたら、それは何ですか? 営業マンにとって、予知能力、つまり将来...

顔認識は、セキュリティ市場におけるおやつか定番か?

ITS114の統計によると、2019年のわが国のセキュリティとスノーブライトプロジェクトの数千万プ...

大規模言語モデルの詳細な分析: トレーニングから大規模モデルの展開まで

導入データサイエンスの分野が進歩するにつれ、複雑な自然言語を処理および生成できる高度な AI システ...