なぜ私たちは、AI による顔の変形が「偽物」だと今でも思っているのでしょうか?

なぜ私たちは、AI による顔の変形が「偽物」だと今でも思っているのでしょうか?

『スター・ウォーズ』のスピンオフシリーズ『ボバ・フェットの書』には、ファンの間で刺激的な議論を巻き起こしたエピソードがあった。なぜなら、マーク・ハミルの若いバージョンは、インダストリアル・ライト・アンド・マジック社に雇われたディープフェイク開発者シャムークによって作成されたからだ。

AIによる顔変えの手法は2020年のCGI技術に基づいて大きく進歩し、AIによる顔変えの現在の最高のビジュアル基準を概ね満たしているものの、一部のファンは「スター・ウォーズ」の「若きルーク・スカイウォーカー」の新しい姿は以前のものと比べていくつかの欠陥があると考えている。

たとえば、最も明らかな問題は、スカイウォーカーが登場するロングショットで、登場人物の表現力や繊細で本物の感情が欠けていることです。これは、CGI 特殊効果よりも顕著に表れる、AI による顔の変形を使用した典型的な結果です。 The Verge のウェブサイトでは、ボバ・フェットの AI による顔の交換結果は「1983 年のマーク・ハミルの神秘的で無表情な氷の顔」に似ているとしている。

しかし、インダストリアル・ライト&マジックがどんな技術を使っても、AIによる顔の変形には、繊細な感情を伝えることができないという根本的な問題が現状ある。

この問題は、アーキテクチャを変更するか、元のトレーニング教材を改善するだけでは解決が困難です。

しかし、バイラル ディープフェイカーの手法では、通常、ターゲット ビデオの選択に慎重であるため、この問題は回避されます。

フェイスアライメントの限界

最も一般的に使用されている 2 つの AI 顔変更オープンソース コード ライブラリは、DeepFaceLab (DFL) と FaceSwap で、どちらも 2017 年にリリースされました。機能は限られているものの、DFL は視覚効果 (VFX) 業界で大きな先行をとっています。

これらのコードの最初のタスクは、生の映像 (ビデオ フレームまたは静止画像) から顔のランドマークを抽出することです。

フェイスアライメントネットワーク(FAN)の実践

DFL と FaceSwap はどちらも Facial Alignment Network (FAN) を使用しており、抽出された顔の 2D および 3D 特徴点を作成できます (上図を参照)。 3D特徴点により、横顔や鋭角など顔の方向を広く認識できます。

ピクセルを評価するための非常に基本的なガイドラインは次のとおりです。

FaceSwap による顔の輪郭の大まかな基準

この標準では、顔の最も基本的なラインが考慮されており、目や顎を拡大したり縮小したりできるほか、口の基本的な形状(笑顔、しかめ面など)も追跡して調整できます。カメラの視点から見ると、顔をどちらの方向にも約 200 度回転させることができます。

これらの大まかなピクセル境界の位置は、AI の顔変更プロセス全体における唯一の正確な顔の基準です。トレーニング中は、対応するピクセルまたは周囲のピクセルと比較して、対応する処理方法を選択するだけです。

DeepFaceLabからのトレーニング例

顔のサブ領域のトポロジー構造(頬の凸凹、年齢の詳細、えくぼ情報など)がないため、元の人物(変更したい顔)とターゲットの人物(コピーしたい顔)を一致させる際に「細かい」特徴を維持することは不可能です。

限られたデータの使用

AI 顔変換モデルをトレーニングするには、2 人の人物間のマッチングデータを取得する必要がありますが、これは簡単ではありません。一致させる必要がある角度が具体的であればあるほど、キャラクター A とキャラクター B 間の (特定の角度の) 一致、つまり同じ表現を維持することについて妥協する可能性が高くなります。

顔のデータが正確に一致しません。

上の図に示すように、2 人のキャラクターの顔の構造は非常に似ていますが、まだ完全に一致することはできません。これは、データセット内ですでに最も高い一致結果です。

しかし、上の写真にはまだ明らかな違いがあります。角度、レンズ、照明が完全に一致していません。人物 A (左) は人物 B (右) のように目を完全に閉じていません。人物 A の画質と圧縮率は低く、人物 B は人物 A よりも幸せそうに見えます。

上記の違いにもかかわらず、AI 顔変換モデルをトレーニングするには、これらの既存の資料に頼るしかありません。

A と B が完全に一致することはまれなので、トレーニング セット内に類似の一致もほとんどありません。そのため、トレーニング中にアンダーフィッティングとオーバーフィッティングが頻繁に発生します。

アンダーフィッティング: 特定の特殊な角度で一致するデータが少ない場合 (つまり、データセット内のデータ量は比較的多いが、この角度で一致する画像ペアが少ない場合)、より「単純で一般的な」一致データと比較して効果的にトレーニングされません。そのため、AI顔変換モデルでは、この特殊な角度や表情をうまく表現することができません。

過剰適合: 十分な一致データが不足しているため、AI 顔変更モデルは、最終モデルでより良い結果を得るために、データセット内の一致データを複数回コピーすることがあります。しかし、これは過剰適合につながる可能性があり、このモデルで作成された AI 顔交換ビデオは、目の閉じ具合など、2 枚の写真間の不一致を再現する可能性があります。

下の図に示すように、ウラジミール・プーチンは、DeepFaceLab オープンソース メソッドを使用して、160,000 回のトレーニング反復でケビン・スペイシーのように見えるようにトレーニングされました。

上の写真を見たほとんどの人は、おそらく、これらの顔交換テストにおけるプーチン大統領の結果はスペイシー氏よりも空間的であると考えるだろう。ここでは、オンライン表現認識プログラムが表現の不一致問題をどのように処理するかを紹介します。

DFLやFaceswapよりも詳細な顔の特徴分析に基づいて、スペイシーの顔の入れ替え結果にはプーチン大統領のような怒り、嫌悪、軽蔑の表情がほとんどないことがわかった。

一般的に使用されている AI 顔変換アプリケーションには表情や感情を一致させる機能がないため、これらのさまざまな表情のカテゴリは絡み合ったパッケージの一部となっています。

私たちにとって、これらの表現は大きく異なります。私たちは幼い頃から基本的な生存スキルとして顔の表情を読むことを学び、大人になっても社会に溶け込み、前進し、交尾するために、また脅威を評価する継続的な方法として、そのスキルに頼り続けます。そのため、私たちは微表情に非常に敏感であり、AIによる顔変換技術は最終的には微表情を処理する必要があるでしょう。

バックファイア

AIによる顔交換革命により、現代の映画やテレビ番組に「古典的な」映画スターを挿入することが可能になった一方で、AIは、ユーザーにとっても重要な、より互換性のある解像度と品質で過去の古典を捉えることはできません。

ボバ・フェットでハミルのイメージを再現するには訓練された AI 顔変更モデルが必要だとすると、「ジェダイの帰還」を制作した際の 30 代前半のハミルの映像をトレーニングデータとして使用する必要がある。

この映画はイーストマン カラーネガティブ 250T 5293/7293 フィルムで撮影されました。このフィルムは当時、中粒子から微粒子の 250ASA エマルジョンとしては優れていると考えられていましたが、1980 年代後半には、鮮明度、色の範囲、忠実度の点で凌駕されていました。当時の名作『ジェダイの帰還』では主要キャラクターのクローズアップさえなく、画像の粒状感の問題がさらに重要になりました。

『ジェダイの帰還』(1983年)でのハミルのショットの一部。

さらに、フィルムの粒子を増やすために、ハミルが登場する視覚効果ショットを光学プリンターに通すこともよくありました。ルーカスフィルムは、オリジナルのネガやアーカイブにある何時間もの未使用の未加工映像を処理することで、粒状感の問題にも対処した。

同時に、AI 顔変換データセットを充実させ、多様化するために、通常、一定期間内の俳優のすべての作品を検索します。ハミルは1977年の自動車事故で容姿が変わり、「ジェダイの帰還」に出演してすぐに有名な声優として第二のキャリアをスタートさせました。その結果、データ素材が少なすぎて、性能の良いAI顔変換モデルを得ることができませんでした。

表現の範囲に制限はありますか?

AI 顔変換モデルで俳優の誇張した表情を再現したい場合は、こうした珍しい表情のオリジナル映像を幅広く収集する必要があります。しかし、この誇張された表情は、年齢に合わせた映像には含まれていない可能性が高い。

たとえば、『ジェダイの帰還』のメインストーリーが始まる頃には、ハミルはすでに自分の感情をかなりうまく把握している。 『ジェダイの帰還』のデータを使用してハミルの AI 顔交換モデルをトレーニングする場合、彼の以前の映画のデータではなく、限られた範囲の感情データと珍しい表情が必要になります。

『ジェダイの帰還』でスカイウォーカーが極度のストレスにさらされる瞬間は、かなり誇張された効果的な表現の素材になるだろうと思われるだろう。しかし、これらのシーンの表情はつかの間であり、モーションブラーやアクションシーンの高速編集の影響を受け、映像が効果的に活用されていません。

要約: 表現の融合

もしスカイウォーカーのキャラクターであるボバ・フェットが実際に AI の顔を変えるモデルを使って完成されたとしたら、彼は限られた範囲の表情しか表現できないだろうが、これは単にオリジナルの映像が不足しているからだけではない。 AI 顔変更モデルは、エンコーダーとデコーダーのトレーニング プロセス中に、何千もの画像から重要な特徴を正常に抽出し、AI 顔変更データセットでは利用できない、またはまれな顔の角度を取得できる一般的なモデルを探します。

AI の顔交換モデルにこの柔軟性がなければ、時間的な連続性やコンテキスト情報を考慮せずに、フレームごとにコピーして貼り付けることしかできません。

さらに、この技術の開発により、表情の真実性が犠牲になり、「繊細な」表情が本物ではなくなる可能性があります。私たちの顔は、100 の設備の整ったオーケストラのように一緒に演奏しますが、AI による顔変更ソフトウェアには少なくとも弦楽器セクションが欠けています。

感情表現の違い

すべての顔の動きとそれが私たちに与える影響は同じように作られているわけではありません。たとえば、ロジャー・ムーアの場合は何気なく見える眉毛の上げ方が、セス・ローガンの場合は洗練されていないように見えるかもしれません。 AIの顔変換モデルを使って、マリリン・モンローのチャーミングな魅力を「怒り」や「不満」に満ちたキャラクター(『パークス・アンド・レクリエーション』シーズン7でオーブリー・プラザが演じた役など)に押し付ければ、ネガティブな感情が伝わってしまう。

したがって、A と B の顔データ間のピクセルが同じだからといって、必ずしもモデルが同じ感情を表現するわけではありませんが、これは高度な AI 顔変換オープンソース モデルをトレーニングするための前提条件です。

私たちが期待するAI顔変換モデルは、表情を認識して感情を推測できるだけでなく、怒り、魅力、退屈、疲労などの高レベルの概念を表現し、口や目の位置を単純にコピーするのではなく、2つのアイデンティティでこれらの感情と関連する表情を異なる​​方法で表現できる必要があります。


<<:  3Dチップ技術がコンピューティングに破壊的な変化をもたらす3つの方法:AMD、Graphcore、Intelはそれぞれ独自の秘策を秘めている

>>:  GitHub のネイティブ AI コード生成ツール Copilot が Visual Studio 2022 を正式にサポート

ブログ    
ブログ    
ブログ    

推薦する

AIのマインドリーディングがサミットであなたを驚かせる!モデルが脳波を翻訳し、人間の思考がスクリーンに映し出される|NeurIPS 2023

今日、私たちの AI は何ができるでしょうか? AI による描画、AI による作曲、AI による動画...

脳コンピューターインターフェースにおける重要な進歩!国内チームが「フルスペクトル中国語解読」に成功:トップ3の正解率は100%に迫る

今年8月、ネイチャー誌に立て続けに掲載された2つの論文は、脳コンピューターインターフェースが言語回復...

AIは物理的なセキュリティ運用に高度な分析を活用しています

人工知能が徐々に物理セキュリティの分野に参入するにつれて、より高度なアクセス制御ソリューションが登場...

スイスの企業がボストンのロボット犬よりも多くの車輪を備えた車輪足ハイブリッド移動ロボットを開発

ロボットファンの多くにとって、四足歩行ロボットといえば、まずボストン・ダイナミクス社のロボット犬を思...

NetEase Cloud Musicのリアルタイムデータウェアハウスガバナンス最適化の実践

1. 現状と問題点1. 現状と問題点Cloud Music データ ウェアハウス プラットフォームは...

パンデミック下でIoTが「最前線で働く人」の役割を果たす

[[397252]]画像ソース: https://pixabay.com/images/id-594...

...

認知知能の実装が加速し、新世代のインテリジェント検索が誕生

[51CTO.com からのオリジナル記事] インターネットは、間違いなく私たちの生活、学習、仕事に...

Kuaishou AIテクノロジーがゲームチェーン全体に力を与える

導入ゲーム業界は近年急速に発展しており、2020年第1四半期だけでも中国のゲーム市場の売上高は700...

AIが研究者に歴史の匂いを再現する手助けをする方法

欧州連合は、AIを使って歴史的な香りや嗅覚要素を再現することを計画している研究チームに280万ユーロ...

作業員にとって、端末に大きなモデルをインストールすることは、祝福でしょうか、それとも呪いでしょうか?

さまざまな業界の労働者は、当初は AI に取って代わられるのではないかと心配していましたが、今では ...

教育におけるAIの想像力と限界

広東省の有名な重点中学校である広亜中学校は最近、電子ブレスレット3,500個を購入するために485万...

テストへの道はどこにあるのでしょうか? YOLOv8 の究極ガイド

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

医療の荒野での賭け:百度は人工知能で危機を乗り切った

ロビン・リーは標高3,500メートルで牛糞を拾い、泥を塗り、牛の皮を剥ぐという極めて型破りなことをし...