なぜ私たちは、AI による顔の変形が「偽物」だと今でも思っているのでしょうか?

『スター・ウォーズ』のスピンオフシリーズ『ボバ・フェットの書』には、ファンの間で刺激的な議論を巻き起こしたエピソードがあった。なぜなら、マーク・ハミルの若いバージョンは、インダストリアル・ライト・アンド・マジック社に雇われたディープフェイク開発者シャムークによって作成されたからだ。

AIによる顔変えの手法は2020年のCGI技術に基づいて大きく進歩し、AIによる顔変えの現在の最高のビジュアル基準を概ね満たしているものの、一部のファンは「スター・ウォーズ」の「若きルーク・スカイウォーカー」の新しい姿は以前のものと比べていくつかの欠陥があると考えている。

たとえば、最も明らかな問題は、スカイウォーカーが登場するロングショットで、登場人物の表現力や繊細で本物の感情が欠けていることです。これは、CGI 特殊効果よりも顕著に表れる、AI による顔の変形を使用した典型的な結果です。 The Verge のウェブサイトでは、ボバ・フェットの AI による顔の交換結果は「1983 年のマーク・ハミルの神秘的で無表情な氷の顔」に似ているとしている。

しかし、インダストリアル・ライト＆マジックがどんな技術を使っても、AIによる顔の変形には、繊細な感情を伝えることができないという根本的な問題が現状ある。

この問題は、アーキテクチャを変更するか、元のトレーニング教材を改善するだけでは解決が困難です。

しかし、バイラルディープフェイカーの手法では、通常、ターゲットビデオの選択に慎重であるため、この問題は回避されます。

フェイスアライメントの限界

最も一般的に使用されている 2 つの AI 顔変更オープンソースコードライブラリは、DeepFaceLab (DFL) と FaceSwap で、どちらも 2017 年にリリースされました。機能は限られているものの、DFL は視覚効果 (VFX) 業界で大きな先行をとっています。

これらのコードの最初のタスクは、生の映像 (ビデオフレームまたは静止画像) から顔のランドマークを抽出することです。

フェイスアライメントネットワーク（FAN）の実践

DFL と FaceSwap はどちらも Facial Alignment Network (FAN) を使用しており、抽出された顔の 2D および 3D 特徴点を作成できます (上図を参照)。 3D特徴点により、横顔や鋭角など顔の方向を広く認識できます。

ピクセルを評価するための非常に基本的なガイドラインは次のとおりです。

FaceSwap による顔の輪郭の大まかな基準

この標準では、顔の最も基本的なラインが考慮されており、目や顎を拡大したり縮小したりできるほか、口の基本的な形状（笑顔、しかめ面など）も追跡して調整できます。カメラの視点から見ると、顔をどちらの方向にも約 200 度回転させることができます。

これらの大まかなピクセル境界の位置は、AI の顔変更プロセス全体における唯一の正確な顔の基準です。トレーニング中は、対応するピクセルまたは周囲のピクセルと比較して、対応する処理方法を選択するだけです。

DeepFaceLabからのトレーニング例

顔のサブ領域のトポロジー構造（頬の凸凹、年齢の詳細、えくぼ情報など）がないため、元の人物（変更したい顔）とターゲットの人物（コピーしたい顔）を一致させる際に「細かい」特徴を維持することは不可能です。

限られたデータの使用

AI 顔変換モデルをトレーニングするには、2 人の人物間のマッチングデータを取得する必要がありますが、これは簡単ではありません。一致させる必要がある角度が具体的であればあるほど、キャラクター A とキャラクター B 間の (特定の角度の) 一致、つまり同じ表現を維持することについて妥協する可能性が高くなります。

顔のデータが正確に一致しません。

上の図に示すように、2 人のキャラクターの顔の構造は非常に似ていますが、まだ完全に一致することはできません。これは、データセット内ですでに最も高い一致結果です。

しかし、上の写真にはまだ明らかな違いがあります。角度、レンズ、照明が完全に一致していません。人物 A (左) は人物 B (右) のように目を完全に閉じていません。人物 A の画質と圧縮率は低く、人物 B は人物 A よりも幸せそうに見えます。

上記の違いにもかかわらず、AI 顔変換モデルをトレーニングするには、これらの既存の資料に頼るしかありません。

A と B が完全に一致することはまれなので、トレーニングセット内に類似の一致もほとんどありません。そのため、トレーニング中にアンダーフィッティングとオーバーフィッティングが頻繁に発生します。

アンダーフィッティング: 特定の特殊な角度で一致するデータが少ない場合 (つまり、データセット内のデータ量は比較的多いが、この角度で一致する画像ペアが少ない場合)、より「単純で一般的な」一致データと比較して効果的にトレーニングされません。そのため、AI顔変換モデルでは、この特殊な角度や表情をうまく表現することができません。

過剰適合: 十分な一致データが不足しているため、AI 顔変更モデルは、最終モデルでより良い結果を得るために、データセット内の一致データを複数回コピーすることがあります。しかし、これは過剰適合につながる可能性があり、このモデルで作成された AI 顔交換ビデオは、目の閉じ具合など、2 枚の写真間の不一致を再現する可能性があります。

下の図に示すように、ウラジミール・プーチンは、DeepFaceLab オープンソースメソッドを使用して、160,000 回のトレーニング反復でケビン・スペイシーのように見えるようにトレーニングされました。

上の写真を見たほとんどの人は、おそらく、これらの顔交換テストにおけるプーチン大統領の結果はスペイシー氏よりも空間的であると考えるだろう。ここでは、オンライン表現認識プログラムが表現の不一致問題をどのように処理するかを紹介します。

DFLやFaceswapよりも詳細な顔の特徴分析に基づいて、スペイシーの顔の入れ替え結果にはプーチン大統領のような怒り、嫌悪、軽蔑の表情がほとんどないことがわかった。

一般的に使用されている AI 顔変換アプリケーションには表情や感情を一致させる機能がないため、これらのさまざまな表情のカテゴリは絡み合ったパッケージの一部となっています。

私たちにとって、これらの表現は大きく異なります。私たちは幼い頃から基本的な生存スキルとして顔の表情を読むことを学び、大人になっても社会に溶け込み、前進し、交尾するために、また脅威を評価する継続的な方法として、そのスキルに頼り続けます。そのため、私たちは微表情に非常に敏感であり、AIによる顔変換技術は最終的には微表情を処理する必要があるでしょう。

バックファイア

AIによる顔交換革命により、現代の映画やテレビ番組に「古典的な」映画スターを挿入することが可能になった一方で、AIは、ユーザーにとっても重要な、より互換性のある解像度と品質で過去の古典を捉えることはできません。

ボバ・フェットでハミルのイメージを再現するには訓練された AI 顔変更モデルが必要だとすると、「ジェダイの帰還」を制作した際の 30 代前半のハミルの映像をトレーニングデータとして使用する必要がある。

この映画はイーストマンカラーネガティブ 250T 5293/7293 フィルムで撮影されました。このフィルムは当時、中粒子から微粒子の 250ASA エマルジョンとしては優れていると考えられていましたが、1980 年代後半には、鮮明度、色の範囲、忠実度の点で凌駕されていました。当時の名作『ジェダイの帰還』では主要キャラクターのクローズアップさえなく、画像の粒状感の問題がさらに重要になりました。

『ジェダイの帰還』（1983年）でのハミルのショットの一部。

さらに、フィルムの粒子を増やすために、ハミルが登場する視覚効果ショットを光学プリンターに通すこともよくありました。ルーカスフィルムは、オリジナルのネガやアーカイブにある何時間もの未使用の未加工映像を処理することで、粒状感の問題にも対処した。

同時に、AI 顔変換データセットを充実させ、多様化するために、通常、一定期間内の俳優のすべての作品を検索します。ハミルは1977年の自動車事故で容姿が変わり、「ジェダイの帰還」に出演してすぐに有名な声優として第二のキャリアをスタートさせました。その結果、データ素材が少なすぎて、性能の良いAI顔変換モデルを得ることができませんでした。

表現の範囲に制限はありますか？

AI 顔変換モデルで俳優の誇張した表情を再現したい場合は、こうした珍しい表情のオリジナル映像を幅広く収集する必要があります。しかし、この誇張された表情は、年齢に合わせた映像には含まれていない可能性が高い。

たとえば、『ジェダイの帰還』のメインストーリーが始まる頃には、ハミルはすでに自分の感情をかなりうまく把握している。『ジェダイの帰還』のデータを使用してハミルの AI 顔交換モデルをトレーニングする場合、彼の以前の映画のデータではなく、限られた範囲の感情データと珍しい表情が必要になります。

『ジェダイの帰還』でスカイウォーカーが極度のストレスにさらされる瞬間は、かなり誇張された効果的な表現の素材になるだろうと思われるだろう。しかし、これらのシーンの表情はつかの間であり、モーションブラーやアクションシーンの高速編集の影響を受け、映像が効果的に活用されていません。

要約: 表現の融合

もしスカイウォーカーのキャラクターであるボバ・フェットが実際に AI の顔を変えるモデルを使って完成されたとしたら、彼は限られた範囲の表情しか表現できないだろうが、これは単にオリジナルの映像が不足しているからだけではない。 AI 顔変更モデルは、エンコーダーとデコーダーのトレーニングプロセス中に、何千もの画像から重要な特徴を正常に抽出し、AI 顔変更データセットでは利用できない、またはまれな顔の角度を取得できる一般的なモデルを探します。

AI の顔交換モデルにこの柔軟性がなければ、時間的な連続性やコンテキスト情報を考慮せずに、フレームごとにコピーして貼り付けることしかできません。

さらに、この技術の開発により、表情の真実性が犠牲になり、「繊細な」表情が本物ではなくなる可能性があります。私たちの顔は、100 の設備の整ったオーケストラのように一緒に演奏しますが、AI による顔変更ソフトウェアには少なくとも弦楽器セクションが欠けています。

感情表現の違い

すべての顔の動きとそれが私たちに与える影響は同じように作られているわけではありません。たとえば、ロジャー・ムーアの場合は何気なく見える眉毛の上げ方が、セス・ローガンの場合は洗練されていないように見えるかもしれません。 AIの顔変換モデルを使って、マリリン・モンローのチャーミングな魅力を「怒り」や「不満」に満ちたキャラクター（『パークス・アンド・レクリエーション』シーズン7でオーブリー・プラザが演じた役など）に押し付ければ、ネガティブな感情が伝わってしまう。

したがって、A と B の顔データ間のピクセルが同じだからといって、必ずしもモデルが同じ感情を表現するわけではありませんが、これは高度な AI 顔変換オープンソースモデルをトレーニングするための前提条件です。

私たちが期待するAI顔変換モデルは、表情を認識して感情を推測できるだけでなく、怒り、魅力、退屈、疲労などの高レベルの概念を表現し、口や目の位置を単純にコピーするのではなく、2つのアイデンティティでこれらの感情と関連する表情を異なる方法で表現できる必要があります。

<<: 3Dチップ技術がコンピューティングに破壊的な変化をもたらす3つの方法：AMD、Graphcore、Intelはそれぞれ独自の秘策を秘めている

>>: GitHub のネイティブ AI コード生成ツール Copilot が Visual Studio 2022 を正式にサポート