GTA6のトレーラーは1億回以上再生されており、3人のAI巨人も数秒でGTAギャングに変身できる

GTA6のトレーラーは1億回以上再生されており、3人のAI巨人も数秒でGTAギャングに変身できる

新しいGTAゲームの予告編を見ましたか?この予告編は3つのギネス世界記録を破り、再生回数は1億回を超えたと言われています。

しかし、3 人の AI 巨人が GTA のキャラクターにもなれると言ったら、まだ認識できるでしょうか?

AI の三大巨匠: ヤン・ルカン、ジェフリー・ヒントン、ヨシュア・ベンジオ。

このGTA風の集合写真は、テンセントがFaceStudioというAIモデルを使って合成したもの。特徴は、人物の認識度が高いことで、広く普及している「AI写真」技術をさらに一歩進めたものだ。

人工知能技術の急速な発展に伴い、AI ポートレート写真撮影は AI 技術の応用の人気のある方向になりました。 AI + 画像アプリケーションの分野では、MiaoYa カメラなどの AI 写真製品が大きな可能性と人気を示しています。 MiaoYaカメラの発売はわずか数週間でソーシャルメディア上で大きな注目を集め、その急速な成長率はこの市場の大きな可能性を浮き彫りにしています。それにもかかわらず、多くの AI 写真製品には依然として一定の技術的制限があります。たとえば、ユーザーは大きな違いのある複数の写真をアップロードし、合成効果を得るのに長い時間待つ必要があり、これは間違いなくユーザーエクスペリエンスに影響を与えます。

AIが主導するこの画像イノベーションの波の中で、テンセントの最新の研究成果であるFaceStudioは、さらなる技術的進歩を示しました。この研究は、肖像画の迅速な合成に焦点を当てるだけでなく、肖像画のアイデンティティ情報を保持し、美的要件を満たしながらキャラクターの独自性と認識可能性を維持することにも焦点を当てています。オープンソースアルゴリズム StableDiffusion のコアな利点を継承するだけでなく、複数の主要機能に革新的な改善を加えています。最も印象的なのは、画像生成にハイブリッド ガイダンスを使用する機能です。これは、複数人物の写真や様式化された画像の処理で特に顕著です。

FaceStudio のコア技術は、個人のアイデンティティ特性を犠牲にすることなく、様式化されたキャラクター画像の合成を実現する能力にあります。従来の AI 画像合成技術では、視覚的な美しさを追求する一方で、文字の独自性や認識可能性が犠牲になることが多くありました。しかし、FaceStudio は、高度なハイブリッド ガイダンス メカニズムにより、画像を生成する際にテキスト キュー、スタイル画像、アイデンティティ画像を同時に考慮できるため、個々の特徴を維持しながら多様なスタイル転送を実現できます。これは大きな技術的進歩であるだけでなく、ユーザーにさらに豊富でパーソナライズされた画像合成オプションを提供します。

さらに、FaceStudio 独自のマルチアイデンティティ クロスアテンション メカニズムにより、複数の人物を含む画像の処理に特に適しています。従来の方法では、このような画像を処理する際に、各人物の特徴を正確に区別して維持することが困難であるという問題に直面することがよくあります。しかし、FaceStudio のメカニズムは、異なるアイデンティティの特徴情報を画像の対応する部分に正確にマッピングすることができ、各キャラクターの独自性を維持しながら全体的なスタイルを調整する点でも優れています。

FaceStudioは、さまざまな興味深い顔関連のアプリケーションをサポートしています

  • 論文アドレス: https://arxiv.org/abs/2312.02663
  • ホームページアドレス: https://icoz69.github.io/facestudio/

方法の概要

ハイブリッドブーツデザイン

FaceStudio のコア機能の 1 つは、ハイブリッド ガイド デザインです。チームは、モデルが画像とテキストの両方の手がかりを同時に取り入れ、アイデンティティ固有の特性を持つ画像を生成できるようにする独自のアプローチを採用しました。画像キューベースのガイダンス モジュールは、次の 2 つのサブモジュールで構成されています。

  • 画像誘導モジュール: この部分では、FaceStudio は CLIP ビジョン エンコーダーを使用して人間の画像を処理します。これらの画像は通常様式化されており、色、テクスチャ、構成などの豊富な視覚情報が含まれています。 CLIP エンコーダーは、これらの画像から複雑なスタイルの特徴を抽出できます。
  • アイデンティティ認識モジュール: 画像ガイダンス モジュールと並行して、Tencent チームは、Arcface モデルを使用して個々の顔画像を処理するアイデンティティ認識モジュールも設計しました。その主な目的は、顔の画像から顔の構造、表情、その他の固有の生体認証情報などの主要な識別特徴を抽出することです。

様式化された画像の視覚的特徴と顔画像の識別特徴を抽出した後、これら 2 つの特徴セットを融合します。このステップは線形レイヤーを通じて実行され、2 つのフィーチャを組み合わせて、結合されたガイド付きフィーチャを作成します。このアプローチの利点は、人物のアイデンティティが保持されるだけでなく、特定のスタイルとコンテンツが画像生成プロセスに組み入れられることです。

FaceStudio には、画像ガイダンスに加えて、テキストガイダンス機能も統合されています。これは、事前にトレーニングされた事前モデル (PriorTransformer) を使用することで実現されます。この事前モデルは、CLIP テキスト機能を対応する CLIP ビジュアル機能にマッピングできます。次に、画像キューガイダンスモジュールと同様に、これらの視覚的特徴を ID 認識モジュールの機能と組み合わせて、テキストキューに応答できる包括的なガイダンス機能を形成します。最後に、これら 2 つのキュー機能が重み付けされて融合され、ハイブリッド ガイダンスが実現されます。

FaceStudio アーキテクチャ図

複数人物画像合成

テンセントチームが開発した FaceStudio フレームワークにおいて、「複数人物画像の処理」部分は、複数の人物のポートレートを 1 つの画像に合成することに重点を置いた重要なイノベーションであり、最終画像で各人物が独自のアイデンティティを維持できるようにします。 FaceStudio は、複数の人物が写っている画像に対して、特別な注意メカニズムを使用します。このメカニズムにより、画像合成プロセス中に、各人物領域の特徴が対応する ID 情報にのみアクセスすることが保証されます。つまり、モデルは各人物のアイデンティティを正確に制御し、最終画像で正しく表現されるようになります。この正確な制御を実現するために、Tencent チームは人物インスタンス セグメンテーション モデルを使用しました。このモデルは、画像内のさまざまな人物を識別し、各人物の領域を対応する ID 機能に関連付けることができます。このようにして、モデルは画像を合成する際に各人の身元情報が正しく導かれることを保証できます。

複数人物画像生成における FaceStudio とベースライン アルゴリズムの比較

トレーニング戦略

Tencent チームは、人間の画像を再構築することを目的とした FaceStudio のトレーニング戦略を設計しました。このアプローチでは、顔の領域がマスクされた元の画像を様式化された人間の画像入力として使用し、同じ画像から切り取られた顔を ID 入力として使用しました。これにより、モデルはガイダンス画像を生成する際に人物の身元をより正確に保持できるようになります。既存の生成モデルのトレーニング方法とは異なり、この方法はトレーニング データとしてポートレートのみに依存し、テキスト注釈を必要としないため、ラベル付きデータへの依存が大幅に軽減されます。さまざまなスタイルの肖像画に一般化できます。

結果

FaceStudio は、顔の類似性とポートレート生成時間を評価することで、独自の利点を発揮します。実験結果によると、FaceStudio では 1 枚の肖像画を生成するのに 4 秒もかからないのに対し、最適化された人気のアルゴリズム DreamBooth では最大 6 分かかります。同時に、FaceStudio は肖像画の特徴をより適切に保存し、顔の類似性も向上します。実験結果は次のように比較されます。


研究者らは、同じ画像に対して、現在の最良の肖像画生成モデルアルゴリズムの結果と比較した。結果は、FaceStuio がほぼすべてのサンプルでより良い結果または同等の結果を達成したことを示しています。これは、FaceStudio の強力な堅牢性と汎用性をさらに証明しています。比較結果は次のとおりです。

さらに、FaceStudo の実験では、アイデンティティの混合やテキストと画像の混合ガイド付き生成など、顔画像生成のさまざまな独自のアプリケーションも実証されています。

 アイデンティティ混合画像生成実験

テキストと画像の混合による画像生成の実験

FaceStudio によって生成されたさまざまなスタイルの肖像画の例。

要約する

要約すると、FaceStudio の登場は、パーソナライズされた画像生成の分野における大きな進歩を意味します。文字のアイデンティティを維持しながら、豊富なスタイル設定とテキスト主導の画像生成オプションを提供します。この機能は、芸術的創作やエンターテインメント業界にとって大きな価値があるだけでなく、広告、デジタル メディア制作、パーソナライズされたコンテンツの作成などの分野でも重要な役割を果たす可能性があります。 FaceStudio は、画像のアイデンティティとスタイルを正確に制御できるようにすることで、画像生成テクノロジーの将来の開発に新たな道を開き、この分野における革新と変革を告げています。

<<: 

>>:  口コミの逆転、Pika 1.0の試用効果は多くの人々を納得させ、「最高のビデオジェネレーター」と呼んだ

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Googleがまた新しいことを始める: 視覚言語モデルに空間推論をさせる

視覚言語モデル (VLM) は、画像の説明、視覚的な質問応答 (VQA)、具体化された計画、アクショ...

デジタルセンサーを使用してピンホールカメラを作るにはどうすればいいですか?

ビッグデータダイジェスト制作出典: IEEE近年、ピンホール写真に対する人々の関心は年々高まり、関連...

顔認識の応用シナリオは拡大し続けています。顔スキャンは便利で安全である必要があります。

[[341456]]顔スキャンでロック解除、顔スキャンで支払い、顔スキャンでキャンパスに入る......

...

...

初めて精度が人間を超えました!アリババの機械読解力が世界記録を更新

2018年の初めに、人工知能は大きな進歩を遂げました。 1月11日、スタンフォード大学が主催する世界...

コードを書けるAIが登場

テクノロジー・トラベラーは2月10日、北京から次のように報じた。「人工知能技術はコーディング開発の結...

APP がアルゴリズムにこだわっているとき、パーソナライズされたカスタマイズを通じて「自分自身」を理解できるでしょうか?

アルゴリズムによる推奨が普及している今日の世界では、あなたよりもあなたのことをよく知っているのは、あ...

GPT-4Vと人間のデモンストレーションによるロボットのトレーニング:目が学習し、手がそれに従う

言語/視覚入力をロボットの動作に変換するにはどうすればよいでしょうか?カスタムモデルをトレーニングす...

人工知能技術には明るい未来がある

1990年代初頭、中国の著名な学者である周海中氏は、人工知能技術がさまざまな分野で広く使用され、予想...

AI教育改革の障害

近年、人工知能技術は最先端技術の代名詞として、徐々に生活の各分野に浸透しており、教育業界も例外ではあ...

メタ:メタバース製品は引き続き顔認識技術を使用する

[[433492]] 11月5日、海外メディアの報道によると、フェイスブックは今週、同社のプラットフ...

MIT は隠れた物体を「認識」できるロボットを開発中。「私たちはロボットに超人的な認識力を与えようとしている」

MITの研究者らは、視覚と無線周波数(RF)センシングを組み合わせて、視界から隠れている物体でも見...

...