GTA6のトレーラーは1億回以上再生されており、3人のAI巨人も数秒でGTAギャングに変身できる

GTA6のトレーラーは1億回以上再生されており、3人のAI巨人も数秒でGTAギャングに変身できる

新しいGTAゲームの予告編を見ましたか?この予告編は3つのギネス世界記録を破り、再生回数は1億回を超えたと言われています。

しかし、3 人の AI 巨人が GTA のキャラクターにもなれると言ったら、まだ認識できるでしょうか?

AI の三大巨匠: ヤン・ルカン、ジェフリー・ヒントン、ヨシュア・ベンジオ。

このGTA風の集合写真は、テンセントがFaceStudioというAIモデルを使って合成したもの。特徴は、人物の認識度が高いことで、広く普及している「AI写真」技術をさらに一歩進めたものだ。

人工知能技術の急速な発展に伴い、AI ポートレート写真撮影は AI 技術の応用の人気のある方向になりました。 AI + 画像アプリケーションの分野では、MiaoYa カメラなどの AI 写真製品が大きな可能性と人気を示しています。 MiaoYaカメラの発売はわずか数週間でソーシャルメディア上で大きな注目を集め、その急速な成長率はこの市場の大きな可能性を浮き彫りにしています。それにもかかわらず、多くの AI 写真製品には依然として一定の技術的制限があります。たとえば、ユーザーは大きな違いのある複数の写真をアップロードし、合成効果を得るのに長い時間待つ必要があり、これは間違いなくユーザーエクスペリエンスに影響を与えます。

AIが主導するこの画像イノベーションの波の中で、テンセントの最新の研究成果であるFaceStudioは、さらなる技術的進歩を示しました。この研究は、肖像画の迅速な合成に焦点を当てるだけでなく、肖像画のアイデンティティ情報を保持し、美的要件を満たしながらキャラクターの独自性と認識可能性を維持することにも焦点を当てています。オープンソースアルゴリズム StableDiffusion のコアな利点を継承するだけでなく、複数の主要機能に革新的な改善を加えています。最も印象的なのは、画像生成にハイブリッド ガイダンスを使用する機能です。これは、複数人物の写真や様式化された画像の処理で特に顕著です。

FaceStudio のコア技術は、個人のアイデンティティ特性を犠牲にすることなく、様式化されたキャラクター画像の合成を実現する能力にあります。従来の AI 画像合成技術では、視覚的な美しさを追求する一方で、文字の独自性や認識可能性が犠牲になることが多くありました。しかし、FaceStudio は、高度なハイブリッド ガイダンス メカニズムにより、画像を生成する際にテキスト キュー、スタイル画像、アイデンティティ画像を同時に考慮できるため、個々の特徴を維持しながら多様なスタイル転送を実現できます。これは大きな技術的進歩であるだけでなく、ユーザーにさらに豊富でパーソナライズされた画像合成オプションを提供します。

さらに、FaceStudio 独自のマルチアイデンティティ クロスアテンション メカニズムにより、複数の人物を含む画像の処理に特に適しています。従来の方法では、このような画像を処理する際に、各人物の特徴を正確に区別して維持することが困難であるという問題に直面することがよくあります。しかし、FaceStudio のメカニズムは、異なるアイデンティティの特徴情報を画像の対応する部分に正確にマッピングすることができ、各キャラクターの独自性を維持しながら全体的なスタイルを調整する点でも優れています。

FaceStudioは、さまざまな興味深い顔関連のアプリケーションをサポートしています

  • 論文アドレス: https://arxiv.org/abs/2312.02663
  • ホームページアドレス: https://icoz69.github.io/facestudio/

方法の概要

ハイブリッドブーツデザイン

FaceStudio のコア機能の 1 つは、ハイブリッド ガイド デザインです。チームは、モデルが画像とテキストの両方の手がかりを同時に取り入れ、アイデンティティ固有の特性を持つ画像を生成できるようにする独自のアプローチを採用しました。画像キューベースのガイダンス モジュールは、次の 2 つのサブモジュールで構成されています。

  • 画像誘導モジュール: この部分では、FaceStudio は CLIP ビジョン エンコーダーを使用して人間の画像を処理します。これらの画像は通常様式化されており、色、テクスチャ、構成などの豊富な視覚情報が含まれています。 CLIP エンコーダーは、これらの画像から複雑なスタイルの特徴を抽出できます。
  • アイデンティティ認識モジュール: 画像ガイダンス モジュールと並行して、Tencent チームは、Arcface モデルを使用して個々の顔画像を処理するアイデンティティ認識モジュールも設計しました。その主な目的は、顔の画像から顔の構造、表情、その他の固有の生体認証情報などの主要な識別特徴を抽出することです。

様式化された画像の視覚的特徴と顔画像の識別特徴を抽出した後、これら 2 つの特徴セットを融合します。このステップは線形レイヤーを通じて実行され、2 つのフィーチャを組み合わせて、結合されたガイド付きフィーチャを作成します。このアプローチの利点は、人物のアイデンティティが保持されるだけでなく、特定のスタイルとコンテンツが画像生成プロセスに組み入れられることです。

FaceStudio には、画像ガイダンスに加えて、テキストガイダンス機能も統合されています。これは、事前にトレーニングされた事前モデル (PriorTransformer) を使用することで実現されます。この事前モデルは、CLIP テキスト機能を対応する CLIP ビジュアル機能にマッピングできます。次に、画像キューガイダンスモジュールと同様に、これらの視覚的特徴を ID 認識モジュールの機能と組み合わせて、テキストキューに応答できる包括的なガイダンス機能を形成します。最後に、これら 2 つのキュー機能が重み付けされて融合され、ハイブリッド ガイダンスが実現されます。

FaceStudio アーキテクチャ図

複数人物画像合成

テンセントチームが開発した FaceStudio フレームワークにおいて、「複数人物画像の処理」部分は、複数の人物のポートレートを 1 つの画像に合成することに重点を置いた重要なイノベーションであり、最終画像で各人物が独自のアイデンティティを維持できるようにします。 FaceStudio は、複数の人物が写っている画像に対して、特別な注意メカニズムを使用します。このメカニズムにより、画像合成プロセス中に、各人物領域の特徴が対応する ID 情報にのみアクセスすることが保証されます。つまり、モデルは各人物のアイデンティティを正確に制御し、最終画像で正しく表現されるようになります。この正確な制御を実現するために、Tencent チームは人物インスタンス セグメンテーション モデルを使用しました。このモデルは、画像内のさまざまな人物を識別し、各人物の領域を対応する ID 機能に関連付けることができます。このようにして、モデルは画像を合成する際に各人の身元情報が正しく導かれることを保証できます。

複数人物画像生成における FaceStudio とベースライン アルゴリズムの比較

トレーニング戦略

Tencent チームは、人間の画像を再構築することを目的とした FaceStudio のトレーニング戦略を設計しました。このアプローチでは、顔の領域がマスクされた元の画像を様式化された人間の画像入力として使用し、同じ画像から切り取られた顔を ID 入力として使用しました。これにより、モデルはガイダンス画像を生成する際に人物の身元をより正確に保持できるようになります。既存の生成モデルのトレーニング方法とは異なり、この方法はトレーニング データとしてポートレートのみに依存し、テキスト注釈を必要としないため、ラベル付きデータへの依存が大幅に軽減されます。さまざまなスタイルの肖像画に一般化できます。

結果

FaceStudio は、顔の類似性とポートレート生成時間を評価することで、独自の利点を発揮します。実験結果によると、FaceStudio では 1 枚の肖像画を生成するのに 4 秒もかからないのに対し、最適化された人気のアルゴリズム DreamBooth では最大 6 分かかります。同時に、FaceStudio は肖像画の特徴をより適切に保存し、顔の類似性も向上します。実験結果は次のように比較されます。


研究者らは、同じ画像に対して、現在の最良の肖像画生成モデルアルゴリズムの結果と比較した。結果は、FaceStuio がほぼすべてのサンプルでより良い結果または同等の結果を達成したことを示しています。これは、FaceStudio の強力な堅牢性と汎用性をさらに証明しています。比較結果は次のとおりです。

さらに、FaceStudo の実験では、アイデンティティの混合やテキストと画像の混合ガイド付き生成など、顔画像生成のさまざまな独自のアプリケーションも実証されています。

 アイデンティティ混合画像生成実験

テキストと画像の混合による画像生成の実験

FaceStudio によって生成されたさまざまなスタイルの肖像画の例。

要約する

要約すると、FaceStudio の登場は、パーソナライズされた画像生成の分野における大きな進歩を意味します。文字のアイデンティティを維持しながら、豊富なスタイル設定とテキスト主導の画像生成オプションを提供します。この機能は、芸術的創作やエンターテインメント業界にとって大きな価値があるだけでなく、広告、デジタル メディア制作、パーソナライズされたコンテンツの作成などの分野でも重要な役割を果たす可能性があります。 FaceStudio は、画像のアイデンティティとスタイルを正確に制御できるようにすることで、画像生成テクノロジーの将来の開発に新たな道を開き、この分野における革新と変革を告げています。

<<: 

>>:  口コミの逆転、Pika 1.0の試用効果は多くの人々を納得させ、「最高のビデオジェネレーター」と呼んだ

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIチャットボット市場は2028年までに150億ドルに達する

AI チャットボットは、自然言語処理と機械学習を使用してユーザーとの人間の会話をシミュレートするソフ...

73歳のヒントン氏は、次世代のニューラルネットワーク「教師なし対照学習」を考案した。

最近開催された第43回国際情報検索会議(ACM SIGIR2020)で、Geoffrey Hinto...

MITジェネシス核融合が世界記録を更新!高温超伝導磁石が恒星のエネルギーを解放、人工太陽が誕生するのか?

クリーンエネルギーの聖杯は征服されたのか? 「MITチームは、一夜にして核融合炉のワット当たりコスト...

IoTロック商用化の新時代を切り開き、電池不要のnokelockパッシブロックX2が発売

これは電池不要のスマートドアロックです。 5月15日、北京で開催された「nokelock 2019グ...

旅の途中で「おもしろさ」が爆発!絵文字ジェネレーター、マスクがプリンセスに変身 | チュートリアル付き

Midjourney 5.2 はちょうど 1 週間前にリリースされ、さらに大きなアップデートが行われ...

世界中のコードの品質が急激に低下、その原因は AI です。 1億5300万行のコードの詳細な分析レポートが公開されました

AI が世界中のコード品質を低下させています。最近、GitClear が発表した調査レポートによると...

瞳に秘められた市場、虹彩認証は100億のブルーオーシャンを歓迎します!

[[442794]]人工知能の人気が高まるにつれ、生体認証技術が大きな注目を集めています。特に20...

AI バイブル PRML「パターン認識と機械学習」が Microsoft によって正式にオープンソース化されました。

機械学習やディープラーニングに携わっている人なら誰でも、「パターン認識と機械学習」、略して PRML...

自動運転と安全性の「距離」

4月15日、2021年上海モーターショー前夜、ファーウェイは自動運転システムADSのプロモーション...

ニューラルネットワークアルゴリズムの利点と応用

[[211834]]人工ニューラル ネットワーク (ANN) は脳の処理メカニズムに基づいており、複...

...

ライトスピードコンピューティングが画期的な進歩を達成、AIトレーニングコストの問題が解決される可能性

画像出典: Visual China 1956年、アメリカの経済学者によって「人工知能」の概念が提唱...

...

GPT-4の5倍の性能を持つGoogle Geminiは、本当にOpenAIやMicrosoftに勝てるのでしょうか?

もしあなたが会社の CEO だったら、自社の製品が競合他社に打ち負かされたと聞いたらどう感じるでしょ...

2021 年に知っておくべきすべての機械学習アルゴリズム

機械学習に関する知識が増えるにつれて、機械学習アルゴリズムの数も増えました。この記事では、データ サ...