ヤン・ルカンは、テンセントのポートレート写真生成が自由にできることを明かした。

ヤン・ルカンは、テンセントのポートレート写真生成が自由にできることを明かした。

今回、ヤン・ルカンが初めて「変わり続ける大物」の仲間入りを果たした。アイアンマンの衣装とかっこいいサングラスをかけて、無表情で見つめたり、古代の衣装を着て紫禁城の前でチェックインしたり…

私も再投稿して「左下のこのルネッサンス絵画が私のお気に入りです」と言いました。

セクシーな女神ブラック ウィドウは紫色の魔法使いのコスチュームを着て遠くを見つめています。サンタの帽子をかぶってあなたと目を合わせることもできます。

宇宙服を着たウルトラマンはかわいいし、髪を赤く染めても違和感ない

上記の研究は南開大学、テンセントなどの機関によるもので、効率的でパーソナライズされたテキストから画像への生成方法であるPhotoMakerを提案しています。関連論文「PhotoMaker: スタック ID 埋め込みによるリアルな人間写真のカスタマイズ」は昨年 12 月に発表され、プロジェクトはオープンソース化されました。 1日も経たないうちに、星の数は650以上に達しました。

プロジェクトアドレス: https://github.com/TencentARC/PhotoMaker?cnotallow=98363d6ac1beafe515190e50d2c40427

PhotoMaker では、リアルなポートレートを生成するだけでなく、スケッチ、漫画、アニメーションなどの他のスタイルも生成できます。

異なるキャラクターのアイデンティティを組み合わせて、まったく新しいキャラクターイメージを作成することもできます。ヘップバーンとエルサ王女の組み合わせは、両方の特徴を兼ね備えています。

写真の人物の年齢や性別を変えることも可能。今回生成された女性の服装について、LeCunさんはどんな感想を持っているのだろうか。

画像出典: https://twitter.com/xiaohuggg/status/1746861416743928103

この調査は誰でも参加でき、使い方も非常に簡単です。4 つのステップで構成されています。

  • 最初のステップは写真をアップロードすることです。1枚でも十分ですが、複数の写真があるとさらに良いでしょう。アップロードした写真の顔が画像の大部分を占める必要があります。
  • 2 番目のステップは、テキスト プロンプトを入力し、man img、woman img、girl img などのトリガー ワード img を必ず使用するようにします。
  • 3 番目のステップは、お気に入りのスタイルのテンプレートを選択することです (10 種類以上のテンプレートが組み込まれています)。
  • 最後のステップは、「送信」ボタンをクリックして生成を待つことです。

上記の生成プロセスで不適切な操作があった場合、PhotoMaker が通知するので、間違いを心配する必要はありません。

体験中、私たちはマスクの写真を入力しました。プロンプトは「宇宙服を着た男性の画像」で、スタイルはコミカルで、数秒待つだけで済みました。効果はかなり良かったです。

トライアルアドレス: https://huggingface.co/spaces/TencentARC/PhotoMaker?cnotallow=98363d6ac1beafe515190e50d2c40427

この研究の背後で使用されているテクノロジーを引き続き見てみましょう。

研究

論文アドレス: https://arxiv.org/pdf/2312.04461.pdf

PhotoMaker は、効率的なパーソナライズされたテキストから画像への生成方法で、主に任意の数の入力 ID 画像をスタックされた ID 埋め込みにエンコードして ID 情報を保持します。このような埋め込みは、統一された ID 表現として、同じ入力 ID の機能を包括的にカプセル化できるだけでなく、その後の統合のために異なる ID の機能に適応することもできます。これにより、より興味深く便利なアプリケーションへの道が開かれます。

図 1 に示すように、PhotoMaker は一般的な再構成を実行できるだけでなく、入力ポートレートの属性 (アクセサリや表情など) を変更したり、入力 ID とはまったく異なる視点から人物写真を生成したり、入力 ID の性別や年齢を変更したりすることもできます (図 1 を参照)。

PhotoMaker は、ユーザーがカスタムポートレートを生成するためのさまざまな可能性も提供します。トレーニング中にスタックされた ID 埋め込みを構築するために使用される画像は同じ ID からのものですが、推論中に異なる ID からの画像を使用してスタックされた ID 埋め込みを形成し、新しいカスタム ID をマージして作成することができます。マージされた新しい ID は、異なる入力 ID の特性を保持できます。たとえば、PhotoMaker はマスクに似たスカーレットを生成したり、人物とよく知られた IP キャラクターを組み合わせたカスタマイズされた ID を生成したりできます (図 1(c) を参照)。

PhotoMaker のトレーニングを容易にするために、研究者はトレーニング データを組み立てるための ID 指向のデータ構築パイプラインを提案しました。提案されたパイプラインを通じて構築されたデータセットの助けを借りて、PhotoMaker は、テスト時に微調整された基本メソッドよりも優れた ID 保存機能を実証し、大幅な速度の向上、高品質の生成結果、強力な一般化機能、および幅広いアプリケーションを提供します。図2(a)はPhotoMakerの概要を示しています。図2(b)は関連するデータ構築パイプラインを示しています。

図 3 と表 1 に示すように、定性的実験と定量的実験の両方において、PhotoMaker は ID の高忠実度を確保しながら高品質の画像を生成する能力を十分に満たしています。

PhotoMaker は、図 4 (a) に示すように、前世紀や古代の人々を現代に呼び寄せて「写真を撮る」こともできます。 PhotoMaker と比較すると、Dreambooth と SDXL はどちらも、現実には登場したことのない人物のリアルな画像を生成するのが困難です。さらに、DreamBooth はカスタム イメージの品質と解像度に大きく依存しているため、カスタム ビルドに古い写真を使用した場合、DreamBooth で高品質の結果を生成することは困難です。

ユーザーが異なる ID の写真を入力すると、PhotoMaker は異なる ID の機能を統合して新しい ID を形成できます。図 5 からわかるように、DreamBooth と SDXL はどちらも ID の混合を実現できません。対照的に、入力がアニメーション IP であるか実在の人物であるかに関係なく、また性別に関係なく、PhotoMaker は生成された新しい ID にさまざまな ID の特性を適切に保持できます。

さらに、PhotoMaker のスタイル化パフォーマンスも優れています。図 6 に示すように、PhotoMaker は ID の忠実度を維持するだけでなく、プロンプトにスタイル要件を効果的に表示します。

より詳細な技術的内容については、原著論文をお読みください。

<<:  オープンソースモデルの新記録:Mixtral 8x7B Instructを超えるモデルが登場

>>:  マイクロソフト、中小企業向けにCopilot AIアシスタントを導入、個人向けにプレミアムサービスを開始

ブログ    
ブログ    
ブログ    

推薦する

AI プロジェクトの 85% が失敗します。何が悪かったのでしょうか?

[[441161]]最近のガートナー社の 2 つのレポートによると、AI および機械学習プロジェク...

オープンソースAIとプロプライエタリAIの戦い

IBM と Meta のパートナーおよび協力者には、AMD、Intel、NASA、CERN、Hugg...

人間の仕事が危機に瀕しているか?この時代にいかに目立つかが非常に重要です

序文「データ奴隷」現象は、AI時代の新たなエリート層を生み出したが、同時に、すでに強大な企業をさらに...

ドキュメントの分類が複雑すぎますか? MITとIBMは協力してこの問題を解決した

[[286340]] 【画像出典:venturebeat オーナー:venturebeat 】この記...

...

...

Python で畳み込みニューラル ネットワークを視覚化する

ディープラーニングなどのエンドツーエンドのモデルの場合、トレーニングプロセスをどのように説明し理解す...

...

Alibaba Cloud が Tongyi Qianwen 2.0 をリリース、パフォーマンスが加速して GPT-4 に追いつく

2023年杭州雲奇大会において、アリババクラウド最高技術責任者の周景仁氏は、数千億のパラメータを持つ...

認知システムが機械学習とセマンティック技術を組み合わせるべき理由

ワインとチーズの組み合わせを識別するのに役立つアプリケーションを構築したいとします。最も優れたパフォ...

自動運転スタートアップのAuroraは、テスト用によりリアルな仮想世界を構築するために元ピクサーのベテランを雇用

来週ナスダックに上場する予定の自動運転車スタートアップ企業、オーロラは、自動運転システムのテストとト...

...

...

予測によると、人工知能市場は急速に成長し続けるだろう

スペイン紙エル・ムンドのウェブサイトが2月20日に報じたところによると、ソフトウェア、ハードウェア、...

C# バイナリ ツリー トラバーサル アルゴリズムの実装の簡単な分析

C# アルゴリズムは、バイナリ ツリーの定義、既知のバイナリ ツリーの構築方法、および C# でバイ...