今回、ヤン・ルカンが初めて「変わり続ける大物」の仲間入りを果たした。アイアンマンの衣装とかっこいいサングラスをかけて、無表情で見つめたり、古代の衣装を着て紫禁城の前でチェックインしたり… 私も再投稿して「左下のこのルネッサンス絵画が私のお気に入りです」と言いました。 セクシーな女神ブラック ウィドウは紫色の魔法使いのコスチュームを着て遠くを見つめています。サンタの帽子をかぶってあなたと目を合わせることもできます。 宇宙服を着たウルトラマンはかわいいし、髪を赤く染めても違和感ない 上記の研究は南開大学、テンセントなどの機関によるもので、効率的でパーソナライズされたテキストから画像への生成方法であるPhotoMakerを提案しています。関連論文「PhotoMaker: スタック ID 埋め込みによるリアルな人間写真のカスタマイズ」は昨年 12 月に発表され、プロジェクトはオープンソース化されました。 1日も経たないうちに、星の数は650以上に達しました。 プロジェクトアドレス: https://github.com/TencentARC/PhotoMaker?cnotallow=98363d6ac1beafe515190e50d2c40427 PhotoMaker では、リアルなポートレートを生成するだけでなく、スケッチ、漫画、アニメーションなどの他のスタイルも生成できます。 異なるキャラクターのアイデンティティを組み合わせて、まったく新しいキャラクターイメージを作成することもできます。ヘップバーンとエルサ王女の組み合わせは、両方の特徴を兼ね備えています。 写真の人物の年齢や性別を変えることも可能。今回生成された女性の服装について、LeCunさんはどんな感想を持っているのだろうか。 画像出典: https://twitter.com/xiaohuggg/status/1746861416743928103 この調査は誰でも参加でき、使い方も非常に簡単です。4 つのステップで構成されています。
上記の生成プロセスで不適切な操作があった場合、PhotoMaker が通知するので、間違いを心配する必要はありません。 体験中、私たちはマスクの写真を入力しました。プロンプトは「宇宙服を着た男性の画像」で、スタイルはコミカルで、数秒待つだけで済みました。効果はかなり良かったです。 トライアルアドレス: https://huggingface.co/spaces/TencentARC/PhotoMaker?cnotallow=98363d6ac1beafe515190e50d2c40427 この研究の背後で使用されているテクノロジーを引き続き見てみましょう。 研究論文アドレス: https://arxiv.org/pdf/2312.04461.pdf PhotoMaker は、効率的なパーソナライズされたテキストから画像への生成方法で、主に任意の数の入力 ID 画像をスタックされた ID 埋め込みにエンコードして ID 情報を保持します。このような埋め込みは、統一された ID 表現として、同じ入力 ID の機能を包括的にカプセル化できるだけでなく、その後の統合のために異なる ID の機能に適応することもできます。これにより、より興味深く便利なアプリケーションへの道が開かれます。 図 1 に示すように、PhotoMaker は一般的な再構成を実行できるだけでなく、入力ポートレートの属性 (アクセサリや表情など) を変更したり、入力 ID とはまったく異なる視点から人物写真を生成したり、入力 ID の性別や年齢を変更したりすることもできます (図 1 を参照)。 PhotoMaker は、ユーザーがカスタムポートレートを生成するためのさまざまな可能性も提供します。トレーニング中にスタックされた ID 埋め込みを構築するために使用される画像は同じ ID からのものですが、推論中に異なる ID からの画像を使用してスタックされた ID 埋め込みを形成し、新しいカスタム ID をマージして作成することができます。マージされた新しい ID は、異なる入力 ID の特性を保持できます。たとえば、PhotoMaker はマスクに似たスカーレットを生成したり、人物とよく知られた IP キャラクターを組み合わせたカスタマイズされた ID を生成したりできます (図 1(c) を参照)。 PhotoMaker のトレーニングを容易にするために、研究者はトレーニング データを組み立てるための ID 指向のデータ構築パイプラインを提案しました。提案されたパイプラインを通じて構築されたデータセットの助けを借りて、PhotoMaker は、テスト時に微調整された基本メソッドよりも優れた ID 保存機能を実証し、大幅な速度の向上、高品質の生成結果、強力な一般化機能、および幅広いアプリケーションを提供します。図2(a)はPhotoMakerの概要を示しています。図2(b)は関連するデータ構築パイプラインを示しています。 図 3 と表 1 に示すように、定性的実験と定量的実験の両方において、PhotoMaker は ID の高忠実度を確保しながら高品質の画像を生成する能力を十分に満たしています。 PhotoMaker は、図 4 (a) に示すように、前世紀や古代の人々を現代に呼び寄せて「写真を撮る」こともできます。 PhotoMaker と比較すると、Dreambooth と SDXL はどちらも、現実には登場したことのない人物のリアルな画像を生成するのが困難です。さらに、DreamBooth はカスタム イメージの品質と解像度に大きく依存しているため、カスタム ビルドに古い写真を使用した場合、DreamBooth で高品質の結果を生成することは困難です。 ユーザーが異なる ID の写真を入力すると、PhotoMaker は異なる ID の機能を統合して新しい ID を形成できます。図 5 からわかるように、DreamBooth と SDXL はどちらも ID の混合を実現できません。対照的に、入力がアニメーション IP であるか実在の人物であるかに関係なく、また性別に関係なく、PhotoMaker は生成された新しい ID にさまざまな ID の特性を適切に保持できます。 さらに、PhotoMaker のスタイル化パフォーマンスも優れています。図 6 に示すように、PhotoMaker は ID の忠実度を維持するだけでなく、プロンプトにスタイル要件を効果的に表示します。 より詳細な技術的内容については、原著論文をお読みください。 |
<<: オープンソースモデルの新記録:Mixtral 8x7B Instructを超えるモデルが登場
>>: マイクロソフト、中小企業向けにCopilot AIアシスタントを導入、個人向けにプレミアムサービスを開始
顔認識は、顔の特徴に基づいて人物を識別する生体認証技術です。カメラまたはビデオカメラを使用して、顔を...
人工知能(AI)技術は、将来の研究論文に対して、説得力があり、面白く、科学的な見出しを生成できること...
データを機械学習モデルに渡すときには、データを正規化する必要があることはわかっています。データの正規...
本日、Huawei Developer Conference 2023 (Cloud) が中国・東莞...
[[337240]]人工知能技術は今、世界を変えつつあります。多くの業界はすでに、ビジネス プロセス...
さまざまな業界の企業が、ビッグデータからロボット工学まで、ビジネスプロセスの自動化、顧客体験の向上、...
[[419606]]昨年、アメリカ人のカップル(スティーブン・フランクとアンドレア・フランク)が、...
人工知能は、今の世代で最も話題になっているトピックです。人工知能は、20年後の世界がどのように発展す...
7月2日、国家市場監督管理総局は「価格違反に対する行政処罰(意見募集稿)」を発表し、ダンピング、価格...
人工知能(AI)は物理学の分野を含む多くの産業に変革をもたらしています。物理学では、AI は複雑な問...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...