テンセントの最新 AI ツールが画面いっぱいに登場!ヤン・ミーのマルチスタイルの写真が数秒で生成され、ルクンが気に入っている

テンセントの最新 AI ツールが画面いっぱいに登場!ヤン・ミーのマルチスタイルの写真が数秒で生成され、ルクンが気に入っている

大企業がこのビジネスに参入し始めています!

ByteDance と Alibaba のツールが人気を博し、今度は Tencent の新しい写真生成アプリ PhotoMaker が画面を独占しています。シーンを見てください...

1 枚以上の写真をアップロードするだけで、追加の LoRA トレーニングなしですぐにカスタマイズできます。誰でも、どんなスタイルでも、高忠実度タイプ。

こうして数秒のうちに、ルカンはアイアンマンに変身したのです。しかしその後、ルカン氏は再投稿し、ルネッサンスの絵画スタイルが自分のお気に入りだと述べた。

ヤン・ミーの様々なスタイルの写真が公開された。

さらに、興味深い機能が多数あり、アプリケーションのデモが無料で体験できるようになりました。

事前に体験してみましょう。

PhotoMaker スクリーンスイープ

要約すると、PhotoMaker には 3 つの主な機能があります。

最初のものは、説明に基づいて複数のスタイルで個人的な写真を生成できます

たとえば、このようなブラックウィドウを見たことがありますか?

2次元で使える写真も生成できます。

2つ目は、異なる文字の特性を組み合わせて新しい文字形式を生成することです。

想像力を働かせて、ウルトラマンとスティーブ・ジョブズの間に生まれた子供はどんな姿になるか考えてみましょう。 ? ?

次元の組み合わせさえも破壊できる!

さらに、年齢、性別、写真の年を変更するなど、いくつかの細かい機能があります。

マスク氏が子供の頃に見たことがありますか?

ルカンが中年女性になると…

現在、研究チームは公式オリジナルバージョンと様式化されたバージョンの 2 つの体験バージョンを提供しています。様式化されたバージョンでは、より良い結果を得るために、基本モデルを変更し、LoRA モジュールを追加するだけで済みます。

ただし、これら 2 つのバージョンの消費には違いはなく、主に 3 つのステップに分かれています。

まず、カスタマイズしたい写真をアップロードします。 1つでも、複数でも大丈夫です。

ここで注目すべきは、顔検出は行わないと強調しているが、アップロードされた写真の顔はすでに写真の大部分を占めているということだ。

次に、テキスト プロンプトを入力し、カスタマイズするカテゴリ ワードの後に​​トリガー ワード(img)を必ず追加します。

たとえば、男性の画像、女性の写真、女の子の画像などです。

次に、お気に入りのスタイルとテンプレートを選択して生成します。

しかし、実際のテストでは、おそらく多くの人が使用しているために、効果が現れるのが遅いことがわかりました。

これを実現するにはどうすればよいでしょうか?

つまり、PhotoMaker は、スタックされた ID 埋め込みというシンプルだが効果的な表現方法を使用します。

複数の識別 (ID) 画像の情報を統一されたデータ構造に統合できるため、複数の異なる ID 機能を統合しながら、単一の ID の情報をより適切に保存できます。

具体的には、まず、テキスト エンコーダと画像エンコーダからそれぞれテキスト埋め込みと画像埋め込みを取得します。次に、対応するカテゴリ埋め込み(性別など)を各画像埋め込みと結合して、融合埋め込みを抽出します。次に、すべての融合された埋め込みが長さの次元に沿って連結され、積み重ねられた ID 埋め込みが形成されます。最後に、それを拡散モデルに入力して画像を生成します。

トレーニング プロセスでは ID 別に分類されたデータセットを使用する必要があるため、既存のデータセットには注釈付きの ID 情報が含まれていないか、顔の領域のみに焦点を当てているなど、シーンの豊富さが限られています。

この目的のために、研究者らは、異なる ID に従って分類できる ID 指向のテキスト画像データセット構築パイプラインも特別に構築しました。各 ID には複数の画像があり、それぞれ異なる表現、属性、シーンなどが含まれます。

なお、トレーニング時には背景マスク付きの同じ ID 画像が使用されますが、推論プロセス時には背景マスクなしの別の ID 画像を直接入力して新しい ID を作成できます。

実験結果によると、PhotoMaker は他の方法と比較して、高品質で多様な生成機能、編集機能、忠実度を備えていることがわかりました。

さらに、この方法では、従来は実現が困難だった、より興味深い機能も実現できます。たとえば、年齢や性別の変更、古い写真や芸術作品の人物を現実に復元すること、アイデンティティの混合などです。

では、興味のある友達は下のリンクをクリックしてプレイしてください〜
https://huggingface.co/spaces/TencentARC/PhotoMaker
https://huggingface.co/spaces/TencentARC/PhotoMaker-Style
論文リンク:
https://arxiv.org/abs/2312.04461
プロジェクトリンク:
https://github.com/TencentARC/PhotoMaker?tab=readme-ov-file#start-a-local-gradio-demo

<<:  AI不正対策!ディープフェイク音声・動画検出技術がCESでデビュー、精度は90%以上

>>:  マスク氏のロボットショーは何百万人ものネットユーザーを魅了した!

ブログ    
ブログ    
ブログ    

推薦する

最大速度アップは20億倍! AIが物理シミュレーションエンジンに革命を起こす

[[422090]]オックスフォード大学の研究によると、機械学習モデルは従来の物理ソルバーに比べて物...

RAGから富へ:人工知能の幻想を払拭する

検索拡張生成は、AI モデルがデータを改善し、幻覚を軽減できるようにする最も有望な技術の 1 つと考...

...

マルチエージェント強化学習アルゴリズムが機能しないと聞きました。 MAPPOを正しく使用しましたか?

清華大学とカリフォルニア大学バークレー校の共同研究により、アルゴリズムやネットワークアーキテクチャに...

AI 計画ガイド: デジタル変革に不可欠なステップ

[[266832]]人工知能は今日のデジタル変革に欠かせない要素となり、デジタル変革の定義を完全に置...

...

...

中国はビッグデータ、人工知能、遺伝子技術などに関する知的財産法制の整備を加速させる。

中国共産党中央委員会と国務院がこのほど発表した「知的財産強国建設要綱(2021~2035年)」では、...

ディープラーニングと従来の機械学習のメリットとデメリット!

過去数年間、ディープラーニングは、従来の機械学習を凌駕し、ほとんどの AI 型の問題に対する頼りにな...

...

業界初のAIリアルタイムステルス技術、ステルスの超能力を手に入れるために快手へ

先ほど終わった快手千夜一夜パーティで、ディルラバ・ディルムラトの突然の登場に、司会者と観客から「かっ...

なぜ人工知能は第四次産業革命と呼ばれるのでしょうか?

[[234940]]過去2年間、世界のIT大手は人工知能の分野で展開してきました。GoogleはD...

人工知能はチェスをプレイする以外に何をすべきでしょうか?

[[183486]]医療、金融、交通、教育、公安、小売、商業サービスなどの業界は、電子データの度合...

アマゾンとファーウェイの機械学習面接を経験すると、試験官はこれらの答えを聞きたがっていることが判明

[[245589]]ジョージ・セイフ氏はこれまで、主にデータサイエンスや機械学習関連の職種を対象に、...