Xiaohongshuのオープンソース「InstantID」は大きな効果があり、Yann LeCunに賞賛され、Githubのホットリストのトップに急上昇

Xiaohongshuのオープンソース「InstantID」は大きな効果があり、Yann LeCunに賞賛され、Githubのホットリストのトップに急上昇

最近、InstantX と名乗る、Xiaohongshu 出身の 95 歳以上の謎のチームが大きな動きを見せました。それは、「InstantID」プロジェクトをオープンソース化するというものでした。

InstantID は、その高品質な画像生成機能により、オープンソース コミュニティで大きな話題を呼んでいます。多くのテクノロジー大手から賞賛されただけでなく、GitHub のホット リストでも急速に人気が高まり、注目を集めています。

この「写真生成ツール」は、写真をアップロードするだけで、AI写真をさまざまなスタイルに簡単にカスタマイズできるツールです。

はい、その通りです。写真の左側に示すように、少なくとも 20 枚の写真をアップロードする必要がある、以前人気のあった Miaoya カメラとは異なり、InstantID では 1 枚の自撮り写真のみが必要で、モデルのトレーニングに依存せず、待機する必要がなく、瞬時に変換できます。

古典的な油絵の優雅さ、クールなサイバーパンク、3D 彫像の立体感など、お気に入りのスタイルであれば、InstantID で簡単に処理できます。

多様なスタイルを備えているだけでなく、モデルのトレーニングを必要とせず、キャラクターの顔の忠実度を高く保ちながら数秒で画像を生成できるため、効率が大幅に向上します。

InstantIDは現在、Hugging Face Spaceのトレンドで1位にランクされており、多くの友人が楽しんで遊んでいます〜

たとえば、マスク氏を火星に送るなど。

モナリザに「桜の写真」を撮らせてください。彼女の笑顔はやはり神秘的です。

中国の教科書に出てくる杜甫を二次元から三次元に変身させ、現代にタイムスリップして「イケメンおじさん」になることさえ可能です。

チューリング賞受賞者のヤン・ルカンがさまざまなアニメキャラクターに変身します。あなたは何人のキャラクターに変身できるか推測できましたか?

ヤン・ルカン本人もこの投稿に「いいね!」してリポストし、「アイアンマン」スーツがどこにあるのかについて冗談を言った。

パーソナライズされた画像合成の分野では、顔の忠実度を高く維持しながら、様式化された肖像画を実現することが常に課題となってきました。

結果から判断すると、InstantID はそれを実現しました。では、その背後にはどのような方法が使われており、何がユニークなのでしょうか?

振り返ってみると、Textual Inversion、DreamBooth、LoRA などのテクノロジーは大きな進歩を遂げてきました。しかし、その実際の応用は、高いストレージ要件、時間のかかる微調整プロセス、および複数の参照画像への依存によって依然として制限されています。対照的に、既存の ID 埋め込みベースの方法は、1 つの前方推論のみを必要とするものの、多数のモデル パラメータの大規模な微調整が必​​要であるか、コミュニティの事前トレーニング済みモデルと互換性がないか、高い信頼性を維持できないかのいずれかの大きな課題に直面しています。

InstantID の出現により、これらの制限は打ち破られました。 Xiaohongshu の InstantX チームは、論文「InstantID: 数秒でゼロショット ID 保持生成」と推論コードを発表しました。チームは次のように述べています。「 InstantID は、テキストベースのグラフ モデルの UNet 部分のトレーニングを巧みに回避します。軽量のプラグ可能なモジュールのみをトレーニングすることで、推論プロセス中のテスト時間の調整を排除し、テキスト制御の柔軟性を維持し、顔の特徴の高忠実度を確保します。」

図に示すように、InstantID の動作原理は 3 つの主要な部分に分けられます。

  • ID 埋め込み: チームは、CLIP の代わりに事前トレーニング済みの顔認識モデルを使用して意味的な顔の特徴を抽出し、トレーニング可能な投影レイヤーを使用してこれらの特徴をテキスト特徴空間にマッピングして、顔の特徴、表情、年齢などの豊富な意味情報を持つ顔埋め込みを形成し、その後の画像生成のための強固な基盤を提供します。
  • イメージ アダプター: 抽出された ID 情報とテキスト キューを組み合わせる軽量アダプター モジュールを導入します。このモジュールは、分離されたクロスアテンションメカニズムを使用して、画像とテキストが生成プロセスに独立して影響を与えることを可能にします。これにより、ユーザーはアイデンティティ情報を維持しながら画像スタイルを細かく制御でき、「win-win」の状況が実現します。
  • IdentityNet: Xiaohongshu は、InstantID の中核部分である IdentityNet と呼ばれるネットワークを提案しました。強力な意味条件 (顔の特徴の詳細な説明など) と弱い空間条件 (顔のランドマークの位置など) を通じて、参照顔画像の複雑な特徴をエンコードします。 IdentityNet では、生成プロセスはテキスト情報なしで Face Embedding によって完全にガイドされます。新しく追加されたモジュールのみが更新され、事前トレーニング済みのテキストから画像へのモデルは柔軟性を確保するために固定されたままになります。

実際の画像生成プロセスでは、InstantID はまずテキスト プロンプトとユーザーの顔画像を受信します。次に、ID 埋め込みを通じてキー情報が抽出され、イメージ アダプターがこの情報をテキスト プロンプトと結合します。 IdentityNet は、この融合された情報に基づいて画像を生成します。

プロセス全体が自動化されているため、ユーザーは追加の微調整やトレーニングを行う必要がありません。テキストの説明と一致し、個人のアイデンティティの特徴を保持するカスタマイズされた画像を取得するには、20 秒ほど待つだけで済みます。

InstantID は、トレーニングの効率性と ID の忠実性のバランスを解決するだけでなく、一連の優れた機能も提供します。

まず第一に、InstantID のプラグアンドプレイと互換性は、その最大のセールスポイントの 1 つです。 UNet の追加トレーニングは必要なく、コミュニティベースの Wenshengtu モデル、LoRA、ControlNet などの既存の事前トレーニング済みモデルとシームレスに統合できます。これは、コストを増やすことなく、ユーザーが推論プロセス中にキャラクターのアイデンティティ特性を簡単に維持できることを意味し、分裂可能性が強いです。

第二に、InstantID は微調整を必要としないため、実際のアプリケーションでは非常に経済的かつ実用的です。ユーザーは、たった 1 回のフォワード パスで、テキスト編集を強力に制御しながら画像をすばやく生成できるため、アイデンティティ情報をさまざまなスタイルに完全に統合できます。下の図に示すように、高度な編集機能により、ユーザーはテキストを通じて性別、髪型、服装などの詳細を制御でき、生成される画像の多様性を確保できます。

パフォーマンスも同様に印象的で、たった 1 つの参照画像から、高い忠実度と柔軟性を備えた高度な結果を生成します。このパフォーマンスは、IP-Adapter-FaceID などの単一の画像特徴に基づく埋め込み方法を上回るだけでなく、特定のシナリオでは、その効果は ROOP や LoRAs などの方法に匹敵します。

InstantID は、類似性に対する要件が高い実際の写真シーンでも優れたパフォーマンスを発揮します。数秒以内に高品質の画像を生成できるだけでなく、時間のかかる LoRa トレーニングも回避できます。MiaoYa と比較すると、コストは約 1/300 と低くなります。 InstantID は、顔の領域を細かく制御することで、全体的なスタイルの調和を維持しながら顔の類似性を高めることができます。

さらに、InstantID の領域ベースの生成ソリューションは、ほとんど時間をかけずに複数人物および複数スタイルの画像生成をサポートします。

堅牢性と汎用性により、誇張された顔の特徴の比率をスムーズに処理できます。

複数の視点を生成することに問題はありません。指定したポーズと顔の特徴に基づいて新しい AI 写真を生成します。

InstantID は優れたスケーラビリティを備えており、さまざまな派生機能を迅速にサポートできます。

たとえば、素早い顔の交換などです。 Inswapperと比較すると、InstantIDで生成された作品は、顔と背景の融合がより柔軟です。

ID情報の補間。 InstantID は、双方の特徴を保持しながら、2 つの顔のカスタム融合をサポートします。

非肖像とIDの組み合わせが非常に特徴的です。

そうは言っても、実際に試してみてその魅力を感じてみるのも良いでしょう。

操作は非常に簡単です。InstantID のデモ ページにアクセスし、写真を直接アップロードして無料で体験してください。

https://huggingface.co/spaces/InstantX/InstantID

InstantID のこれらの利点は、個々のユーザーに強力なクリエイティブ ツールを提供するだけでなく、電子商取引、広告、エンターテイメント業界などの商用アプリケーションに新たな可能性をもたらします。今回の InstantID のパフォーマンスは驚くべきもので、その効率性、柔軟性、強力なパフォーマンス、使いやすさに感銘を受けました。私たちは、Xiaohongshu のオープンソース プロジェクトの今後の進展を楽しみにしており、将来的には複数の分野でより大きな役割を果たすことができることを期待しています。

付録:

  • 論文アドレス: https://arxiv.org/abs/2401.07519
  • InstantID ホームページ: https://instantid.github.io/
  • デモ: https://huggingface.co/spaces/InstantX/InstantID

<<:  最も強力なオープンソースのマルチモーダル生成モデル MM-Interleaved: 最初の機能同期装置

>>: 

ブログ    
ブログ    

推薦する

Python+AIで静止画像を動かす

こんにちは、みんな。短い動画を見ているときに、こんな動画を見たことはありませんか?動画の中で、人物の...

...

GPT-4はますます愚かになり、過去の返信をキャッシュしていることが明らかになりました。ジョークが800回言われても、新しい返信は聞きません。

一部のネットユーザーは、GPT-4 が「愚か」になったことを示す別の証拠を発見しました。彼はこう質問...

起業180日で評価額20億ドルを達成! OpenAIの欧州版は人気があり、Llamaの開発者は独自の会社を設立し、Nvidiaが投資している

「欧州版OpenAI」の最新評価額は20億ドルに近づいています!パリを拠点とする大手モデルスタートア...

10分で多言語チャットボットを作成する方法

[51CTO.com クイック翻訳]チャットボットは、人間との会話を自動的に行い、組織と顧客間のビジ...

...

AI脳を搭載したドローン:群衆の中の暴力的な人々を正確に識別できる

[[233174]]もしある日私を殴りたくなったら、ただ殴って終わりにできると思いますか?今はそんな...

清華大学とハルビン工業大学は大規模なモデルを 1 ビットに圧縮し、携帯電話で大規模なモデルを実行するという夢が実現しつつあります。

ビッグモデルが普及して以来、ビッグモデルを圧縮したいという人々の欲求は減ることはありません。大規模モ...

2024年の最大の落とし穴は?ディープラーニングに基づくエンドツーエンドの自動運転の最新レビュー

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

モデルを最適化する方法だけを心配する必要はありません。これは機械学習のすべてではありません。

[[263282]]機械学習分野の学生、研究者、企業の開発者は、より高い精度/AUC/mAP など...

AIは新たな科学革命を先導している

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

Google は NeRF を使用して、自動運転用の仮想世界でサンフランシスコを再現します

自動運転システムのトレーニングには、高精度のマップ、膨大な量のデータ、仮想環境が必要です。この方向で...

PyTorch ガイド: ディープラーニング モデルのトレーニングを高速化する 17 のヒント!

PyTorch でディープラーニング モデルをトレーニングする場合、モデルのトレーニングを高速化す...

チンチラの死: 十分に訓練すれば小型モデルでも大型モデルを上回る性能を発揮できる

2022年3月、DeepMindの論文「計算最適化大規模言語モデルのトレーニング」では、構築されたC...