Xiaohongshuのオープンソース「InstantID」は大きな効果があり、Yann LeCunに賞賛され、Githubのホットリストのトップに急上昇

Xiaohongshuのオープンソース「InstantID」は大きな効果があり、Yann LeCunに賞賛され、Githubのホットリストのトップに急上昇

最近、InstantX と名乗る、Xiaohongshu 出身の 95 歳以上の謎のチームが大きな動きを見せました。それは、「InstantID」プロジェクトをオープンソース化するというものでした。

InstantID は、その高品質な画像生成機能により、オープンソース コミュニティで大きな話題を呼んでいます。多くのテクノロジー大手から賞賛されただけでなく、GitHub のホット リストでも急速に人気が高まり、注目を集めています。

この「写真生成ツール」は、写真をアップロードするだけで、AI写真をさまざまなスタイルに簡単にカスタマイズできるツールです。

はい、その通りです。写真の左側に示すように、少なくとも 20 枚の写真をアップロードする必要がある、以前人気のあった Miaoya カメラとは異なり、InstantID では 1 枚の自撮り写真のみが必要で、モデルのトレーニングに依存せず、待機する必要がなく、瞬時に変換できます。

古典的な油絵の優雅さ、クールなサイバーパンク、3D 彫像の立体感など、お気に入りのスタイルであれば、InstantID で簡単に処理できます。

多様なスタイルを備えているだけでなく、モデルのトレーニングを必要とせず、キャラクターの顔の忠実度を高く保ちながら数秒で画像を生成できるため、効率が大幅に向上します。

InstantIDは現在、Hugging Face Spaceのトレンドで1位にランクされており、多くの友人が楽しんで遊んでいます〜

たとえば、マスク氏を火星に送るなど。

モナリザに「桜の写真」を撮らせてください。彼女の笑顔はやはり神秘的です。

中国の教科書に出てくる杜甫を二次元から三次元に変身させ、現代にタイムスリップして「イケメンおじさん」になることさえ可能です。

チューリング賞受賞者のヤン・ルカンがさまざまなアニメキャラクターに変身します。あなたは何人のキャラクターに変身できるか推測できましたか?

ヤン・ルカン本人もこの投稿に「いいね!」してリポストし、「アイアンマン」スーツがどこにあるのかについて冗談を言った。

パーソナライズされた画像合成の分野では、顔の忠実度を高く維持しながら、様式化された肖像画を実現することが常に課題となってきました。

結果から判断すると、InstantID はそれを実現しました。では、その背後にはどのような方法が使われており、何がユニークなのでしょうか?

振り返ってみると、Textual Inversion、DreamBooth、LoRA などのテクノロジーは大きな進歩を遂げてきました。しかし、その実際の応用は、高いストレージ要件、時間のかかる微調整プロセス、および複数の参照画像への依存によって依然として制限されています。対照的に、既存の ID 埋め込みベースの方法は、1 つの前方推論のみを必要とするものの、多数のモデル パラメータの大規模な微調整が必​​要であるか、コミュニティの事前トレーニング済みモデルと互換性がないか、高い信頼性を維持できないかのいずれかの大きな課題に直面しています。

InstantID の出現により、これらの制限は打ち破られました。 Xiaohongshu の InstantX チームは、論文「InstantID: 数秒でゼロショット ID 保持生成」と推論コードを発表しました。チームは次のように述べています。「 InstantID は、テキストベースのグラフ モデルの UNet 部分のトレーニングを巧みに回避します。軽量のプラグ可能なモジュールのみをトレーニングすることで、推論プロセス中のテスト時間の調整を排除し、テキスト制御の柔軟性を維持し、顔の特徴の高忠実度を確保します。」

図に示すように、InstantID の動作原理は 3 つの主要な部分に分けられます。

  • ID 埋め込み: チームは、CLIP の代わりに事前トレーニング済みの顔認識モデルを使用して意味的な顔の特徴を抽出し、トレーニング可能な投影レイヤーを使用してこれらの特徴をテキスト特徴空間にマッピングして、顔の特徴、表情、年齢などの豊富な意味情報を持つ顔埋め込みを形成し、その後の画像生成のための強固な基盤を提供します。
  • イメージ アダプター: 抽出された ID 情報とテキスト キューを組み合わせる軽量アダプター モジュールを導入します。このモジュールは、分離されたクロスアテンションメカニズムを使用して、画像とテキストが生成プロセスに独立して影響を与えることを可能にします。これにより、ユーザーはアイデンティティ情報を維持しながら画像スタイルを細かく制御でき、「win-win」の状況が実現します。
  • IdentityNet: Xiaohongshu は、InstantID の中核部分である IdentityNet と呼ばれるネットワークを提案しました。強力な意味条件 (顔の特徴の詳細な説明など) と弱い空間条件 (顔のランドマークの位置など) を通じて、参照顔画像の複雑な特徴をエンコードします。 IdentityNet では、生成プロセスはテキスト情報なしで Face Embedding によって完全にガイドされます。新しく追加されたモジュールのみが更新され、事前トレーニング済みのテキストから画像へのモデルは柔軟性を確保するために固定されたままになります。

実際の画像生成プロセスでは、InstantID はまずテキスト プロンプトとユーザーの顔画像を受信します。次に、ID 埋め込みを通じてキー情報が抽出され、イメージ アダプターがこの情報をテキスト プロンプトと結合します。 IdentityNet は、この融合された情報に基づいて画像を生成します。

プロセス全体が自動化されているため、ユーザーは追加の微調整やトレーニングを行う必要がありません。テキストの説明と一致し、個人のアイデンティティの特徴を保持するカスタマイズされた画像を取得するには、20 秒ほど待つだけで済みます。

InstantID は、トレーニングの効率性と ID の忠実性のバランスを解決するだけでなく、一連の優れた機能も提供します。

まず第一に、InstantID のプラグアンドプレイと互換性は、その最大のセールスポイントの 1 つです。 UNet の追加トレーニングは必要なく、コミュニティベースの Wenshengtu モデル、LoRA、ControlNet などの既存の事前トレーニング済みモデルとシームレスに統合できます。これは、コストを増やすことなく、ユーザーが推論プロセス中にキャラクターのアイデンティティ特性を簡単に維持できることを意味し、分裂可能性が強いです。

第二に、InstantID は微調整を必要としないため、実際のアプリケーションでは非常に経済的かつ実用的です。ユーザーは、たった 1 回のフォワード パスで、テキスト編集を強力に制御しながら画像をすばやく生成できるため、アイデンティティ情報をさまざまなスタイルに完全に統合できます。下の図に示すように、高度な編集機能により、ユーザーはテキストを通じて性別、髪型、服装などの詳細を制御でき、生成される画像の多様性を確保できます。

パフォーマンスも同様に印象的で、たった 1 つの参照画像から、高い忠実度と柔軟性を備えた高度な結果を生成します。このパフォーマンスは、IP-Adapter-FaceID などの単一の画像特徴に基づく埋め込み方法を上回るだけでなく、特定のシナリオでは、その効果は ROOP や LoRAs などの方法に匹敵します。

InstantID は、類似性に対する要件が高い実際の写真シーンでも優れたパフォーマンスを発揮します。数秒以内に高品質の画像を生成できるだけでなく、時間のかかる LoRa トレーニングも回避できます。MiaoYa と比較すると、コストは約 1/300 と低くなります。 InstantID は、顔の領域を細かく制御することで、全体的なスタイルの調和を維持しながら顔の類似性を高めることができます。

さらに、InstantID の領域ベースの生成ソリューションは、ほとんど時間をかけずに複数人物および複数スタイルの画像生成をサポートします。

堅牢性と汎用性により、誇張された顔の特徴の比率をスムーズに処理できます。

複数の視点を生成することに問題はありません。指定したポーズと顔の特徴に基づいて新しい AI 写真を生成します。

InstantID は優れたスケーラビリティを備えており、さまざまな派生機能を迅速にサポートできます。

たとえば、素早い顔の交換などです。 Inswapperと比較すると、InstantIDで生成された作品は、顔と背景の融合がより柔軟です。

ID情報の補間。 InstantID は、双方の特徴を保持しながら、2 つの顔のカスタム融合をサポートします。

非肖像とIDの組み合わせが非常に特徴的です。

そうは言っても、実際に試してみてその魅力を感じてみるのも良いでしょう。

操作は非常に簡単です。InstantID のデモ ページにアクセスし、写真を直接アップロードして無料で体験してください。

https://huggingface.co/spaces/InstantX/InstantID

InstantID のこれらの利点は、個々のユーザーに強力なクリエイティブ ツールを提供するだけでなく、電子商取引、広告、エンターテイメント業界などの商用アプリケーションに新たな可能性をもたらします。今回の InstantID のパフォーマンスは驚くべきもので、その効率性、柔軟性、強力なパフォーマンス、使いやすさに感銘を受けました。私たちは、Xiaohongshu のオープンソース プロジェクトの今後の進展を楽しみにしており、将来的には複数の分野でより大きな役割を果たすことができることを期待しています。

付録:

  • 論文アドレス: https://arxiv.org/abs/2401.07519
  • InstantID ホームページ: https://instantid.github.io/
  • デモ: https://huggingface.co/spaces/InstantX/InstantID

<<:  最も強力なオープンソースのマルチモーダル生成モデル MM-Interleaved: 最初の機能同期装置

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能は衛星地図の鮮明度を向上させ、世界の再生可能エネルギープロジェクトや森林被覆率を示す

マイクロソフトの共同創業者ポール・アレン氏が設立したアレンAI研究所は最近、Satlasと呼ばれる新...

2020年にAIアルゴリズム市場は普及するでしょうか?

2019年も残り1か月余りとなり、各種年間総括も迫ってまいりました。今年の AI の発展を振り返る...

複合現実技術による医療シナリオ、Weizhuo Zhiyuan は 3D シーンを使用して病変を正確に特定します

[51CTO.comからの原文] 今日の医療業界は、次第にテクノロジー化と精密化が進んでいます。医療...

ロボティック・プロセス・オートメーション技術の需要が急増

Adroit Market Research によると、世界のロボットプロセス自動化技術市場は 20...

VRの悪夢にさよならしましょう! Meta Reality Labs は仮想世界の問題点を解決し、新しい VR の世界を再構築します

「世の中には2種類の人がいます。VRが世界を変えると考える人と、まだVRを試したことがない人です。」...

世界の AI 人材レポートが発表されました: 清華大学が 3 位、北京大学が 6 位にランクイン!シリコンバレーが40万人を解雇、プログラマーの面接は12回

先ほど、グローバル AI 人材レポートが発表されました。世界のトップクラスの AI 人材のうち、約半...

中間レビュー: 2021 年注目のデータサイエンスおよび機械学習スタートアップ 10 社

今日の企業は、競争上の優位性を獲得するために、増え続けるデータを活用し、データ サイエンス、人工知能...

ついに誰かが畳み込みニューラルネットワーク(CNN)を明確にした。

[[406748]]従来のニューラル ネットワーク レイヤーは完全に接続されています。サンプリング...

...

未来の生活に革命をもたらす5つのテクノロジートレンド

テクノロジーは、絶え間ない進歩と常に変化する可能性により、私たちの日常生活に組み込まれるようになりま...

2030 年の汎用人工知能 (AGI) の見通しはどうなるでしょうか?

人工汎用知能 (AGI) とは、人間のような認知能力を備え、さまざまな領域にわたって理解、学習、タ...

TensorFlow2を使用して細胞画像が感染しているかどうかを判断する方法を教えます

[[405128]]このチュートリアルでは、TensorFlow (Keras API) を使用して...

ガートナー、2022年の銀行・投資サービスにおける3つの注目のテクノロジートレンドを発表

ガートナーは、2022年の銀行および投資サービス業界における3つの注目の技術トレンドとして、生成型人...

9つのディープラーニングアルゴリズムの紹介

1. 2段階アルゴリズム2 段階アルゴリズムには、候補ボックスの選択とターゲットの分類/位置の修正...

業界最高品質の AI データを作成するにはどうすればよいでしょうか?クラウドデータの成功の秘密を明かす

[[344160]] AIの実装が加速する中、AIデータのラベリングは人工知能産業の実装における重要...