1週間で2.5kの星、3枚の写真でユニークな画像を作成するオープンソースプロジェクトFaceChainにより、誰でもAIGCの個人写真を作成できます

1週間で2.5kの星、3枚の写真でユニークな画像を作成するオープンソースプロジェクトFaceChainにより、誰でもAIGCの個人写真を作成できます

最近、わずか9.9元で個人的な写真を生成できる「Miaoya Camera」など、AI生成の視覚画像アプリケーションが人気を集めています。操作が簡単で技術的な操作を必要としないため、多くのユーザーがMiaoYaカメラで生成した写真をWeChatモーメントに投稿しています。

Miaoya Cameraは使いやすいですが、有料アプリです。現在、FaceChainと呼ばれるオープンソースプロジェクトでは、AIモデルを使用して人物の肖像画を作成できます。このプロジェクトはオンラインになってから1週間経ちますが、すでに2,500個のスターを獲得しています。今日、このプロジェクトはGithubのトレンドリストでも1位にランクされています。

プロジェクトアドレス: https://github.com/modelscope/facechain

ユーザーは、特定のスタイルの個人の肖像画を取得するために、最低 3 枚の写真を提供するだけで済みます。たとえば、ビジネス ID 写真を生成するには、次のようにします。

インストール手順なしで、ModelScope Maker Space でこのアプリケーションを直接体験することもできます。

トライアルアドレス: https://modelscope.cn/studios/CVstudio/cv_human_portrait/summary

プロジェクトの紹介では、著者は AI が生成した個人ポートレートの技術的原理と、生成 AI モデルがどのようにして「写真アーティファクト」になるかを説明しています。説明のこの部分を見てみましょう。

個人の肖像画がどのように生成されるか

根拠

AI が個人のポートレートを生成する能力は、テキストまたは一連のプロンプトを入力し、対応する画像を出力するための、安定拡散モデルのテキスト生成画像機能から生まれます。パーソナル写真生成の効果に影響を与える主な要素は、写真スタイル情報とユーザーキャラクター情報の 2 つです。

この目的のために、プロジェクトの著者は、オフラインでトレーニングされたスタイル LoRA モデルとオンラインでトレーニングされた顔 LoRA モデルを使用して、上記の 2 つの情報の側面を学習しました。 LoRA は、トレーニング可能なパラメータが少ない、微調整されたモデルです。Stable Diffusion では、少数の入力画像でテキスト マップをトレーニングすることで、入力画像の情報を LoRA モデルに注入できます。

そのため、個人ポートレート モデルの機能は、トレーニングと推論の 2 つの段階に分かれています。トレーニング段階では、安定拡散モデルを微調整して顔 LoRA モデルを取得するための画像とテキスト ラベル データを生成し、推論段階では、顔 LoRA モデルとスタイル LoRA モデルに基づいて個人ポートレート画像を生成します。

トレーニングフェーズ

トレーニング フェーズの入力は、ユーザーがアップロードした、明確な顔領域を含む画像であり、出力は顔 LoRA モデルです。

具体的には、プロジェクトの著者らはまず、方向判断に基づく画像回転モデルと、顔検出およびキーポイントモデルに基づく洗練された顔回転方法を使用して、ユーザーがアップロードした画像を処理して、肯定的な顔を含む画像を取得しました。次に、人体解析モデルとポートレート肌美化モデルを使用して、高品質の顔トレーニング画像を取得しました。その後、プロジェクトは、顔属性モデルとテキスト注釈モデルをラベル後処理方法と組み合わせて使用​​し、トレーニング画像の洗練されたラベルを生成しました。最後に、上記の画像とラベルデータを使用して、安定拡散モデルを微調整し、顔LoRAモデルを取得しました。

推論フェーズ

推論フェーズの入力は、トレーニング フェーズ中にユーザーがアップロードした画像と、個人の肖像画を生成するための事前設定された入力プロンプトであり、出力は個人の肖像画の画像です。

推論段階では、まず顔LoRAモデルとスタイルLoRAモデルの重みを安定拡散モデルに統合します。次に、安定拡散モデルのテキスト画像機能を使用して、事前に設定されたプロンプトに基づいて個人のポートレート画像を予備的に生成します。その後、顔融合モデルを使用して、上記の肖像画画像の顔の詳細をさらに改善します。融合に使用するテンプレート顔は、顔品質評価モデルを介してトレーニング画像から選択されます。最後に、顔認識モデルを使用して、生成された肖像画像とテンプレート顔の類似性を計算し、肖像画像をソートして、最終出力結果として上位の個人の肖像画像を出力します。

プロジェクト作者はインストールと使用方法を詳細に紹介し、プロジェクトコードをオープンソース化しました。興味のある読者はぜひ試してみてください。

<<:  GPT-4の数学スコアがさらに30ポイント増加、コードパーサーの仁経絡と杜経絡が開き、ネットユーザー:それは脳の働きのようです

>>:  農業革命: 世界市場における作物収穫ロボットの台頭

ブログ    
ブログ    

推薦する

もう一つの機械学習モデル説明ツール: Shapash

シャパシュとはモデルの解釈可能性と理解可能性は、多くの研究論文やオープンソース プロジェクトの焦点と...

...

1 つの記事で 26 個のニューラル ネットワーク活性化関数 (ReLU から Sinc まで) を紹介します

ニューラル ネットワークでは、活性化関数によって、指定された入力セットからノードの出力が決定されます...

Arthur Bench に基づいて LLM 評価を実施するにはどうすればよいでしょうか?

こんにちは、皆さん。私は Luga です。今日は、人工知能 (AI) エコシステムに関連するテクノロ...

UCenter パスワードアルゴリズムのルールと生成方法

Discuz、UCHome、Supesite を含む Kangsheng の一連の製品は、同じユーザ...

自動化ロボットのHMI設計の詳細な説明

[[260977]] [51CTO.com クイック翻訳] ロボットの操作インターフェースをカスタマ...

...

将来最も求められる人材はどのような人材でしょうか?百度のロビン・リーはすでに予測している

今最も注目を集めている産業は何でしょうか? それは人工知能でしょう。現在、さまざまな業界が、将来の業...

システムアーキテクト、アルゴリズムエンジニア、人工知能エンジニアはどの程度の数学を学ぶ必要がありますか?

昨日、ネットユーザーから、数学オリンピックを勉強したことがないのにシステムアーキテクトになれるかと質...

Facebookの詐欺行為と戦う方法を学び、CopyCatchアルゴリズムがLockstepをどのように解決するかを見てみましょう

[51CTO.com クイック翻訳] インターネットが誕生して以来、あらゆる種類のジャンク情報や悪意...

法律分野で初の「1対多」の人間と機械の競争が始まり、AI弁護士が契約書審査で人間を上回る

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

科学者はロボットに人間に近い触覚を与える人工指先を開発

ロボットは車を持ち上げたり、手術を手伝ったりするようにプログラムできますが、卵など、これまで扱ったこ...