最近、わずか9.9元で個人的な写真を生成できる「Miaoya Camera」など、AI生成の視覚画像アプリケーションが人気を集めています。操作が簡単で技術的な操作を必要としないため、多くのユーザーがMiaoYaカメラで生成した写真をWeChatモーメントに投稿しています。 Miaoya Cameraは使いやすいですが、有料アプリです。現在、FaceChainと呼ばれるオープンソースプロジェクトでは、AIモデルを使用して人物の肖像画を作成できます。このプロジェクトはオンラインになってから1週間経ちますが、すでに2,500個のスターを獲得しています。今日、このプロジェクトはGithubのトレンドリストでも1位にランクされています。 プロジェクトアドレス: https://github.com/modelscope/facechain ユーザーは、特定のスタイルの個人の肖像画を取得するために、最低 3 枚の写真を提供するだけで済みます。たとえば、ビジネス ID 写真を生成するには、次のようにします。 インストール手順なしで、ModelScope Maker Space でこのアプリケーションを直接体験することもできます。 トライアルアドレス: https://modelscope.cn/studios/CVstudio/cv_human_portrait/summary プロジェクトの紹介では、著者は AI が生成した個人ポートレートの技術的原理と、生成 AI モデルがどのようにして「写真アーティファクト」になるかを説明しています。説明のこの部分を見てみましょう。 個人の肖像画がどのように生成されるか根拠 AI が個人のポートレートを生成する能力は、テキストまたは一連のプロンプトを入力し、対応する画像を出力するための、安定拡散モデルのテキスト生成画像機能から生まれます。パーソナル写真生成の効果に影響を与える主な要素は、写真スタイル情報とユーザーキャラクター情報の 2 つです。 この目的のために、プロジェクトの著者は、オフラインでトレーニングされたスタイル LoRA モデルとオンラインでトレーニングされた顔 LoRA モデルを使用して、上記の 2 つの情報の側面を学習しました。 LoRA は、トレーニング可能なパラメータが少ない、微調整されたモデルです。Stable Diffusion では、少数の入力画像でテキスト マップをトレーニングすることで、入力画像の情報を LoRA モデルに注入できます。 そのため、個人ポートレート モデルの機能は、トレーニングと推論の 2 つの段階に分かれています。トレーニング段階では、安定拡散モデルを微調整して顔 LoRA モデルを取得するための画像とテキスト ラベル データを生成し、推論段階では、顔 LoRA モデルとスタイル LoRA モデルに基づいて個人ポートレート画像を生成します。 トレーニングフェーズ トレーニング フェーズの入力は、ユーザーがアップロードした、明確な顔領域を含む画像であり、出力は顔 LoRA モデルです。 具体的には、プロジェクトの著者らはまず、方向判断に基づく画像回転モデルと、顔検出およびキーポイントモデルに基づく洗練された顔回転方法を使用して、ユーザーがアップロードした画像を処理して、肯定的な顔を含む画像を取得しました。次に、人体解析モデルとポートレート肌美化モデルを使用して、高品質の顔トレーニング画像を取得しました。その後、プロジェクトは、顔属性モデルとテキスト注釈モデルをラベル後処理方法と組み合わせて使用し、トレーニング画像の洗練されたラベルを生成しました。最後に、上記の画像とラベルデータを使用して、安定拡散モデルを微調整し、顔LoRAモデルを取得しました。 推論フェーズ 推論フェーズの入力は、トレーニング フェーズ中にユーザーがアップロードした画像と、個人の肖像画を生成するための事前設定された入力プロンプトであり、出力は個人の肖像画の画像です。 推論段階では、まず顔LoRAモデルとスタイルLoRAモデルの重みを安定拡散モデルに統合します。次に、安定拡散モデルのテキスト画像機能を使用して、事前に設定されたプロンプトに基づいて個人のポートレート画像を予備的に生成します。その後、顔融合モデルを使用して、上記の肖像画画像の顔の詳細をさらに改善します。融合に使用するテンプレート顔は、顔品質評価モデルを介してトレーニング画像から選択されます。最後に、顔認識モデルを使用して、生成された肖像画像とテンプレート顔の類似性を計算し、肖像画像をソートして、最終出力結果として上位の個人の肖像画像を出力します。 プロジェクト作者はインストールと使用方法を詳細に紹介し、プロジェクトコードをオープンソース化しました。興味のある読者はぜひ試してみてください。 |
<<: GPT-4の数学スコアがさらに30ポイント増加、コードパーサーの仁経絡と杜経絡が開き、ネットユーザー:それは脳の働きのようです
シャパシュとはモデルの解釈可能性と理解可能性は、多くの研究論文やオープンソース プロジェクトの焦点と...
機械学習は一般に「錬金術」として知られています。一種の AI「黒魔術」として、これに少し「形而上学」...
ニューラル ネットワークでは、活性化関数によって、指定された入力セットからノードの出力が決定されます...
こんにちは、皆さん。私は Luga です。今日は、人工知能 (AI) エコシステムに関連するテクノロ...
Discuz、UCHome、Supesite を含む Kangsheng の一連の製品は、同じユーザ...
[[260977]] [51CTO.com クイック翻訳] ロボットの操作インターフェースをカスタマ...
今最も注目を集めている産業は何でしょうか? それは人工知能でしょう。現在、さまざまな業界が、将来の業...
昨日、ネットユーザーから、数学オリンピックを勉強したことがないのにシステムアーキテクトになれるかと質...
[51CTO.com クイック翻訳] インターネットが誕生して以来、あらゆる種類のジャンク情報や悪意...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
ロボットは車を持ち上げたり、手術を手伝ったりするようにプログラムできますが、卵など、これまで扱ったこ...