効果はSDXLを超える!香港中文大学の博士課程学生が3億4000万枚の画像でトレーニングした超リアルな肖像画合成ツールを発表

効果はSDXLを超える!香港中文大学の博士課程学生が3億4000万枚の画像でトレーニングした超リアルな肖像画合成ツールを発表

AIが描く人物をよりリアルにするため、香港中文大学の博士課程の学生たちは3億4000万枚の画像を使ってAIに人物を描く訓練をした。

人物の表情や姿勢、周囲の空間関係、光などが合理的に配置されており、絵画に立体感を与えています。

大人気の SDXL も敵いません。さっそく写真をご覧ください!

このモデルの名前はHyperHumanで、その最大の特徴はリアルな3次元オブジェクトであることです。

Stable Diffusionなどの従来のAI描画ツールで人物を描画した際に、画像の一貫性がなくなったり、姿勢が不自然になったりする問題を解決します。

彼は絵が上手になっただけでなく、より「従順」になり、描いたものがプロンプトの言葉によく合うようになりました。

それでは、HyperHuman がどのような作品を作成できるかを詳しく見てみましょう。
HyperHuman は、子供から高齢者まで、あらゆる年齢のキャラクターを描くことができます。

登場人物の動きや表情は自然で、空間関係も合理的に思えます。

画像自体が本物らしく見えるだけでなく、プロンプトテキストとの一致も非常に正確です。

HyperHuman は、キャラクターだけでなく、さまざまなシーン タイプも描画できます。
一人でも、みんなとでも、スキーでもサーフィンでも...

他のモデルと比較すると…

この一連のプロンプトでは、他のモデルは基本的に一時停止の標識を正しく描画できなかったのに対し、HyperHuman は正しく描画したことは明らかです。

両側に草原があり一時停止の標識がある道路をバイクで走っている男性。

このグループでは、他のモデルの作品は理解不能であったり、細部にさまざまな問題があったりします。さらに悪いことに、描かれた人物の中には3本足の人もいますが、HyperHumanはそれでも安定して動作します。

スケートボードの技術を習得することは非常に有益です。

直感的な感覚だけでなく、データの面でも、HyperHuman は SD2.0 を含む多くの競合製品を完全に圧倒しています。

画質に関しては、HyperHuman の FID および KID 指標 (値が低いほど効果が高い) は、他のモデルよりも 4 分の 1 以上高くなっています。

姿勢の正確さに関しても、HyperHuman の 2 つのスコアは、ControlNet などの他のモデルを大幅に上回りました。

では、HyperHuman はどのようにして実現されるのでしょうか?

共同学習、段階的な生成

HyperHuman の有効性を高めるために、研究チームは 2 つのアイデアを提案しました。

1 つ目は、画像の色、深度、法線マップを同時に学習することです。

色は外観を反映し、深度マップはオブジェクトの位置を反映し、法線マップは表面の角度を反映します。これらを一緒に学習することで、モデルは画像の内容をよりよく理解できるようになります。

2 つ目のポイントは、段階的に生成することです。まず、テキストとスケルトン ポイントを条件として、色、深度、法線の予備的な合成結果を生成します。
次に、以前に生成された条件をガイドとして使用して、より高い解像度と品質の画像を生成します。

具体的な実装としては、HyperHuman や SDXL も拡散モデルを採用しています。

具体的には、HyperHuman は「潜在構造」モデルを使用します。

その中核は次の 2 つのモジュールで構成されています。

  • ジョイント ノイズ除去モジュール: 複数の入力および出力ブランチを備えた統合ネットワーク構造で、色、深度、法線マップの 3 次元でノイズを除去します。
  • 構造ガイダンス モジュール: 前のステップの結果を条件とガイダンスとして使用して、テクスチャに対する構造の洗練された生成を実現します。

さらに、堅牢性を向上させるために、モデルは生成プロセス中にいくつかの条件をトレードオフすることを選択します。

トレーニング データに関しては、開発者は LAION-2B および COYO データセット内の公開リソースを統合、処理、注釈付けして、約 3 億 4,000 万枚の画像からなる HumanVerse データセットを取得しました。

その結果、COCO 2014データセットに基づく複数の描画モデルを相互比較したところ、HyperHuman(赤)が最高の結果を達成しました。テキストマッチングを考慮すると、HyperHumanはさらに優れています。

FID 値が低いほど、スコアは良くなります。

研究者らはテストデータに加えて、どのモデルの作品が好まれるか調査するため 100 人のユーザーも募集しました。

よりリアルで高品質な画像を選択するよう求められ、HyperHuman が他の複数のモデルよりも好まれました。

著者について

HyperHuman 論文の第一著者は、香港中文大学の博士課程の学生である Xian Liu 氏です。

HyperHumanはSnap社でのインターンシップ中に完成し、Snap社のセルゲイ・トゥリャコフ氏らもプロジェクトに参加した。

さらに、香港大学と南洋理工大学の学者もHyperHumanに貢献しました。

<<:  YOLOがBEVセンシングに参入! YOLO+BEVのリアルタイム検出の試み

>>:  ペアデータなしで学習!浙江大学らは、マルチモーダルコントラスト表現C-MCRの接続を提案した。

ブログ    

推薦する

Google Bard「叙事詩」アップデート:カスタマイズされた中国語サービス、画像分析機能を公開

今年3月、Googleは生成AI「Bard」のベータ版のリリースを発表しました。当時、このバージョン...

機械学習アルゴリズムの実践: ナイーブベイズ

[[197761]]序文前回の記事「機械学習アルゴリズムの実践: 決定木」では、決定木の実装について...

ソフトウェアテストが再び進化、Testinクラウドテストリモート実機サービスには明らかな利点がある

モバイルインターネット時代の始まり以来、スマートフォンへのソフトウェアの適応は常にソフトウェア業界の...

テンセントクラウドのフルリンクAI開発者サービスシステムがAIと産業の融合を加速

12月15日、第1回テンセントクラウド+コミュニティ開発者会議で、テンセントクラウドの副社長である王...

Spark機械学習APIの選び方

この記事では、主に統計アルゴリズム、分類アルゴリズム、クラスタリング アルゴリズム、協調フィルタリン...

ChatGPTに対抗できるAIモデル6つと中国企業の製品2つが選定

ChatGPT は、大規模言語モデル (LLM) に基づく業界をリードするチャットボットとして、テク...

2021年には、人工知能が私たちの生活にさらに統合されるでしょう。これは何を意味するのでしょうか?

人工知能の歴史は、アラン・チューリングがチューリングテストを発明した 1950 年代にまで遡ります。...

AIがクラウドに依存しない理由:将来AIは疎外される

[[268251]] [51CTO.com 速訳] 人工知能の発展は希望と課題に満ちている。その「不...

ネット全体が「被験者3」を真似し、メッシ、アイアンマン、二次元の女の子が即勝利

最近、「被験者 3」について多かれ少なかれ耳にしたことがあるかもしれません。握手、軽く捻挫した足、リ...

...

人工知能が刑事司法を支援する方法:利点と落とし穴

まとめ刑事司法の分野では、人工知能(AI)がますます重要な役割を果たしています。リスク評価システム(...

あなたのビジネスに必要な AI 処理ユニットはどれですか?

データセンターに AI を導入することを検討している場合は、まず投資すべきハードウェアとインフラスト...

マスターカードがAIを活用して詐欺を阻止し、誤ったチャージバックを削減する方法

【51CTO.com クイック翻訳】チェックアウト時に銀行カード取引が拒否されると、イライラしたり恥...

...

Apple Store 店員から機械学習エンジニアへ: AI を学び始めた経緯

機械学習エンジニアの職は、AI 博士号取得者だけのものではありません。インターネット上の公開コースや...