AIが描く人物をよりリアルにするため、香港中文大学の博士課程の学生たちは3億4000万枚の画像を使ってAIに人物を描く訓練をした。 人物の表情や姿勢、周囲の空間関係、光などが合理的に配置されており、絵画に立体感を与えています。 大人気の SDXL も敵いません。さっそく写真をご覧ください! このモデルの名前はHyperHumanで、その最大の特徴はリアルな3次元オブジェクトであることです。 Stable Diffusionなどの従来のAI描画ツールで人物を描画した際に、画像の一貫性がなくなったり、姿勢が不自然になったりする問題を解決します。 彼は絵が上手になっただけでなく、より「従順」になり、描いたものがプロンプトの言葉によく合うようになりました。 それでは、HyperHuman がどのような作品を作成できるかを詳しく見てみましょう。 登場人物の動きや表情は自然で、空間関係も合理的に思えます。 画像自体が本物らしく見えるだけでなく、プロンプトテキストとの一致も非常に正確です。 HyperHuman は、キャラクターだけでなく、さまざまなシーン タイプも描画できます。 他のモデルと比較すると… この一連のプロンプトでは、他のモデルは基本的に一時停止の標識を正しく描画できなかったのに対し、HyperHuman は正しく描画したことは明らかです。 両側に草原があり一時停止の標識がある道路をバイクで走っている男性。 このグループでは、他のモデルの作品は理解不能であったり、細部にさまざまな問題があったりします。さらに悪いことに、描かれた人物の中には3本足の人もいますが、HyperHumanはそれでも安定して動作します。 スケートボードの技術を習得することは非常に有益です。 直感的な感覚だけでなく、データの面でも、HyperHuman は SD2.0 を含む多くの競合製品を完全に圧倒しています。 画質に関しては、HyperHuman の FID および KID 指標 (値が低いほど効果が高い) は、他のモデルよりも 4 分の 1 以上高くなっています。 姿勢の正確さに関しても、HyperHuman の 2 つのスコアは、ControlNet などの他のモデルを大幅に上回りました。 では、HyperHuman はどのようにして実現されるのでしょうか? 共同学習、段階的な生成HyperHuman の有効性を高めるために、研究チームは 2 つのアイデアを提案しました。 1 つ目は、画像の色、深度、法線マップを同時に学習することです。 色は外観を反映し、深度マップはオブジェクトの位置を反映し、法線マップは表面の角度を反映します。これらを一緒に学習することで、モデルは画像の内容をよりよく理解できるようになります。 2 つ目のポイントは、段階的に生成することです。まず、テキストとスケルトン ポイントを条件として、色、深度、法線の予備的な合成結果を生成します。 具体的な実装としては、HyperHuman や SDXL も拡散モデルを採用しています。 具体的には、HyperHuman は「潜在構造」モデルを使用します。 その中核は次の 2 つのモジュールで構成されています。
さらに、堅牢性を向上させるために、モデルは生成プロセス中にいくつかの条件をトレードオフすることを選択します。 トレーニング データに関しては、開発者は LAION-2B および COYO データセット内の公開リソースを統合、処理、注釈付けして、約 3 億 4,000 万枚の画像からなる HumanVerse データセットを取得しました。 その結果、COCO 2014データセットに基づく複数の描画モデルを相互比較したところ、HyperHuman(赤)が最高の結果を達成しました。テキストマッチングを考慮すると、HyperHumanはさらに優れています。 FID 値が低いほど、スコアは良くなります。 研究者らはテストデータに加えて、どのモデルの作品が好まれるか調査するため 100 人のユーザーも募集しました。 よりリアルで高品質な画像を選択するよう求められ、HyperHuman が他の複数のモデルよりも好まれました。 著者についてHyperHuman 論文の第一著者は、香港中文大学の博士課程の学生である Xian Liu 氏です。 HyperHumanはSnap社でのインターンシップ中に完成し、Snap社のセルゲイ・トゥリャコフ氏らもプロジェクトに参加した。 さらに、香港大学と南洋理工大学の学者もHyperHumanに貢献しました。 |
<<: YOLOがBEVセンシングに参入! YOLO+BEVのリアルタイム検出の試み
>>: ペアデータなしで学習!浙江大学らは、マルチモーダルコントラスト表現C-MCRの接続を提案した。
糖尿病は網膜症を引き起こす可能性があり、これは失明につながる合併症です。しかし、良いニュースとしては...
導入画像、ビデオ、オーディオ、テキストが含まれており、非常に包括的です。機械学習のための最大のTen...
2023年には、個人にとっても企業にとっても「脆弱性」はほぼ普遍的な状態になります。世界経済が大き...
[[392894]]建設業界は技術変革の瀬戸際に立っています。建設業界では新しい技術の導入が遅れるこ...
多くの紆余曲折を経て、室温超伝導に関する熱狂は2023年末にようやく終焉を迎えた。 11月7日、ネイ...
AI の最新の傾向は、自然言語モデルが大きくなるほど精度が向上するということですが、コスト、時間、...
北京大学の公式サイトの最新情報によると、元UCLA(カリフォルニア大学ロサンゼルス校)教授の朱松春...
最近、シビチェンがチップスを製造しているというニュースが大きな騒ぎを引き起こしました。 [[2547...
エッジ コンピューティングと AI はどのように連携するのでしょうか? エッジ コンピューティングが...
執筆者 | Yun Zhao制作:51CTO テクノロジースタック(WeChat ID:blog)と...
[[408717]]ディープラーニングが再び認知されて以来、多くの機械学習フレームワークが登場し、...
[[320126]] [51CTO.com クイック翻訳]ソフトウェア定義広域ネットワーク (SD-...
10月18日、NVIDIAはハードウェア分野における生成型人工知能の王者となった。同社のGPUは、M...