オンラインショッピングに革命が起こりました! Googleの最新AIモデルでは、姿勢を変えずにワンクリックで服を試着できる

ワンクリック着せ替えがGoogleで実現しました！

このAIフィッティングモデルTryOnDiffusionは、自分の全身写真と服のモデルの写真を入力するだけで、服を着た後の見た目を予測してくれます。

主な焦点は現実にあります。ということは、ミラクルニッキの実写版ですね？

理論的には、すでに多くの AI モデルが装飾可能です。Google の AI モデルにはどのような画期的な点があるのでしょうか?

プロジェクトアドレス: https://tryondiffusion.github.io/

重要なのは、2 つの Parallel-Unet を統合するために拡散ベースのフレームワークを提案したことです。

これまで、このタイプのモデルの主な課題は、衣服のディテールを維持しながら、それを変形し、さまざまな被写体の姿勢や形状に違和感なく適応させることでした。

以前の方法では、両方を同時に行うことはできませんでした。衣服のディテールは保持できますが、ポーズや形状の変化には対応できませんでした。あるいは、ポーズは変更できても衣服のディテールが失われることもありました。

TryOnDiffusion は、2 つの UNet を統合することで、衣服の詳細を単一のネットワークに保存し、衣服の重要な姿勢や体型の変更を実行できます。

キャラクターの衣服の変形が極めて自然で、衣服の細部も非常によく復元されていることがわかります。

早速、Google の「AI Try-On」がいかに強力か見てみましょう。

AIを使って試着画像を生成

具体的には、バーチャル試着 (VTO) では、さまざまな体型やサイズの実際のモデルに服がどう見えるかを顧客に示すことができます。

仮想的な衣服のフィッティングには、衣服のドレープ、折り畳み、密着、伸び、しわの感じ方など、微妙だが重要な詳細が数多くあります。

幾何学的ワーピングなどの従来の技術では、衣服の画像を切り取って貼り付け、体の輪郭に合わせて変形させることができました。

しかし、これらの特徴により、衣服が体にぴったりフィットすることが難しくなり、折り目がずれるなどの視覚的な欠陥が生じ、衣服が変形して不自然に見えてしまいます。

そこで、Google の研究者たちは、衣服のすべてのピクセルをゼロから生成し、高品質でリアルな画像を作成することに取り組みました。

彼らが使用した技術は、まったく新しい拡散ベースの AI モデルである TryOnDiffusion です。

拡散とは、画像が認識できなくなるまで徐々にピクセル (または「ノイズ」) を追加し、その後、元の画像が完璧な品質で再構築されるまでノイズを完全に除去するプロセスです。

Imagen のようなテキストから画像へのモデルは、拡散と大規模言語モデル (LLM) からのテキストを使用して、入力テキストのみに基づいてリアルな画像を生成します。

TryOnDiffusion では、言葉の代わりに、画像のペアを使用します。1 つの画像は衣服 (または衣服を着たモデル) で、もう 1 つの画像はモデルです。

各画像はそれぞれのニューラルネットワーク (U-net) に送信され、「クロスアテンション」と呼ばれるプロセスを通じて相互に情報を共有し、ドレスを着たモデルの新しいリアルな画像を出力します。

画像ベースの拡散とクロスアテンション技術の組み合わせが、この AI モデルの核を形成します。

VOT 機能を使用すると、ユーザーは自分の体型に合ったモデルにトップエフェクトをレンダリングして表示できます。

大規模で高品質なデータトレーニング

VTO の機能をできるだけリアルにし、ユーザーが実際に服を選ぶのに役立つように、Google はこの AI モデルに対して多くのトレーニングを実施しました。

しかし、Google は大規模な言語モデルを使用してトレーニングする代わりに、Google ショッピンググラフを活用しました。

このデータセットには、世界で最も包括的かつ最新の製品、販売者、ブランド、レビュー、在庫データが含まれています。

Google は、2 つの異なるポーズで服を着たモデルで構成される画像のペアを使用してモデルをトレーニングしました。

たとえば、シャツを着た人が横向きに立っている画像と、人が前向きに立っている画像などです。

Google の特殊な拡散モデルは、画像を独自のニューラルネットワーク (U-net) に入力して、ドレスを着たモデルのリアルな画像という出力を生成します。

このトレーニング画像のペアでは、モデルは横向きのポーズのシャツの形状を正面向きのポーズのシャツの形状に一致させることを学習します。

そしてその逆もまた、シャツを着ている人のあらゆる角度からのリアルな画像を生成できるようになるまで続きます。

より良い結果を得るために、Google はさまざまな衣服と人物のランダムな画像ペアを何百万も使用してこのプロセスを何度も繰り返しました。

その結果は、この記事の冒頭の写真のとおりです。

つまり、TryOnDiffusion は服のディテールを保持するだけでなく、新しいモデルの体型や姿勢にも適応します。Google のテクノロジーは両方を実現し、その効果は非常にリアルです。

技術詳細

TryOnDiffusion は、モデルの身体を示す画像と、別のモデルが特定の衣服を着ている画像が与えられた場合に、その衣服を着た人がどう見えるかを具体的に視覚的に表現することを目的としています。

この問題を解決する上での主な難しさは、衣服のディテールをリアルに保ちながら、異なるモデル間の姿勢や体型の変化に合わせて衣服を適切に変形させることです。

従来の方法は、衣服の詳細を保存することに重点を置いていましたが、ポーズや形状の変化を効果的に処理できませんでした。

希望する体型やポーズに合わせて試着できますが、衣服の細部まで再現されていません。

Google は、2 つの UNet (Parallel-UNet と呼ばれる) を 1 つに組み合わせる Diffusion ベースのアーキテクチャを提案しました。Google は、単一のネットワークで衣服の詳細を保持し、衣服のフィット効果で明らかなポーズと体の変化を実行できます。

Parallel-UNet の主要なアイデアは次のとおりです。

1) クロスアテンションメカニズムを介して衣服の折り目を暗黙的に作成する。

2) 衣服の折り畳みと人物の統合は、2 つの独立した作業の連続ではなく、統合されたプロセスとして扱われます。

実験結果から、TryOnDiffusion は定性的にも定量的にも最先端のパフォーマンスを実現することが示されました。

具体的な実装方法は下図の通りです。

前処理ステップでは、対象の人物が人物画像から分割されて「衣服なしの RGB」画像が作成され、対象の衣服が衣服画像から分割されて、人物画像と衣服画像の両方のポーズが計算されます。

これらの情報入力は 128×128 Parallel-UNet (主要ステップ) に取り込まれ、128x128 の試着画像が作成され、さらに試着条件の入力とともに 256×256 Parallel-UNet への入力として送信されます。

256×256 Parallel-UNet の出力は、標準の超解像度拡散に送信され、1024×1024 の画像が作成されます。

全体のプロセスの中で最も重要な部分は、下の図に示すように、128×128 Parallel-UNet のアーキテクチャと処理です。

衣服に依存しない RGB 画像とノイズ画像は、トップレベルの人物 UNet に送られます。

両方の入力はピクセルが揃っているので、UNet 処理の開始時にチャネル次元に沿って 2 つの画像を連結するのは簡単です。

両方の入力はピクセル整列されているため、UNet 処理の開始時にチャネル次元に沿って直接連結します。

セグメント化された衣服画像は、下部の衣服 UNet に入力されます。

衣服の特徴は、クロスアテンションを介してターゲット画像に融合されます。

Google の研究者は、モデルパラメータを節約するために、32×32 アップサンプリング後に garment-UNet を早期に停止し、その時点で person-UNet の最終的なクロスアテンションモジュールが完成しました。

まず、人物と衣服のポーズが線形レイヤーに入力され、それぞれポーズ埋め込みが計算されます。

次に、ポーズ埋め込みは、アテンションメカニズムを介して person-UNet に融合されます。

さらに、FiLM を使用してあらゆるスケールで 2 つの UNet の機能を調整するために使用されます。

主流技術との比較

ユーザー調査：入力画像の各セットに対して、一般ユーザー 15 名が 4 つの候補手法の中から最も優れていると思われる手法を選択するか、「区別がつかない」を選択しました。 TryOnDiffusion は他の技術よりも大幅に優れています。

次の図は、左から右に「入力、TryOnGAN、SDAFN、HR-VITON、Google の方法」を示しています。

制限

ただし、TryOnDiffusion にはいくつかの制限があります。

まず、前処理中にセグメンテーションマップとポーズ推定にエラーがある場合、このアプローチでは衣服の漏れアーティファクトが発生する可能性があります。

幸いなことに、この分野の精度は近年大幅に向上しており、このようなことはあまり起こりません。

第二に、衣服の RGB を含めずに身体を表示することは理想的ではありません。アイデンティティの一部しか保持されない場合があるためです。

たとえば、この場合、タトゥーは見えなくなり、特定の筋肉構造も見えなくなります。

3 番目に、トレーニングデータセットとテストデータセットは通常、クリーンかつ均一な背景を持つため、より複雑な背景でこの方法がどのように機能するかはわかりません。

4 番目に、服がモデルに本当にフィットするかどうかは保証できず、試着時の視覚的な効果のみに焦点を当てています。

最後に、この研究は上半身の衣服に焦点を当てています。Google はまだ全身フィッティングの効果を実験しておらず、今後全身の効果についてさらに研究を行う予定です。

<<: テレンス・タオ：2026 年には、GPT が数学論文の共著者となる予定です。 GPT-4の「フルバージョン」を事前に試してみたら衝撃を受けた

>>: 史上最大のチューリングテスト実験が完了！ 150万人が1000万回の会話に参加し、相手が人間かAIかを判断した。

オンラインショッピングに革命が起こりました! Googleの最新AIモデルでは、姿勢を変えずにワンクリックで服を試着できる

AIを使って試着画像を生成

大規模で高品質なデータトレーニング

技術詳細

制限

2024年に最も使用される11のAIテキスト生成ツール

OpenAIと競合しますか? Jina AI、オープンソースの8Kテキスト埋め込みモデルを発表

人工知能開発の現状と将来動向の分析

日本政府は国民が人生のパートナーを見つけるのを支援するためにAI技術を活用することを計画している

iPhoneXの顔認識はどのようなデータセキュリティの考え方を誘発するのでしょうか?

小さくても素晴らしい、ミニプログラムのデビュー

ボストン・ダイナミクスの工場で働くロボット犬が話題に

人工知能は人間の生活水準をどのように向上させることができるのでしょうか?

推薦する

TensorFlow Lattice: 柔軟で制御可能、説明可能な機械学習

スマートホームテクノロジーを通じて AI があなたの家を乗っ取るでしょうか?

BEV の可能性の限界を探ろう! DA-BEV: 新しい教師なし BEV SOTA ソリューション!

時間はお金だというのは本当です！この日本人男性は9日間で5千円を費やして「タイムマシン」を作ったが、1分巻き戻すのにかかる費用はたった1円だ。

ディープフィードフォワードシーケンスメモリニューラルネットワークに基づく大語彙連続音声認識

玩具におけるIoTとAIの統合が世界のスマート玩具市場の成長を促進

Agora.io がモバイルゲーム向けリアルタイム音声サービス「AMG Voice」を開始

ディープラーニング：先入観、限界、そして未来

レポート：AI脅威論は誇張されている：導入と保守のコストが高いため、影響はそれほど早く広範囲に及ぶことはない

未来を決定づけるトップ10の人工知能技術

自分のIQに挑戦してみませんか？ 10 種類の機械学習アルゴリズムを理解してデータサイエンティストになろう

新しいソフトロボット：手足を再生し、自然にカモフラージュできるヒトデ