中国科学院とアリババが開発したFF3Dでは、カスタムスタイルの3Dポートレートを作成するのにわずか3分しかかかりません。

中国科学院とアリババが開発したFF3Dでは、カスタムスタイルの3Dポートレートを作成するのにわずか3分しかかかりません。

3D ポートレート合成は、常に AIGC の注目を浴びている分野です。 NeRF と 3D 対応 GAN の進歩に伴い、高品質の 3D ポートレートを合成しても、もはやすべての人の期待に応えることはできません。テキストの説明を直接使用して、希望する 3D ポートレート スタイルの合成をガイドするなど、3D ポートレートのスタイル属性を簡単な方法でカスタマイズできることが、より高い目標になっています。

しかし、3D ポートレートの様式化には共通の問題があります。高品質の 3D ポートレート合成モデルをトレーニングすると (たとえば、EG3D モデルのトレーニング)、後からそのモデルに大幅な様式の変更を加えることが困難になることがよくあります。モデルの潜在空間編集に基づく方法は、事前トレーニング済みの 3D ポートレート合成モデルのデータ分布によって制限されます。異なる視点から 3D ポートレートを直接様式化すると、3D の一貫性が損なわれます。また、様式化された多視点ポートレート データセットを自分で収集して作成するには、非常にコストがかかります。上記の問題により、様式化された 3D ポートレートを簡単に作成することが困難になります。

この記事の著者は、テキスト記述に基づいてカスタマイズされた 3D ポートレートの様式化を迅速に実現できる、シンプルで効率的な様式化された 3D ポートレートの合成方法を提案しています。

写真


  • 論文アドレス: https://arxiv.org/pdf/2306.15419.pdf
  • プロジェクトウェブサイト: https://tianxiangma.github.io/FF3D/

方法論フレームワーク

この方法には、2 つの主要なステップがあります。1. 小規模なサンプルの様式化された肖像画データセットの構築、2. 画像から三面体モデルへの微調整。方法フレームワークは次のとおりです。

写真

2つの事前モデルを使用して、小規模なサンプルの様式化された肖像画データセットを構築する

多視点の様式化された肖像画データを手動で収集することは困難ですが、研究チームは既存の事前トレーニング済みモデルを使用して、そのようなデータを間接的に構築することができます。この論文では、この目標を達成するために、EG3D と Instruct-pix2pix (IP2P) という 2 つの事前トレーニング済み事前モデルを採用しています。

EG3D は、次のようにカウントされる、マルチビュー 3D の一貫したポートレート合成結果を提供するために使用される、高品質の 3D 対応 GAN メソッドです。 theta はモデルのパラメータ、w は潜在空間 W からランダムにサンプリングされたベクトルエンコード、v はポートレートのレンダリング方向です。この研究では、a w をランダムにサンプリングし、-30 度から 30 度の範囲のピッチ角とヨー角からさまざまな視点で i*i ポートレートを均一にサンプリングします。

IP2P は大規模なテキストガイド付き画像編集モデルであり、この研究では、さまざまな視点からの肖像画の様式化された編集を実行するために使用されます。 phi はモデルパラメータ、I は入力ポートレート画像、n はランダムノイズ、c はテキストの条件付き入力 (後で t で表される) です。 T の助けを借りて、研究チームはさまざまな視点から上記の i*i の肖像画をテキストガイド付きの様式化された編集を行うことができます。同時に、研究チームは実験で、いくつかのテキストプロンプトの下で異なる視点から見た同じ肖像画に対する IP2P の様式化された編集結果がかなり異なることを発見しました。そのため、本研究では推論プロセスにいくつかの改良を加え、元のノイズnを に置き換えました。この式は、ノイズ n と入力ポートレート I の情報の加重融合を表しており、異なる視点からのポートレート I の様式化された編集結果が同じに近くなります。さらに、本研究では、IP2Pの生成品質を高めるために補助テキストプロンプトtdと否定テキストプロンプトtnを導入しました。つまり、新しいテキストプロンプトはです

上記のプロセスに基づいて、本研究では次のような様式化された肖像画の合成パイプラインを提案しました。

写真

。このプロセスは純粋なモデル推論であり、追加のトレーニングは必要ありません。研究チームは、さまざまな視点からの i*i 合成肖像画について、小規模なサンプルの様式化された肖像画データセット Ds を迅速に構築できます。

画像から三面体モデルへの微調整

Ds を構築した後、データセットのポートレートスタイルに準拠した 3D モデルを学習する必要があります。この問題に対処するために、研究チームは、肖像画像から三面体表現へのマッピングを確立できる Image-to-Triplane (I2T) ネットワークを提案しました。この研究では、事前トレーニング済みの EG3D モデルの Triplane 合成ネットワークを、本論文で提案された I2T ネットワークに置き換え、残りのレンダリング ネットワークを再利用します。

Ds データセット内のさまざまな視点からの様式化された肖像画は 3D に一貫性がないため、肖像画から三面図表現への正確なマッピング関係を確立するには、まず I2T ネットワークを事前トレーニングする必要があります。研究チームは EG3D の合成データを使用して I2T ネットワークを事前トレーニングしました。トレーニング損失関数は次のようになります。

写真

H は I2T ネットワークを表し、If はポジティブビューポートレート画像入力 (EG3D サンプリングによって提供)、p は Triplane 表現の真の値 (EG3D サンプリングによって提供) です。

研究チームは、事前にトレーニングされた I2T ネットワークを使用して、構築された Ds データセットを迅速に微調整し、I2T の潜在空間を Ds データセットのスタイル分布に適合させることができます。モデルの微調整の損失関数には、再構築損失と密度正規化損失が含まれます。モデルの微調整は非常に効率的で、約 3 分で完了できます。この時点で、カスタム スタイル (テキスト プロンプト t を使用して指定) の 3D ポートレート モデルを取得できます。

実験

この記事のホームページには、一連の高品質で様式化された 3D ポートレート合成結果が示されています。本論文の方法のスケーラビリティを検証するために、研究チームはマルチスタイルおよびマルチアイデンティティのポートレートデータセットを構築しました。彼らは ChatGPT を使用して、芸術的なスタイル、映画のキャラクター スタイル、ゲームのキャラクター スタイル、基本的な属性編集スタイルなど、さまざまなスタイル タイプの 100 個の質問プロンプトを生成しました。それぞれのスタイルについて、この記事のポートレート様式化パイプラインを使用して、さまざまな視点から 10 x 10 の様式化されたポートレートを合成し、10,000 枚の画像を含むマルチスタイルの単一アイデンティティ ポートレート データセット (MSSI) を構築します。さらに、MSSI に基づいて、各スタイルのアイデンティティ属性が拡張され、つまり、異なる w ベクトルがランダムにサンプリングされて、マルチスタイル マルチアイデンティティ ポートレート データセット (MSMI) が取得されます。この 2 つのデータセットに対するこの方法の微調整されたモデルの 3D ポートレート合成結果は次のとおりです。

写真

I2T の ws 潜在空間での補間により、3D ポートレートのスタイル変更を実現できます。

この方法とベースライン方法の比較結果は次のとおりです。

方法の詳細と実験結果については、原著論文とプロジェクトのウェブサイトを参照してください。

<<:  Google AI はすべてを食べています!すべての公開コンテンツはAIトレーニングのためにクロールされ、プライバシーポリシーが更新されました

>>:  大規模言語モデルの視覚的才能: GPTは文脈学習を通じて視覚的タスクも解決できる

ブログ    

推薦する

実践的な NLP 問題: LSTM (RNN) と Transformer モデルに基づく

翻訳者|朱 仙中レビュー | Chonglou導入GPT などの言語モデルは最近非常に人気が高まって...

Google が 7 つの言語で新しいデータセットをリリース: BERT などの多言語モデル タスクの精度が最大 3 倍向上します。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

ビル・ゲイツ:AIは教育と医療の向上に活用されるべき

[[260198]]米テクノロジーメディアCNETによると、マイクロソフトの共同創業者で慈善家のビル...

ロボットが大学入試を受けたら、何点取れるでしょうか?清華大学や北京大学に入学できるでしょうか?

周知のとおり、大学入試は我が国で最も競争率の高い試験です。世界最先端のロボットを大学入試に送り込んだ...

...

中山大学のリン・ジン氏は、視覚的意味理解の新しいトレンドについて説明しました。表現学習から知識と因果の融合まで。

[[435334]] 2021年パターン認識と機械知能フロンティアシンポジウムが10月29日午前に...

2023年の生成AIの包括的なレビュー

2023年には、生成AIが開発者のアプリケーション構築支援において飛躍的な進歩を遂げ、大手ツールベン...

2020年の新自動運転技術レポートが公開されました!

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

機械学習サーバーの利用率とスケーラビリティを最大化するにはどうすればよいでしょうか?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

2024年のトレンド: 時系列データと人工知能の融合アプリケーション

今日のデータ主導の世界では、競争上の差別化を図ることが成功の鍵となります。この目標を達成するために、...

生成型AIが小学生の「初めてのプログラミングレッスン」に登場:線を描いて音楽を生成し、スケッチが一瞬で傑作に変わる

古典作品「星の王子さま」には、蛇が象を飲み込む絵を描いた少年が、大人たちにその絵を見せて怖いかと尋ね...

機械学習: IoT 成功の秘訣?

モノのインターネット (IoT) に匹敵する潜在力を持つテクノロジーはほとんどなく、IoT はほぼす...

...