3D モデルの「スキンを変更する」のはどれくらい簡単ですか?一言だけ

3D モデルの「スキンを変更する」のはどれくらい簡単ですか?一言だけ

[[443015]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

グレーの 3D モデルに「新しいスキン」を追加するのはどれくらい簡単ですか?

今では、それを実行するために必要なのは1 つの文だけです。

見て!

普通の小さなデスクランプは「ブリックランプ」と表現でき、すぐに「ブリックランプ」になります。

灰色のポニーに「Astronaut Horse」という文字を追加すると、そのポニーは即座に「Astronaut Horse」になります。

操作が簡単なだけでなく、あらゆる角度から細部や質感まで表現します。

これはText2Meshと呼ばれるモデルを使用して作成されています。これは3D オブジェクトの「スキン変更」専用に設計されており、シカゴ大学とテルアビブ大学が共同で作成しました。

面白いと思いませんか?

3D オブジェクトの「スキン変更」を 1 文で実行

Text2Mesh モデルの入力には、3D メッシュ (元の画像の品質に関係なく) とテキストの説明のみが必要です。

具体的な変換プロセスは次のとおりです。

入力元のメッシュモデルメッシュ、頂点V∈Rn×3、表面F∈{1, . . . , n}m×3は、トレーニングプロセス全体を通じて固定されます。

次に、ニューラル スタイル ネットワークが構築され、メッシュの各頂点のスタイル属性が生成され、表面全体でスタイルを定義できるようになります。

具体的には、ネットワークはメッシュ表面 p∈V 上の点を対応する RGB カラーにマッピングし、法線方向に沿って移動させて、様式化された初期メッシュを生成します。

このメッシュは複数のビューからレンダリングされます。

次に、CLIP に組み込まれた 2D 拡張テクノロジを使用して、結果をよりリアルにします。

このプロセスでは、レンダリングされた画像とテキストプロンプト間の CLIP 類似度スコアが、ニューラル ネットワークの重みを更新するための信号として使用されます。

Text2Mesh 全体に事前トレーニングは必要なく、専用の 3D メッシュ データセットも必要なく、UV パラメータ化 (三角形メッシュを 2 次元平面に展開する) も必要ありません。

具体的な効果は何ですか?

Text2Mesh は単一の GPU でトレーニングするのに 25 分もかからず、10 分以内に高品質の結果を生成できます。

さまざまなスタイルを生成でき、詳細も非常によく復元されます。

例えば、下の写真では、雪だるま、忍者、バットマン、ハルク、あるいはスティーブ・ジョブズ、メッシ、弁護士など、服のしわ、アクセサリー、筋肉、髪の毛など、細部まで鮮明に表現できます。

研究者らは、Text2Mesh とベースライン手法である VQGAN を比較するためのユーザー調査も設計しました。

採点には 3 つの質問が含まれます。1. 生成された結果の自然さ。2. テキストと結果の一致。3. 結果と元の画像との一致。

57 人のユーザーが評価した結果、次のようになりました。

Text2Mesh はすべてのカテゴリーで VQGAN よりも高いスコアを獲得しています。

さらに、Text2Mesh はより複雑で特殊なテキスト記述も処理できます。

たとえば、「かぎ針編みで作られた光沢のある金色の衣類用アイロン」:

「波形金属を使用したブルースチールの高級テーブルランプ」:

さらに、Text2Mesh モデルは画像によって直接駆動することもできます。

たとえば、サボテンの写真があれば、元の灰色の 3D 豚を「サボテン スタイル」に直接変換できます。

もう一つ

Text2Mesh コードはオープンソース化されており、デモが Kaggle Notebook にアップロードされています。興味のある方は以下をお試しください:

最後に、これが何だかわかりますか?

デモアドレス:

https://www.kaggle.com/neverix/text2mesh/

紙:

https://arxiv.org/abs/2112.03221

コード:

https://github.com/threedle/text2mesh

参考リンク:
https://threedle.github.io/text2mesh/

<<:  GANは画像生成の王様ではないでしょうか?最近は拡散モデルが人気になり、その影響はSOTAにも及んでいる。

>>:  テスラの自動運転タクシー参入は依然として困難

ブログ    
ブログ    

推薦する

パイプラインロボットは都市の安全を守り、夏の雷雨も恐れない

夏がまたやって来て、雷雨がまた虫を追い払います。最近では、夏の気温が上昇し続けているため、雨天が多く...

ソフトウェア開発における AI と機械学習の応用: 将来の動向と課題

人工知能 (AI) と機械学習 (ML) は、現代のソフトウェア開発の重要な部分になりつつあります。...

モノのインターネット、人工知能、ブロックチェーン、どれがあなたにぴったりでしょうか?

今はお金を稼ぐのが難しく、ビジネスも簡単ではないと言う人もいますが、今こそ最高の時代だと言う人もいま...

雁塔区:西部の「最強の頭脳」が人工知能コンピューティングセンターの未来を切り開く

9月9日午前、雁塔区未来工業城で未来人工知能コンピューティングセンターの開設式が行われた。同イベント...

人工知能は緊急に「倫理的転換」を必要としている

現在の人工知能の発展は、主にディープラーニングに代表される機械学習技術の恩恵を受けています。ディープ...

IBC識別パスワードSM9アルゴリズムに基づくID認証ソリューション

最近、ネットユーザーによってオンラインフォーラムで有名なブラウザにセキュリティ上の脆弱性があることが...

Tensorflow コード実装によるディープ ニューラル ネットワークの解釈可能性手法の概要

ニューラル ネットワークの理解: ディープラーニングは長い間、解釈可能性が低いと考えられてきました。...

ChatGPTは、すべての過去のチャットの学習、記憶のリセット、および「読んだ後の書き込み」という新機能をテストするために公開されました。

ChatGPT は、大きな新機能をリリースしようとしている可能性があります。つまり、過去のチャット...

金融技術分野における人工知能と機械学習の応用と開発

[[383269]] [51CTO.com クイック翻訳] 過去数年間、金融業界では、業界の絶え間な...

...

2023年に人工知能とデータサイエンスについて知っておくべきこと

人工知能とデータサイエンスは、2023 年に最もエキサイティングで影響力のある 2 つのテクノロジー...

...

機械学習の新たな嵐: ML モデルを使用して住宅価格を予測する方法とは?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

2022年の銀行業界における人工知能の応用

人工知能はあらゆる分野に革命をもたらしており、銀行業も例外ではありません。 調査によると、世界の人工...

人工知能をより深く理解するための人工知能と機械学習の12のキーワード

[[260979]]人工知能(AI)技術があらゆる分野にますます大きな影響を及ぼすようになるにつれ、...