コンピュータグラフィックスでは、「三角メッシュ」は 3D 幾何学的オブジェクトの主な表現であり、ゲーム、映画、VR インターフェイスで使用される 3D アセットを表現する主な方法です。業界では通常、建物、車両、動物などの複雑なオブジェクトの表面を三角形メッシュに基づいてシミュレートします。一般的な幾何学的変換、幾何学的検出、レンダリング、シェーディング アクションも三角形メッシュに基づいて実行する必要があります。 ポイント クラウドやボクセルなどの他の 3D 形状表現と比較すると、三角形メッシュはより一貫性のある表面表現を提供します。つまり、より制御しやすく、操作しやすく、コンパクトで、最新のレンダリング パイプラインで直接使用して、より少ないプリミティブでより高い視覚品質を実現できます。 これまで、研究者はボクセル、ポイント クラウド、ニューラル フィールドなどの表現を使用して 3D モデルを生成しようとしてきました。これらの表現は、等値面作成用の Marching Cubes アルゴリズムの使用など、下流のアプリケーションで使用するために後処理によってメッシュに変換される必要もあります。 残念ながら、この結果、メッシュが高密度かつ細かすぎて、次の図に示すように、等値面化によって表面が過度に滑らかになり、凹凸が生じることがよくあります。 対照的に、3D モデリングの専門家によってモデル化された 3D メッシュは、より少ない三角形で鮮明な詳細を維持しながら、よりコンパクトに表現されます。 多くの研究者は長い間、3D アセットの作成プロセスをさらに簡素化するために、三角形メッシュを自動的に生成するタスクを解決したいと望んできました。 最近の論文で、研究者らはメッシュ表現を三角形の集合として直接生成する新しいソリューション、MeshGPT を提案しました。 論文リンク: https://nihalsid.github.io/mesh-gpt/static/MeshGPT.pdf 言語生成モデル Transformer にヒントを得て、三角形メッシュを三角形シーケンスに合成する直接シーケンス生成方式を採用しました。 テキスト生成のパラダイムに従って、研究者たちはまず、潜在的な量子化埋め込みとしてエンコードされた三角形の語彙を学習しました。学習した三角形の埋め込みが局所的な幾何学的特徴と位相的特徴を保持するようにするために、研究者はグラフ畳み込みエンコーダを採用しました。これらの三角形の埋め込みは ResNet デコーダーによってデコードされ、三角形を表すトークンのシーケンスに処理されて、三角形の頂点座標が生成されます。最後に、研究者らは学習した語彙に基づいて GPT ベースのアーキテクチャをトレーニングし、明確なエッジと高い忠実度の利点を備えたメッシュを表す三角形のシーケンスを自動的に生成しました。 ShapeNet データセットの複数のカテゴリでの実験では、MeshGPT は最先端のものと比較して、生成された 3D メッシュの品質を大幅に向上させ、形状カバレッジが平均 9%、FID スコアが 30 ポイント向上することが示されています。 MeshGPT はソーシャル メディア プラットフォームでも白熱した議論を巻き起こしました。 「これは本当に革命的なアイデアだ」と言う人もいます。 あるネットユーザーは、この方法のハイライトは、他の3Dモデリング方法の最大の障害である編集能力を克服している点だと指摘した。 1990 年代以降の未解決の問題はすべて、Transformer からヒントを得られるかもしれないと大胆に予測する人もいます。 3D/映画制作関連業界で働くユーザーの中には、キャリアについて懸念を表明する人もいました。 しかし、論文で示された生成例から判断すると、この方法はまだ大規模実装の段階に達しておらず、プロのモデラーであれば 5 分以内に簡単にこれらのメッシュを生成できると指摘する人もいます。 コメント投稿者は、次のステップとして、LLM に 3D シード生成を制御させ、アーキテクチャの自己回帰部分に画像モデルを追加することを提案しました。このステップに到達して初めて、ゲームなどのシーンの 3D アセットの制作を大規模に自動化できるようになります。 次に、MeshGPT論文の研究内容を見てみましょう。 方法の概要大規模言語モデルの進歩に触発され、三角形のシーケンスとして三角形メッシュを自己回帰的に生成するシーケンスベースのアプローチを開発しました。この方法では、シャープなエッジと高い忠実度を備えた、クリーンで一貫性のあるコンパクトなメッシュが生成されます。 研究者たちはまず、三角形をエンコードおよびデコードできる多数の 3D オブジェクト メッシュから幾何学的語彙の埋め込みを学習します。次に、学習した埋め込み語彙に基づいて、グリッド生成用のTransformerが自己回帰インデックス予測方式でトレーニングされます。 三角形の語彙を学習するために、研究者らは、メッシュの三角形とその近傍を操作して 3D 形状の複雑な詳細を捉える豊富な幾何学的特徴を抽出するグラフ畳み込みエンコーダを採用しました。これらの特徴は、残差量子化を通じてコードブック内の埋め込みに量子化され、グリッド表現のシーケンス長が効果的に短縮されます。ソート後、これらの埋め込まれた情報は、再構築損失のガイダンスの下で 1 次元 ResNet によってデコードされます。この段階は、Transformer のその後のトレーニングの基礎を築きます。 次に研究者らは、これらの量子化された幾何学的埋め込みを使用して、GPT スタイルの純粋なデコーダー トランスフォーマーをトレーニングしました。メッシュ三角形から抽出された幾何学的埋め込みのシーケンスが与えられると、トランスフォーマーはシーケンス内の次の埋め込みのコードブック インデックスを予測するようにトレーニングされます。 トレーニングが完了すると、トランスフォーマーは自己回帰的にサンプリングして埋め込みのシーケンスを予測し、これらの埋め込みをデコードして、人間が描いたグリッドに似た効率的で不規則な三角形を示す新しい多様なグリッド構造を生成できるようになります。 MeshGPT は、グラフ畳み込みエンコーダーを使用してメッシュ サーフェスを処理し、幾何学的近傍情報を使用して 3D 形状の複雑な詳細を特徴付ける強力な特徴をキャプチャし、残差量子化方法を使用してこれらの特徴をコードブック埋め込みに量子化します。このアプローチにより、単純なベクトル量子化に比べて再構成品質が向上します。 MeshGPT は再構築損失に基づいて、ResNet を通じて量子化された埋め込みをソートおよびデコードします。 この研究では、Transformer を使用して、事前に学習したコードブック語彙からトークン インデックスとしてグリッド シーケンスを生成します。トレーニング中、グラフ エンコーダーはメッシュの顔から特徴を抽出し、それらを顔埋め込みのセットに量子化します。これらの埋め込みは平坦化され、開始トークンと終了トークンでラベル付けされてから、上記の GPT スタイルのトランスフォーマーに送られます。デコーダーは、クロスエントロピー損失を使用して最適化され、各埋め込みの後続のコードブック インデックスを予測します。 実験結果この研究では、MeshGPT と以下の一般的なメッシュ生成方法を比較しました。
さらに、この研究では、MeshGPT とニューラル フィールド ベースの SOTA 方式 GET3D も比較しました。 図 6、7、表 1 に示すように、MeshGPT は 4 つのカテゴリすべてでベースライン メソッドを上回っています。 MeshGPT は、細かい幾何学的詳細を備えたシャープでコンパクトなメッシュを生成します。 具体的には、Polygen と比較して、MeshGPT はより複雑な詳細を持つ形状を生成できますが、Polygen は推論中にエラーが蓄積される可能性が高くなります。AtlasNet には折り畳みアーティファクトが多く、多様性と形状の品質が低下します。BSPNet はフラットな BSP ツリーを使用し、通常とは異なる三角形分割パターンを持つブロック状の形状を生成することがよくあります。GET3D は優れた高レベルの形状構造を生成できますが、三角形が多すぎて平面が完璧ではありません。 表 2 に示すように、この調査では、MeshGPT によって生成されたメッシュの品質をユーザーに評価してもらいました。形状と三角測量の品質に関しては、MeshGPT は AtlasNet、Polygen、BSPNet を大幅に上回りました。 GET3D と比較して、ほとんどのユーザーは MeshGPT によって生成された形状 (68%) と三角測量 (73%) の品質を好みます。 形の斬新さ。下の図 8 に示すように、MeshGPT はトレーニング データセットを超えて新しい形状を生成できるため、モデルが既存の形状を単純に取得することはありません。 形状の完成。下の図 9 に示すように、MeshGPT は、指定されたローカル シェイプに基づいて複数の可能な補完を推測し、複数のシェイプ仮説を生成することもできます。 |
<<: 研究のアイデアがない場合は、信頼できる機械学習のための革新的なアイデア1,000個をご紹介します。
現実には、あらゆる種類の印刷されたテキストや、周囲のあらゆるものを何の障害もなく簡単に読むことができ...
ディープラーニングが加わったことで、コンピュータグラフィックスには多くの新しい分野が生まれました。 ...
なぜ良いチャットボットがないのでしょうか? これは私がかなり頻繁に、おそらく平均して週に 2 回は聞...
18日夕方、バイトダンスは全従業員宛ての電子メールで重大イベントを発表した。手紙の全内容が明らかに...
自宅の高齢者が階段を降りる途中で誤って転倒したり、地域でいたずらっ子が走り回ってトラブルを起こしたり...
過去 20 年間で、世界はテクノロジーにおいて驚異的な進歩を遂げ、人間の生活のさまざまな側面に影響を...
[[378304]]上位 10 の古典的なソート アルゴリズム - シェル ソート、マージ ソート、...
最近、国家発展改革委員会と財政部は、新技術と新事業の発展を奨励するために、5905-5925MHz周...
高画質を追求する時代において、低画質に対する許容度はますます低くなっています。 Zhihuで「低解像...
ブロックチェーンと人工知能は、現在最もホットなテクノロジートレンドの 2 つです。これら 2 つの技...
[51CTO.comより引用] 2018年5月18日〜19日、51CTO主催のグローバルソフトウェア...
C# アルゴリズムはプログラマーの面接でよく出題されますが、C# アルゴリズムを使用してそれをどのよ...
仮想化テクノロジーは、物理ホストが複数の仮想コンピューティング環境を同時に実行できるように、コンピュ...
人工知能の発展は人類の進化に似ていますが、そのプロセスはより短いものです。人間は自らの知恵を駆使して...