この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 AI を使用して 2 次元画像を処理することは、畳み込みニューラル ネットワーク (CNN) の基礎と切り離せません。 しかし、CNN は 3 次元モデルに関してはそれほど強力ではありません。 主な理由は、3D モデルは通常、次のようなメッシュ データによって表現されるためです。 これらの三角形には、点、辺、面という 3 つの異なる要素が含まれています。規則的な構造と階層的な表現が欠けているため、常に正方形である CNN では扱いが困難です。 △CNN図、出典:Wikipedia では、VGG や ResNet のような成熟した使いやすい CNN バックボーン ネットワークは、3 次元モデルのディープラーニングには使用できないのでしょうか? あまり。 最近、清華大学の Jittor チームは、三角形メッシュの面用の畳み込みニューラル ネットワークSubdivNet を初めて提案しました。 SubdivNet に基づいて、成熟した画像ネットワーク アーキテクチャを 3 次元ジオメトリ学習に移行できます。 さらに、関連する論文やコードもオープンソース化されています。 細分構造に基づくグリッド畳み込みネットワーク では、SubdivNet はどのようにして 2D と 3D の間の障壁を打ち破るのでしょうか? 具体的には、これはサブディビジョン構造に基づいたグリッド畳み込みネットワークです。 入力メッシュデータに対して、まず再メッシュを実行してサブディビジョン構造を構築し、一般的なメッシュのマルチ解像度表現を取得します。次に、パッチ畳み込み法とアップおよびダウンサンプリング法が注目されます。 パッチ畳み込み法従来のグリッド ディープラーニング手法では、通常、特徴をポイントまたはエッジに保存していましたが、ポイントの次数が固定されておらず、エッジの畳み込みが柔軟ではないという問題が発生しました。 そのため、Ji Tu チームは、各パッチと 3 つの隣接するパッチの規則的な性質を最大限に活用するために、パッチ上のグリッド畳み込み法を提案しました。 さらに、この規則的な特性に基づいて、研究チームはパッチ間の距離に応じてさまざまな畳み込みモードをさらに設計しました。 △kは畳み込みカーネルのサイズ、dは穴の長さ 3次元データ形式におけるパッチの順序は固定されていないため、畳み込み結果を計算する際、SubdivNetは近傍平均、差分平均などを取ることで、計算結果がパッチの順序に依存せず、順列不変性を満たします。 アップダウンサンプリング法アップサンプリングとダウンサンプリングの部分を見てみましょう。 SubdivNet は、従来のループ サブディビジョン サーフェス モデリングにヒントを得て、サブディビジョン構造に基づいてアップサンプリングおよびダウンサンプリング メソッドを構築します。 つまり、プーリング(ダウンサンプリング)処理では、メッシュデータが再グリッド化され、そのファセットが細分化された接続構造を持つため、 4 個を 1 個に変換し、高解像度から低解像度まで、ファセット フィーチャのプーリング操作を実現できます。 アップサンプリング処理中に、顔は4 つの部分に分割されます。 このように、アップサンプリングとダウンサンプリングの方法は規則的かつ均一であり、双線形補間などの要件も達成できます。 パッチ畳み込み法とアップサンプリング法およびダウンサンプリング法を組み合わせることで、VGG、ResNet、DeepLabV3+ などの従来の 2D 畳み込みネットワークを 3D モデルのディープラーニングに簡単に移行できます。 SubdivNet メソッドは、清華大学のディープラーニングフレームワークである Jittor に基づいて実装されていることは注目に値します。その中でも、グラフ カウント フレームワークは、追加の C++ コードなしで近傍インデックスを実装できる効率的な再インデックス演算子を提供します。 実験結果SubdivNetの効果については、実験結果を見てみましょう。 まず、メッシュ分類データセットでは、SubdivNet は SHREC11 および Cube Engraving データセットで初めて100% の分類精度を達成しました。 メッシュセグメンテーションに関しては、定量的な指標では、SubdivNet のセグメンテーション精度は、比較に使用したポイントクラウドおよびメッシュ方式よりも高くなっています。 形状対応実験では、SubdivNet も SOTA レベルに到達しました。 著者についてこの論文は、清華大学コンピュータサイエンス学部の胡世民教授のチームによるものです。 著者は胡世民氏と博士課程の学生である劉正寧氏、郭孟浩氏、黄家慧氏ら、およびカーディフ大学のラルフ・マーティン教授です。 同時に、彼らは清華大学の「Jitu」フレームワークチームのメンバーでもあります。 JiTuは中国の大学がオープンソース化した初のディープラーニングフレームワークです。開発チームは清華大学コンピュータサイエンス学部グラフィックス研究室で、責任者は胡世民教授です。 研究室の主な研究分野は、コンピュータグラフィックス、コンピュータビジョン、インテリジェント情報処理、インテリジェントロボット、システムソフトウェアなどです。ACM TOG、IEEE TVCG、IEEE PAMI、ACM SIGGRAPH、IEEE CVPR、IEEE ICRA、USENIX ATCなどの重要な国際ジャーナルに100件以上の論文が掲載されています。 現在、この計画策定の主力となっているのは、梁盾、楊国燁、楊国偉、周文洋、劉正寧、李祥麗、郭夢浩、辛航高を含む研究室の博士課程の学生グループである。 TensorFlow や PyTorch とは異なり、JiGraph はメタ演算子と統合計算グラフを使用して、完全に動的コンパイルに基づいたディープラーニング フレームワークです。 これまで、JiTu は微分可能レンダリングと動的グラフ推論の点で PyTorch を上回っていました。 論文の宛先: プロジェクトアドレス: 参考リンク: |
>>: 初期の携帯電話で使用されていたGPRS暗号化アルゴリズムが意図的に弱められていたことが明らかになった。
最近、IDCは「IDC FutureScape: 世界の人工知能(AI)市場2021年予測 - 中国...
推奨アルゴリズムは、機械学習とデータマイニングの分野の重要な部分であり、ユーザーにパーソナライズされ...
大規模言語モデル (LLM) 技術が成熟するにつれて、その適用範囲が拡大しています。インテリジェント...
人工知能は複雑な囲碁のゲームでは簡単に人間に勝つことができますが、科学的な発見に役立つのでしょうか?...
[[252430]]ビッグデータダイジェスト制作編纂者:江宝尚今年 9 月に開催された Deep L...
AI、つまり人工知能は、携帯電話で長い間使用されてきました。たとえば、最も一般的な音声アシスタントは...
最近の人工知能の進歩は目覚ましいものがあります。人工システムは、アタリのビデオゲーム、古代のボードゲ...
人工知能(AI)は私たちが住む世界を急速に変えています。医療から金融まで、人工知能は産業を変革し、私...
[51CTO.com クイック翻訳]人工知能はここ数年間、人々の注目を集めてきました。 「あなたのた...
この記事は、WOT2023カンファレンスでの蘭州科技の創設者兼CEOである周明氏の基調講演からまとめ...
ロボット工学の分野は驚異的なスピードで進歩しており、多くの専門家がこの急速な発展を生物学における「カ...
ビッグデータと人工知能はどれほどの力を持っているのでしょうか。ほとんどの人はまだそれを直感的に理解し...