「3D ガウス」バージョンですべてをセグメント化: ミリ秒単位で 3D セグメンテーション、1,000 倍高速

「3D ガウス」バージョンですべてをセグメント化: ミリ秒単位で 3D セグメンテーション、1,000 倍高速

今年4月、Metaは「Segment Everything(SAM)」AIモデルをリリースしました。この成果は、多くのCV研究者の心に残る年間論文となっただけでなく、ICCV 2023で最優秀論文ノミネートも獲得しました。

「Segment Everything」は、2Dセグメンテーションの「両方」を実現し、インタラクティブセグメンテーションと自動セグメンテーションを簡単に実行でき、あらゆる新しいタスクや新しい分野に一般化できます。

現在、このアイデアは 3D セグメンテーションの分野にも拡張されています。

放射線場におけるインタラクティブな 3D セグメンテーションは、シーン操作、自動注釈、VR など多くの分野での潜在的な応用が期待されており、常に熱く議論されているトピックです。従来の方法は主に、特徴フィールドをトレーニングすることで自己教師あり視覚モデルによって抽出されたマルチビュー 2D 特徴を模倣し、それによって 2D 視覚特徴を 3D 空間に昇格させ、次に 3D 特徴の類似性を使用して 2 つの点が同じオブジェクトに属しているかどうかを測定していました。

このようなアプローチは、セグメンテーション パイプラインが単純なため高速ですが、埋め込まれた特徴情報を解析するメカニズム (セグメンテーション デコーダーなど) がないため、セグメンテーションの粒度が粗くなります。

対照的に、別のパラダイムは、マルチビューのきめ細かい 2D セグメンテーションの結果を 3D マスク グリッドに直接投影し、それによって 2D セグメンテーション ベース モデルを 3D に引き上げることです。このアプローチでは正確なセグメンテーション結果を得ることができますが、ベースモデルとボリュームレンダリングを複数回実行する必要があるため、時間のオーバーヘッドが大きく、インタラクティブなエクスペリエンスが制限されます。特に、複数のオブジェクトをセグメント化する必要がある複雑なシーンでは、この計算コストは​​非常に高くなります。

最近、3D ガウス スプラッティング (3DGS) は、その高品質とリアルタイム レンダリング機能により、放射線場のインタラクティブな 3D セグメンテーションに新たなブレークスルーをもたらしました。 3D シーンを表現するために 3D カラー ガウス分布のセットを使用し、ガウス分布の平均が 3D 空間での位置を表すため、3DGS はポイント クラウドと見なすことができます。これにより、空の 3D 空間の大規模な処理を回避し、豊富な明示的な 3D 事前分布を提供できます。この点群のような構造により、3DGS は効率的なレンダリングを可能にするだけでなく、セグメンテーション タスクにも最適な候補となります。

このアプローチに触発され、最近の論文で、上海交通大学と Huawei の研究者は、2D の「すべてを分割」モデルのきめ細かいセグメンテーション機能を 3DGS に基づく 3D ガウスに改良することを提案しました。

論文リンク: https://arxiv.org/pdf/2312.00860.pdf

この戦略は、2D の視覚的特徴を 3D にアップスケールし、細かい 3D セグメンテーションを実現する従来の方法とは異なります。さらに、推論中に 2D セグメンテーション モデルの時間のかかる複数のフォワード パスを回避します。この蒸留は、Segment Anything Model (SAM) を使用して自動的に抽出されたマスクに基づいてガウス 3D 機能をトレーニングすることによって実現されます。推論中、入力プロンプトによって一連のクエリが生成され、効率的な特徴マッチングを通じて期待されるガウス分布が取得されます。

研究者らが「Segment Any 3D GAussians (SAGA)」と名付けたこの手法は、数ミリ秒で精細な 3D セグメンテーションを実現し、ポイント、落書き、マスクなどのさまざまなキューをサポートします。既存のベンチマークの評価では、SAGA が以前の SOTA の最先端技術に匹敵するセグメンテーション品質を実現することが示されています。

3D ガウス分布におけるインタラクティブなセグメンテーションの最初の試みとして、SAGA は汎用性が高く、マスク、ドット、落書きなどのさまざまなプロンプト タイプに適応できます。ガウス特徴のトレーニングは通常、完了までに 5 ~ 10 分しかかからないことに注意してください。その後、ほとんどの対象オブジェクトのセグメンテーションは数ミリ秒以内に完了し、約 1000 倍の高速化が達成されます。

方法の概要

下の図 2 は SAGA の全体的なパイプラインを示しています。事前トレーニング済みの 3DGS モデルとそのトレーニング セットが与えられた場合、まず SAM エンコーダーを使用して、I 内の各画像 I ∈ R^H×W の 2D 特徴マップとマルチ粒度マスクのセット M^SAM_I を抽出します。次に、抽出されたマスクに基づいて低次元の特徴 f_g ∈ R^C をトレーニングし、ビュー間で一貫したマルチ粒度セグメンテーション情報を集約します (C は特徴の次元を表し、デフォルト値は 32 に設定されています)。これらは、慎重に設計された SAM ガイド損失によって実現されます。

特徴のコンパクトさをさらに高めるために、研究者は抽出されたマスクから点の対応関係を導き出し、それを特徴として洗練させます(つまり、対応関係の損失)。

推論フェーズでは、カメラポーズ v の特定のビューに対して、入力プロンプト P に基づいてクエリのセット Q を生成します。これらのクエリは、学習した特徴との効率的な特徴マッチングを通じて、オブジェクトに対応する 3D ガウス分布を取得するために使用されます。

さらに、研究者らは、ポイントクラウドのような構造の 3DGS によって提供される強力な 3D 事前分布を活用して、取得した 3D ガウス分布を改良するための効率的な後処理操作を導入しました。

ガウストレーニング機能

特定のカメラポーズ v を持つトレーニング画像 I が与えられた場合、まず、事前トレーニング済みの 3DGS モデルに基づいて対応する特徴マップをレンダリングします。ピクセルpのレンダリングされた特徴F^r_I,pは次のように計算されます。

SAM 誘導による損失。研究者らは、SAM によって生成された特徴をガイダンスとして使用することを提案しました。上の図 2 に示すように、最初に MLP φ を使用して、SAM 機能を 3D 機能と同じ低次元空間にマッピングします。

通信の損失。実際には、研究者は、SAM ガイド損失を使用して学習された特徴が十分にコンパクトではなく、さまざまな手がかりのセグメンテーション品質が低下することを発見しました。彼らは、以前の対照的な対応蒸留法からインスピレーションを得て、対応損失を使用して問題を解決することを提案しました。マスク対応K_I(p1,p2)は次のように定義されます。


推論

2D レンダリングの機能を利用することで、3D ガウスのセグメンテーションを実現できます。この機能により、SAGA はドット、落書き、マスクなどのさまざまなキューと互換性を持つようになります。さらに、3DGS によって提供される 3D 事前分布に基づいて、研究者らは効率的な後処理アルゴリズムも導入しました。

3D事前分布に基づく後処理

3D ガウス分布の初期セグメンテーションには、冗長なノイズの多いガウス分布が存在することと、ターゲット オブジェクトにとって重要な特定のガウス分布が不足していることという 2 つの問題があります。これら 2 つの問題に対処するために、研究者は統計フィルタリングや領域拡張などの従来のポイント クラウド セグメンテーション手法を利用しました。

点と落書きの手がかりに基づくセグメンテーションでは、統計フィルタリングを使用してノイズの多いガウス分布を除去しました。マスク キューと SAM ベースのキューの場合、2D マスクをそれぞれおよびにマッピングします。前者は検証済みのガウス分布のセットを取得し、後者は不要なガウス分布を削除します。

得られた検証済みガウス分布は、領域生成アルゴリズムのシードとして使用されます。最後に、ボールクエリに基づく領域拡張アルゴリズムを使用して、元のモデルからターゲットに必要なすべてのガウス分布を取得します。

実験的評価

研究者らは、定量的実験ではNVOS(Neural Volumetric Object Selection)およびSPIn-NeRFデータセットを使用し、定性実験ではLLFF、MIP-360、T&T、およびLERFデータセットを使用しました。さらに、研究者らは SA3D を使用して LERF フィギュア シーン内のいくつかのオブジェクトに注釈を付け、SAGA が効率とセグメンテーション品質の間でより適切なトレードオフを実現できることを示しました。

定量的な結果

NVOS データセット。研究者たちは、SAM の要件を満たすために、NVOS データセットによって提供される落書きを処理するために SA3D アプローチを採用しました。結果を以下の表 1 に示します。SAGA は、以前の SOTA 方式である SA3D に匹敵し、ISRF や SGISRF などの以前の特徴シミュレーション ベースの方式を大幅に上回り、きめ細かいセグメンテーション品質を実証しています。

SPIn-NeRF データセット。研究者らは、SPIn-NeRF法に従ってラベル伝播評価を実行しました。この方法では、ビューとその真のマスクが指定され、マスクが他のビューに伝播され、マスクのヒントと見なすことができるマスクの精度が確認されます。結果は下の表 2 に示されています。SAGA は、MVSeg および SA3D と同等のパフォーマンスを、わずか 1000 分の 1 の時間で達成します。

SA3Dと比較してください。 SAGA の有効性をさらに実証するために、研究者らはセグメンテーション時間と品質の点で SAGA と SA3D を比較しました。彼らは、LERF フィギュア シーンで SA3D を実行し、多数のオブジェクトに一連の注釈を提供しました。次に、SAGA を使用して同じオブジェクトをセグメント化し、各オブジェクトの IoU と時間コストを調べました。結果は以下の表 3 に示されており、SAGA はより短時間でより高品質の 3D アセットを取得できることを示しています。

定性的な結果

研究者らはまず、SAGA のセグメンテーション精度が以前の SOTA SA3D と同等であり、時間コストが大幅に削減されていることを確認しました。そして、SAGA がパーツとオブジェクトの両方のセグメンテーションタスクで ISRF よりも優れていることを実証しました。結果は図3に示されています。

最初の行は、LERFフィギュアシーンのSA3DとSAGAのセグメンテーション結果を示しており、各セグメント化されたオブジェクトの右下にセグメンテーション時間がマークされています。2行目は、SAGAとISRFを比較したものです。ISRFは、自己教師あり視覚変換器(DINO [4]など)によって抽出された2D特徴を模倣して特徴フィールドをトレーニングします。3行目は、MIP360カウンターとT&Tトラックシーンのその他のセグメンテーション結果を示しています。

表 2 には失敗例がいくつかあり、SAGA のパフォーマンスは従来の SOTA 方式と比較して満足できるものではありません。これは、LLFF 部屋のシーンのセグメンテーションが失敗し、SAGA の限界が露呈したためです。図 4 は、点群として表示できる色付きのガウス平均を示しています。SAGA は、3DGS モデルの不適切な幾何学的再構築の影響を受けやすいです。

より詳しい技術的な詳細と実験結果については、原著論文をお読みください。

<<:  人間の学習を模倣した、データセット拡張の新しいパラダイム GIF フレームワークが登場

>>:  微調整の必要はありませんか? 3つのサンプル、LLMアライメントを修正するための1つのヒント、エンジニアのヒント:すべて戻る

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

Java ガベージ コレクション アルゴリズムの紹介

51CTO 編集者注: 「Java ガベージ コレクション メカニズムの簡単な分析」では、Java ...

AI開発者の皆さん、こちらをお読みください: 主流のモバイルディープラーニングフレームワークの包括的なレビュー

PCと比較すると、モバイルデバイスは携帯性に優れており、普及率も高くなっています。近年、モバイルデバ...

青島市と銀河水滴が共同でAIアート応用イノベーション実験室を建設

最近、2020年中国(青島)芸術博覧会の期間中、青島の「ダブル募集・ダブル紹介」特別イベントが開催さ...

...

人工知能を背景とした公共読書空間の探究と創造

5Gネットワ​​ークの発展と人工知能アプリケーションの人気の高まりにより、スマート無人書店の出現は、...

機械学習はバッテリー寿命を予測するのに役立ちます。バッテリーを何回充電できるかを正確に把握できます。

バッテリー寿命の決定は、モバイルハードウェアの開発において重要な部分です。しかし、バッテリーの電気化...

資金調達、新製品、アプリケーションは引き続き成長中:8月のドローン業界の最新動向の概要

[[420938]]現在、人工知能や5Gなどの技術の助けを借りて、我が国のドローン開発は急速な成長の...

人工知能は人類の生存を脅かすでしょうか?

有名なイギリスの科学者スティーブン・ホーキングはかつて、知能機械を作ろうとする人間の努力は私たち自身...

ウォータールー大学はヒートマップ回帰を放棄し、複数人の姿勢推定のための新しい方法を提案した。

[[436983]]キーポイント推定は、画像内の関心ポイントを特定するコンピューター ビジョン タ...

2020年のビジネスにおけるAIトレンドトップ10 人工知能技術は驚異的な速度で成長している

人工知能は 2010 年代の技術であり、時が経つにつれて、ますます多くの AI 技術が登場しています...

GPT-4 より 10 倍高速!この売れ筋の AI エージェント製品がビッグモデルを揺るがします!

執筆者 | Yan Zheng制作:51CTO テクノロジースタック(WeChat ID:blog)...

効果的なITセキュリティにとってAIと機械学習がますます重要になる理由

セキュリティ専門家の観点から見ると、現在、AI と機械学習を導入する必要性が高まっています。彼らは、...

...

AIエンジニアリングのためのJavaScriptツールトップ5

多くの人が驚くことに、Web 開発の分野で常に人気がある JavaScript は、大規模言語モデル...