「3D ガウス」バージョンですべてをセグメント化: ミリ秒単位で 3D セグメンテーション、1,000 倍高速

今年4月、Metaは「Segment Everything（SAM）」AIモデルをリリースしました。この成果は、多くのCV研究者の心に残る年間論文となっただけでなく、ICCV 2023で最優秀論文ノミネートも獲得しました。

「Segment Everything」は、2Dセグメンテーションの「両方」を実現し、インタラクティブセグメンテーションと自動セグメンテーションを簡単に実行でき、あらゆる新しいタスクや新しい分野に一般化できます。

現在、このアイデアは 3D セグメンテーションの分野にも拡張されています。

放射線場におけるインタラクティブな 3D セグメンテーションは、シーン操作、自動注釈、VR など多くの分野での潜在的な応用が期待されており、常に熱く議論されているトピックです。従来の方法は主に、特徴フィールドをトレーニングすることで自己教師あり視覚モデルによって抽出されたマルチビュー 2D 特徴を模倣し、それによって 2D 視覚特徴を 3D 空間に昇格させ、次に 3D 特徴の類似性を使用して 2 つの点が同じオブジェクトに属しているかどうかを測定していました。

このようなアプローチは、セグメンテーションパイプラインが単純なため高速ですが、埋め込まれた特徴情報を解析するメカニズム (セグメンテーションデコーダーなど) がないため、セグメンテーションの粒度が粗くなります。

対照的に、別のパラダイムは、マルチビューのきめ細かい 2D セグメンテーションの結果を 3D マスクグリッドに直接投影し、それによって 2D セグメンテーションベースモデルを 3D に引き上げることです。このアプローチでは正確なセグメンテーション結果を得ることができますが、ベースモデルとボリュームレンダリングを複数回実行する必要があるため、時間のオーバーヘッドが大きく、インタラクティブなエクスペリエンスが制限されます。特に、複数のオブジェクトをセグメント化する必要がある複雑なシーンでは、この計算コストは非常に高くなります。

最近、3D ガウススプラッティング (3DGS) は、その高品質とリアルタイムレンダリング機能により、放射線場のインタラクティブな 3D セグメンテーションに新たなブレークスルーをもたらしました。 3D シーンを表現するために 3D カラーガウス分布のセットを使用し、ガウス分布の平均が 3D 空間での位置を表すため、3DGS はポイントクラウドと見なすことができます。これにより、空の 3D 空間の大規模な処理を回避し、豊富な明示的な 3D 事前分布を提供できます。この点群のような構造により、3DGS は効率的なレンダリングを可能にするだけでなく、セグメンテーションタスクにも最適な候補となります。

このアプローチに触発され、最近の論文で、上海交通大学と Huawei の研究者は、2D の「すべてを分割」モデルのきめ細かいセグメンテーション機能を 3DGS に基づく 3D ガウスに改良することを提案しました。

論文リンク: https://arxiv.org/pdf/2312.00860.pdf

この戦略は、2D の視覚的特徴を 3D にアップスケールし、細かい 3D セグメンテーションを実現する従来の方法とは異なります。さらに、推論中に 2D セグメンテーションモデルの時間のかかる複数のフォワードパスを回避します。この蒸留は、Segment Anything Model (SAM) を使用して自動的に抽出されたマスクに基づいてガウス 3D 機能をトレーニングすることによって実現されます。推論中、入力プロンプトによって一連のクエリが生成され、効率的な特徴マッチングを通じて期待されるガウス分布が取得されます。

研究者らが「Segment Any 3D GAussians (SAGA)」と名付けたこの手法は、数ミリ秒で精細な 3D セグメンテーションを実現し、ポイント、落書き、マスクなどのさまざまなキューをサポートします。既存のベンチマークの評価では、SAGA が以前の SOTA の最先端技術に匹敵するセグメンテーション品質を実現することが示されています。

3D ガウス分布におけるインタラクティブなセグメンテーションの最初の試みとして、SAGA は汎用性が高く、マスク、ドット、落書きなどのさまざまなプロンプトタイプに適応できます。ガウス特徴のトレーニングは通常、完了までに 5 ～ 10 分しかかからないことに注意してください。その後、ほとんどの対象オブジェクトのセグメンテーションは数ミリ秒以内に完了し、約 1000 倍の高速化が達成されます。

方法の概要

下の図 2 は SAGA の全体的なパイプラインを示しています。事前トレーニング済みの 3DGS モデルとそのトレーニングセットが与えられた場合、まず SAM エンコーダーを使用して、I 内の各画像 I ∈ R^H×W の 2D 特徴マップとマルチ粒度マスクのセット M^SAM_I を抽出します。次に、抽出されたマスクに基づいて低次元の特徴 f_g ∈ R^C をトレーニングし、ビュー間で一貫したマルチ粒度セグメンテーション情報を集約します (C は特徴の次元を表し、デフォルト値は 32 に設定されています)。これらは、慎重に設計された SAM ガイド損失によって実現されます。

特徴のコンパクトさをさらに高めるために、研究者は抽出されたマスクから点の対応関係を導き出し、それを特徴として洗練させます（つまり、対応関係の損失）。

推論フェーズでは、カメラポーズ v の特定のビューに対して、入力プロンプト P に基づいてクエリのセット Q を生成します。これらのクエリは、学習した特徴との効率的な特徴マッチングを通じて、オブジェクトに対応する 3D ガウス分布を取得するために使用されます。

さらに、研究者らは、ポイントクラウドのような構造の 3DGS によって提供される強力な 3D 事前分布を活用して、取得した 3D ガウス分布を改良するための効率的な後処理操作を導入しました。

ガウストレーニング機能

特定のカメラポーズ v を持つトレーニング画像 I が与えられた場合、まず、事前トレーニング済みの 3DGS モデルに基づいて対応する特徴マップをレンダリングします。ピクセルpのレンダリングされた特徴F^r_I,pは次のように計算されます。

SAM 誘導による損失。研究者らは、SAM によって生成された特徴をガイダンスとして使用することを提案しました。上の図 2 に示すように、最初に MLP φ を使用して、SAM 機能を 3D 機能と同じ低次元空間にマッピングします。

通信の損失。実際には、研究者は、SAM ガイド損失を使用して学習された特徴が十分にコンパクトではなく、さまざまな手がかりのセグメンテーション品質が低下することを発見しました。彼らは、以前の対照的な対応蒸留法からインスピレーションを得て、対応損失を使用して問題を解決することを提案しました。マスク対応K_I(p1,p2)は次のように定義されます。

推論

2D レンダリングの機能を利用することで、3D ガウスのセグメンテーションを実現できます。この機能により、SAGA はドット、落書き、マスクなどのさまざまなキューと互換性を持つようになります。さらに、3DGS によって提供される 3D 事前分布に基づいて、研究者らは効率的な後処理アルゴリズムも導入しました。

3D事前分布に基づく後処理

3D ガウス分布の初期セグメンテーションには、冗長なノイズの多いガウス分布が存在することと、ターゲットオブジェクトにとって重要な特定のガウス分布が不足していることという 2 つの問題があります。これら 2 つの問題に対処するために、研究者は統計フィルタリングや領域拡張などの従来のポイントクラウドセグメンテーション手法を利用しました。

点と落書きの手がかりに基づくセグメンテーションでは、統計フィルタリングを使用してノイズの多いガウス分布を除去しました。マスクキューと SAM ベースのキューの場合、2D マスクをそれぞれおよびにマッピングします。前者は検証済みのガウス分布のセットを取得し、後者は不要なガウス分布を削除します。

得られた検証済みガウス分布は、領域生成アルゴリズムのシードとして使用されます。最後に、ボールクエリに基づく領域拡張アルゴリズムを使用して、元のモデルからターゲットに必要なすべてのガウス分布を取得します。

実験的評価

研究者らは、定量的実験ではNVOS（Neural Volumetric Object Selection）およびSPIn-NeRFデータセットを使用し、定性実験ではLLFF、MIP-360、T&T、およびLERFデータセットを使用しました。さらに、研究者らは SA3D を使用して LERF フィギュアシーン内のいくつかのオブジェクトに注釈を付け、SAGA が効率とセグメンテーション品質の間でより適切なトレードオフを実現できることを示しました。

定量的な結果

NVOS データセット。研究者たちは、SAM の要件を満たすために、NVOS データセットによって提供される落書きを処理するために SA3D アプローチを採用しました。結果を以下の表 1 に示します。SAGA は、以前の SOTA 方式である SA3D に匹敵し、ISRF や SGISRF などの以前の特徴シミュレーションベースの方式を大幅に上回り、きめ細かいセグメンテーション品質を実証しています。

SPIn-NeRF データセット。研究者らは、SPIn-NeRF法に従ってラベル伝播評価を実行しました。この方法では、ビューとその真のマスクが指定され、マスクが他のビューに伝播され、マスクのヒントと見なすことができるマスクの精度が確認されます。結果は下の表 2 に示されています。SAGA は、MVSeg および SA3D と同等のパフォーマンスを、わずか 1000 分の 1 の時間で達成します。

SA3Dと比較してください。 SAGA の有効性をさらに実証するために、研究者らはセグメンテーション時間と品質の点で SAGA と SA3D を比較しました。彼らは、LERF フィギュアシーンで SA3D を実行し、多数のオブジェクトに一連の注釈を提供しました。次に、SAGA を使用して同じオブジェクトをセグメント化し、各オブジェクトの IoU と時間コストを調べました。結果は以下の表 3 に示されており、SAGA はより短時間でより高品質の 3D アセットを取得できることを示しています。

定性的な結果

研究者らはまず、SAGA のセグメンテーション精度が以前の SOTA SA3D と同等であり、時間コストが大幅に削減されていることを確認しました。そして、SAGA がパーツとオブジェクトの両方のセグメンテーションタスクで ISRF よりも優れていることを実証しました。結果は図3に示されています。

最初の行は、LERFフィギュアシーンのSA3DとSAGAのセグメンテーション結果を示しており、各セグメント化されたオブジェクトの右下にセグメンテーション時間がマークされています。2行目は、SAGAとISRFを比較したものです。ISRFは、自己教師あり視覚変換器（DINO [4]など）によって抽出された2D特徴を模倣して特徴フィールドをトレーニングします。3行目は、MIP360カウンターとT＆Tトラックシーンのその他のセグメンテーション結果を示しています。

表 2 には失敗例がいくつかあり、SAGA のパフォーマンスは従来の SOTA 方式と比較して満足できるものではありません。これは、LLFF 部屋のシーンのセグメンテーションが失敗し、SAGA の限界が露呈したためです。図 4 は、点群として表示できる色付きのガウス平均を示しています。SAGA は、3DGS モデルの不適切な幾何学的再構築の影響を受けやすいです。

より詳しい技術的な詳細と実験結果については、原著論文をお読みください。

<<: 人間の学習を模倣した、データセット拡張の新しいパラダイム GIF フレームワークが登場

>>: 微調整の必要はありませんか? 3つのサンプル、LLMアライメントを修正するための1つのヒント、エンジニアのヒント：すべて戻る