オックスフォードの中国人が「3D-BoNet」を提案しました。これは、3D ポイントクラウドインスタンスセグメンテーションアルゴリズムよりも 10 倍高速です。

[[286342]]

本論文では、バウンディングボックス回帰に基づく効率的なポイントクラウドインスタンスセグメンテーションアルゴリズムを提案します。このアルゴリズムは、関連するコスト関数を最小化することで近似バウンディングボックス回帰を実現し、ポイントマスク予測を通じて最終的なインスタンスセグメンテーションを実現します。 3D-BoNet は、ScanNet および S3DIS データセットで最先端の結果を達成するだけでなく、現在のほとんどのアルゴリズムよりも 10 倍以上高速です。

導入

効果的な 3D シーン理解を実現することは、コンピュータービジョンと人工知能の分野における重要な課題の 1 つです。近年、3D ポイントクラウドの理解に関する研究は大きな進歩を遂げており、ポイントクラウドオブジェクトの検出やセマンティックセグメンテーションなどのタスクで非常に優れた結果を示しています。ただし、ポイントクラウドインスタンスのセグメンテーションに関する研究はまだ初期段階にあります。

モチベーション

下の図に示すように、現在主流のポイントクラウドインスタンスセグメンテーションアルゴリズムは、次の2つのカテゴリに分けられます。1) 3D-SIS[1]やGSPN[2]などの提案ベースの方法。これらの方法は通常、2段階のトレーニングと高価な非最大抑制(NMS)操作に依存して、密な提案を選択します。 2) SGPN[3]、ASIS[4]、JSIS3D[5]、MASC[6]、3D-BEVIS[7]などの提案フリー手法このタイプのアルゴリズムの中心的な考え方は、各ポイントの識別特徴埋め込みを学習し、平均シフトなどのクラスタリング手法を使用して、同じインスタンスのポイントをグループ化することです。このタイプの方法の問題点は、最終的にクラスター化されたインスタンスのオブジェクト性が低いことです。さらに、このような方法では、後処理ステップにかかる時間コストが通常高くなります。

図1. 現在主流のポイントクラウドインスタンスセグメンテーションアルゴリズムの比較

上記の 2 つの方法とは異なり、境界ボックス回帰 (3D-BoNet) に基づく、単一ステージ、アンカーフリー、エンドツーエンドのインスタンスセグメンテーションアルゴリズムを提案します。このアルゴリズムには以下の利点がある

提案のない方法と比較して、3D-BoNet はターゲットの境界ボックスを明示的に予測するため、最終的に学習されたインスタンスのオブジェクト性が向上します。
提案ベースの方法と比較して、3D-BoNet では、領域提案ネットワークや ROIAlign などの複雑で時間のかかる操作が不要であるため、NMS などの後処理手順も必要ありません。
3D-BoNet は非常に効率的な共有 MLP で構成されており、非最大抑制、特徴サンプリング、クラスタリング、投票などの後処理手順を必要としないため、非常に効率的です。

概要

3D-BoNet の全体的なフレームワークを下図に示します。これは主に、インスタンスレベルの境界ボックス予測とポイントレベルのマスク予測の 2 つのブランチで構成されています。名前が示すように、バウンディングボックス予測ブランチは、ポイントクラウド内の各インスタンスのバウンディングボックスを予測するために使用され、マスク予測ブランチは、バウンディングボックス内のポイントがインスタンスに属しているか背景に属しているかをさらに区別するために、バウンディングボックス内のポイントのマスクを予測するために使用されます。

図2. 3D-BoNetの全体フレームワーク

これを見ると、提案ベースのフレームワークと何ら変わらないのではと混乱するかもしれません。

まず結論から言うと、大きな違いがあります。しかし、問題はその違いがどこにあるかということです。

まず、提案ベースの方法で境界ボックスがどのように生成されるかを確認しましょう。そうです、領域提案ネットワーク (RPN) を使用して、アンカーに基づいて多数の密な境界ボックスを生成し、さらにそれらを改良します。しかし、これは明らかに効率が悪く、これほど多くの密な境界ボックスを生成することが本当に必要なのでしょうか?この問題に対処するために、大胆な仮定を立てることができます。RPN を使用して、各インスタンスに対して一意ではあるが、それほど正確ではない可能性のある境界ボックスを直接回帰してみてはどうでしょうか (図 3 を参照)。

図3. 各インスタンスの大まかな境界ボックスを回帰する例

3D ポイントクラウド自体に各オブジェクトの幾何学的情報が明示的に含まれていることを考慮すると、この目標は実現可能であると考えられます。次に、もっと大胆に、グローバル機能を使用して各インスタンスの境界ボックスを回帰してみましょう。これができれば、問題の半分は解決するのではないでしょうか?

しかし、すぐに新たな問題が発生しました。。まず、各 3D シーンに含まれるインスタンスの数が異なり (ネットワークが適応的に異なる数の境界ボックスを出力するようにするにはどうすればよいでしょうか)、各ポイントクラウド内のインスタンスはまだ順序が異なります。これは、ネットワークを使用して一連のバウンディングボックスを回帰したとしても、これらのバウンディングボックスをグラウンドトゥルースのバウンディングボックスと 1 つずつリンクすることが難しいことを意味します。さらに問題となるのは、ネットワークの教師ありトレーニングと最適化を実現できないことです。

この時点で、核となる疑問は、「この種のネットワークをどのようにトレーニングすればよいのか」ということになります。

この問題に対処するために、ネットワークをトレーニングするための境界ボックス関連付けレイヤーと多基準損失関数を提案します。言い換えれば、予測された境界ボックスを実際の境界ボックスと関連付ける (ペアリングする) 問題を、最適な割り当て問題としてモデル化したいのです。

図4. バウンディングボックス予測ブランチの構造図

どのように関連付けますか?

ネットワークによって予測された各境界ボックスを実際の境界ボックスと一意に関連付けるために、これを最適割り当て問題としてモデル化します。番目の予測された境界ボックスが真の境界ボックスに割り当てられる場合にのみ、バイナリ関連インデックスマトリックスであると想定します。は、番目の予測境界ボックスを真の境界ボックスに割り当てる際の関連コストを表す関連コスト行列です。一般的に言えば、2 つの境界ボックス間の一致度を表します。2 つの境界ボックスが一致するほど、コストは小さくなります。したがって、境界ボックスの最適な関連付け問題は、最小の総コストを持つ最適な割り当てインデックスマトリックスを見つける問題に変換され、次のように表現できます。

次に、関連コストマトリックスをどのように計算するのでしょうか?

2 つの 3D 境界ボックス間の一致度を測定する最もシンプルで直感的な評価メトリックは、2 つの境界ボックスの最小頂点と最大頂点間のユークリッド距離を比較することです。ただし、図 4 に示すように、ポイントクラウドは通常非常にまばらで 3D 空間に不均一に分布していることを考慮すると、候補ボックス #2 (赤) は候補ボックス #1 (黒) およびグラウンドトゥルース境界ボックス #0 (青) と同じユークリッド距離を持ちますが、ボックス #2 には明らかに有効なポイントが多くあります (重複が多い)。したがって、コストマトリックスを計算するときは、有効なポイントの範囲も考慮する必要があります。

図5. 予測境界ボックスと実際の境界ボックスの点群カバレッジの概略図

この目的のために、私たちは次の 3 つの指標を考慮します。

（１）頂点間のユークリッド距離。たとえば、予測された境界ボックス t を真の境界ボックスに割り当てるコストは次のようになります。

（２）ソフトIoU入力ポイントクラウドとグラウンドトゥルースインスタンスの境界ボックスが与えられると、各ポイントが境界ボックス内にあるかどうかを表すハードバイナリベクトルを直接取得できます。ただし、同じ入力ポイントクラウドの番目の予測ボックスの場合、同様のハードバイナリベクトルを直接取得すると、微分不可能なフレームワークになります。したがって、我々は、類似しているがソフトなバイナリベクトルを取得するために、point-in-pred-box-probability と呼ばれる微分可能だが単純なアルゴリズムを導入します。詳細については、論文「アルゴリズム 1」を参照してください。すべての値はの範囲内にあります。値が大きいほど、点がボックス内にある可能性が高くなり、値が小さいほど、対応する点がボックスから遠くなります。したがって、予測された境界ボックスと真の境界ボックスの sIoU を次のように定義します。

（３）さらに、と間の交差エントロピーも考慮する。クロスエントロピーは、カバレッジの高い、より大きな境界ボックスを生成する傾向があります。

まとめると、指標(1)は学習したボックスを真の境界ボックスとできるだけ重ね合わせようとし、(2)と(3)は図5に示すようにできるだけ多くの点をカバーして不均一性を克服するために使用されます。予測された境界ボックスと実際の境界ボックスの最終的な関連付けコストは次のとおりです。

損失関数をどのように定義するのでしょうか?

境界ボックス関連付けレイヤーを通過した後、関連付けインデックスマトリックスを使用して、予測された境界ボックスとそれに対応するスコアをグラウンドトゥルースと一致させ、最初の境界ボックス (グラウンドトゥルース境界ボックスの合計数) とグラウンドトゥルースの境界ボックスを一致させることができます。

境界ボックスの予測には、次の 3 つの合計である多基準損失関数を使用します。

バウンディングボックススコアの予測には別の損失関数を使用します。予測ボックススコアは、対応する予測ボックスの有効性を特徴付けることを目的としています。関連インデックスマトリックスで並べ替えた後、最初の真の境界ボックスに対応するスコアを 1 に設定し、残りの無効な境界ボックスに対応するスコアを 0 に設定します。この二値分類タスクではクロスエントロピー損失を使用する。

別の並列ブランチとして、我々の方法は、既存のポイントクラウドセマンティックセグメンテーションアルゴリズム（Sparseconv、Pointnet++など）を対応するセマンティックセグメンテーションモジュールとして使用することができます。ネットワーク全体の最終的な損失関数は次のように定義されます。

標準のクロスエントロピーを使用するセマンティックセグメンテーションブランチの損失を表します。具体的なネットワーク最適化と解決プロセスにはハンガリーアルゴリズムを使用します。詳細については[8]、[9]を参照してください。

インスタンスマスクを予測するにはどうすればいいですか?

バウンディングボックス予測ブランチと比較すると、このブランチは比較的単純です。バウンディングボックス予測が十分に優れている限り、このブランチはバイナリ分類問題を実行することと同等であり、盲目的な推測でも 50% の精度が得られるからです。このブランチでは、ポイントレベルのランドマークを各境界ボックスとスコアに融合し、各インスタンスのポイントレベルのバイナリマスクを予測します。背景点とインスタンス点の不均衡を考慮して、焦点損失[10]を使用してこの分岐を最適化します。

図6. ポイントマスク予測の分岐構造図。

実験

ScanNet(v2)ベンチマークでは、当社の方法は最先端の結果を達成し、3D-SIS、MASC、およびその他の方法に比べて大幅に改善されています。

図7. ScanNet(V2)における当手法の結果

アブレーション研究では、損失関数の各ブランチと各評価指標の役割もさらに確認しました。詳細な分析については論文を参照してください。

図8.アブレーション研究結果（S3DIS、エリア5）

計算効率の面では、3D-BoNet は現在最も高速な方法です。SGPN、ASIS、3D-SIS などの方法と比較すると、3D-BoNet は 10 倍以上高速です。

図 9. ScanNet 検証セットを処理するためにさまざまな方法に必要な時間。

さらに、図 10 には、S3DIS データセット (トレーニング用に領域 1、2、3、4、6、テスト用に領域 5) でトレーニングしたときの、提案された損失関数の変化曲線も示されています。図からわかるように、私たちが提案した損失関数はより一貫して収束することができ、それによってセマンティックセグメンテーションブランチ、バウンディングボックス予測ブランチ、およびポイントマスク予測ブランチのエンドツーエンドの最適化を実現できます。

図10. S3DISデータセットにおける本手法のトレーニング損失

図 11 では、予測された境界ボックスと境界ボックススコアを視覚化しています。私たちの方法によって予測されたボックスは、必ずしも非常に正確でコンパクトではないことがわかります。むしろ、それらは比較的包括的であり、客観性が高い。これは、この記事の冒頭で述べたおおよその境界ボックスを取得するという目標とも一致しています。

図 11. S3DIS データセットエリア 2 における当社の手法の予測境界ボックスとスコアの視覚化。赤いボックスは予測された境界ボックスを表し、青いボックスは実際の値を表します。

境界ボックスが予測されると、各ボックス内のポイントマスクを予測するのがはるかに簡単になります。最後に、予測されたインスタンスマスクを視覚化します。黒い点は、このインスタンスに属する確率が 0 に近いことを表し、色付きの点は、このインスタンスに属する確率が 1 に近いことを表します。色が濃いほど、確率が高くなります。

図 12. 予測されたインスタンスマスクの視覚化。入力ポイントクラウドには、椅子 2 脚、テーブル 1 台、地面の合計 4 つのインスタンスが含まれています。左から順に、椅子 #1、椅子 #2、テーブル #1、地面 #2 のポイントマスクです。

要約すると、我々はバウンディングボックス回帰に基づく効率的なポイントクラウドインスタンスセグメンテーションアルゴリズムを提案しました。このアルゴリズムは、マッチングコスト関数を最小化することで近似バウンディングボックス回帰を実現し、ポイントマスク予測を通じて最終的なインスタンスセグメンテーションを実現します。私たちが提案した 3D-BoNet は、ScanNet および S3DIS データセットで最先端の結果を達成するだけでなく、他の既存のアルゴリズムよりも効率的です。

<<: ヘルスケアにおける6つの新たなテクノロジートレンド

>>: シンプルで効率的なアルゴリズムが衛星IoTを現実に近づける