オックスフォードの中国人が「3D-BoNet」を提案しました。これは、3D ポイント クラウド インスタンス セグメンテーション アルゴリズムよりも 10 倍高速です。

オックスフォードの中国人が「3D-BoNet」を提案しました。これは、3D ポイント クラウド インスタンス セグメンテーション アルゴリズムよりも 10 倍高速です。

[[286342]]

本論文では、バウンディング ボックス回帰に基づく効率的なポイント クラウド インスタンス セグメンテーション アルゴリズムを提案します。このアルゴリズムは、関連するコスト関数を最小化することで近似バウンディング ボックス回帰を実現し、ポイント マスク予測を通じて最終的なインスタンス セグメンテーションを実現します。 3D-BoNet は、ScanNet および S3DIS データセットで最先端の結果を達成するだけでなく、現在のほとんどのアルゴリズムよりも 10 倍以上高速です。

導入

効果的な 3D シーン理解を実現することは、コンピューター ビジョンと人工知能の分野における重要な課題の 1 つです。近年、3D ポイント クラウドの理解に関する研究は大きな進歩を遂げており、ポイント クラウド オブジェクトの検出やセマンティック セグメンテーションなどのタスクで非常に優れた結果を示しています。ただし、ポイント クラウド インスタンスのセグメンテーションに関する研究はまだ初期段階にあります。

モチベーション

下の図に示すように、現在主流のポイントクラウドインスタンスセグメンテーションアルゴリズムは、次の2つのカテゴリに分けられます。1) 3D-SIS[1]やGSPN[2]などの提案ベースの方法。これらの方法は通常、2段階のトレーニングと高価な非最大抑制(NMS)操作に依存して、密な提案を選択します。 2) SGPN[3]、ASIS[4]、JSIS3D[5]、MASC[6]、3D-BEVIS[7]などの提案フリー手法このタイプのアルゴリズムの中心的な考え方は、各ポイントの識別特徴埋め込みを学習し、平均シフトなどのクラスタリング手法を使用して、同じインスタンスのポイントをグループ化することです。このタイプの方法の問題点は、最終的にクラスター化されたインスタンスのオブジェクト性が低いことです。さらに、このような方法では、後処理ステップにかかる時間コストが通常高くなります。

図1. 現在主流のポイントクラウドインスタンスセグメンテーションアルゴリズムの比較

上記の 2 つの方法とは異なり、境界ボックス回帰 (3D-BoNet) に基づく、単一ステージ、アンカーフリー、エンドツーエンドのインスタンス セグメンテーション アルゴリズムを提案します。このアルゴリズムには以下の利点がある

  • 提案のない方法と比較して、3D-BoNet はターゲットの境界ボックスを明示的に予測するため、最終的に学習されたインスタンスのオブジェクト性が向上します。
  • 提案ベースの方法と比較して、3D-BoNet では、領域提案ネットワークや ROIAlign などの複雑で時間のかかる操作が不要であるため、NMS などの後処理手順も必要ありません。
  • 3D-BoNet は非常に効率的な共有 MLP で構成されており、非最大抑制、特徴サンプリング、クラスタリング、投票などの後処理手順を必要としないため、非常に効率的です。

概要

3D-BoNet の全体的なフレームワークを下図に示します。これは主に、インスタンス レベルの境界ボックス予測とポイント レベルのマスク予測の 2 つのブランチで構成されています。名前が示すように、バウンディング ボックス予測ブランチは、ポイント クラウド内の各インスタンスのバウンディング ボックスを予測するために使用され、マスク予測ブランチは、バウンディング ボックス内のポイントがインスタンスに属しているか背景に属しているかをさらに区別するために、バウンディング ボックス内のポイントのマスクを予測するために使用されます。

図2. 3D-BoNetの全体フレームワーク

これを見ると、提案ベースのフレームワークと何ら変わらないのではと混乱するかもしれません。

まず結論から言うと、大きな違いがあります。しかし、問題はその違いがどこにあるかということです。

まず、提案ベースの方法で境界ボックスがどのように生成されるかを確認しましょう。そうです、領域提案ネットワーク (RPN) を使用して、アンカーに基づいて多数の密な境界ボックスを生成し、さらにそれらを改良します。しかし、これは明らかに効率が悪く、これほど多くの密な境界ボックスを生成することが本当に必要なのでしょうか?この問題に対処するために、大胆な仮定を立てることができます。RPN を使用して、各インスタンスに対して一意ではあるが、それほど正確ではない可能性のある境界ボックスを直接回帰してみてはどうでしょうか (図 3 を参照)。

図3. 各インスタンスの大まかな境界ボックスを回帰する例

3D ポイント クラウド自体に各オブジェクトの幾何学的情報が明示的に含まれていることを考慮すると、この目標は実現可能であると考えられます。次に、もっと大胆に、グローバル機能を使用して各インスタンスの境界ボックスを回帰してみましょう。これができれば、問題の半分は解決するのではないでしょうか?

しかし、すぐに新たな問題が発生しました。 。まず、各 3D シーンに含まれるインスタンスの数が異なり (ネットワークが適応的に異なる数の境界ボックスを出力するようにするにはどうすればよいでしょうか)、各ポイント クラウド内のインスタンスはまだ順序が異なります。これは、ネットワークを使用して一連のバウンディング ボックスを回帰したとしても、これらのバウンディング ボックスをグラウンド トゥルースのバウンディング ボックスと 1 つずつリンクすることが難しいことを意味します。さらに問題となるのは、ネットワークの教師ありトレーニングと最適化を実現できないことです。

この時点で、核となる疑問は、「この種のネットワークをどのようにトレーニングすればよいのか」ということになります。

この問題に対処するために、ネットワークをトレーニングするための境界ボックス関連付けレイヤーと多基準損失関数を提案します。言い換えれば、予測された境界ボックスを実際の境界ボックスと関連付ける (ペアリングする) 問題を、最適な割り当て問題としてモデル化したいのです。

図4. バウンディングボックス予測ブランチの構造図

どのように関連付けますか?

ネットワークによって予測された各境界ボックスを実際の境界ボックスと一意に関連付けるために、これを最適割り当て問題としてモデル化します。番目の予測された境界ボックスが真の境界ボックスに割り当てられる場合にのみ、バイナリ関連インデックス マトリックスであると想定します。 は、番目の予測境界ボックスを真の境界ボックスに割り当てる際の関連コストを表す関連コスト行列です。一般的に言えば、2 つの境界ボックス間の一致度を表します。2 つの境界ボックスが一致するほど、コストは小さくなります。したがって、境界ボックスの最適な関連付け問題は、最小の総コストを持つ最適な割り当てインデックス マトリックスを見つける問題に変換され、次のように表現できます。

次に、関連コスト マトリックスをどのように計算するのでしょうか?

2 つの 3D 境界ボックス間の一致度を測定する最もシンプルで直感的な評価メトリックは、2 つの境界ボックスの最小頂点と最大頂点間のユークリッド距離を比較することです。ただし、図 4 に示すように、ポイント クラウドは通常非常にまばらで 3D 空間に不均一に分布していることを考慮すると、候補ボックス #2 (赤) は候補ボックス #1 (黒) およびグラウンド トゥルース境界ボックス #0 (青) と同じユークリッド距離を持ちますが、ボックス #2 には明らかに有効なポイントが多くあります (重複が多い)。したがって、コスト マトリックスを計算するときは、有効なポイントの範囲も考慮する必要があります。

図5. 予測境界ボックスと実際の境界ボックスの点群カバレッジの概略図

この目的のために、私たちは次の 3 つの指標を考慮します。

(1)頂点間のユークリッド距離。たとえば、予測された境界ボックス t を真の境界ボックスに割り当てるコストは次のようになります。

(2)ソフトIoU入力ポイント クラウドとグラウンド トゥルース インスタンスの境界ボックスが与えられると、各ポイントが境界ボックス内にあるかどうかを表すハード バイナリ ベクトルを直接取得できます。ただし、同じ入力ポイント クラウドの 番目の予測ボックスの場合、同様のハード バイナリ ベクトルを直接取得すると、微分不可能なフレームワークになります。したがって、我々は、類似しているがソフトなバイナリ ベクトルを取得するために、point-in-pred-box-probability と呼ばれる微分可能だが単純なアルゴリズムを導入します。詳細については、論文「アルゴリズム 1」を参照してください。 すべての値は の範囲内にあります。値が大きいほど、点がボックス内にある可能性が高くなり、値が小さいほど、対応する点がボックスから遠くなります。したがって、予測された境界ボックスと真の境界ボックスの sIoU を次のように定義します。

(3)さらに、と間の交差エントロピーも考慮する。クロスエントロピーは、カバレッジの高い、より大きな境界ボックスを生成する傾向があります。

まとめると、指標(1)は学習したボックスを真の境界ボックスとできるだけ重ね合わせようとし、(2)と(3)は図5に示すようにできるだけ多くの点をカバーして不均一性を克服するために使用されます。予測された境界ボックスと実際の境界ボックスの最終的な関連付けコストは次のとおりです。

損失関数をどのように定義するのでしょうか?

境界ボックス関連付けレイヤーを通過した後、関連付けインデックス マトリックスを使用して、予測された境界ボックスとそれに対応するスコアをグラウンドトゥルースと一致させ、最初の境界ボックス (グラウンドトゥルース境界ボックスの合計数) とグラウンドトゥルースの境界ボックスを一致させることができます。

境界ボックスの予測には、次の 3 つの合計である多基準損失関数を使用します。

バウンディング ボックス スコアの予測には別の損失関数を使用します。予測ボックス スコアは、対応する予測ボックスの有効性を特徴付けることを目的としています。関連インデックス マトリックスで並べ替えた後、最初の真の境界ボックスに対応するスコアを 1 に設定し、残りの無効な境界ボックスに対応するスコアを 0 に設定します。この二値分類タスクではクロスエントロピー損失を使用する。

別の並列ブランチとして、我々の方法は、既存のポイントクラウドセマンティックセグメンテーションアルゴリズム(Sparseconv、Pointnet++など)を対応するセマンティックセグメンテーションモジュールとして使用することができます。ネットワーク全体の最終的な損失関数は次のように定義されます。

標準のクロスエントロピーを使用するセマンティックセグメンテーションブランチの損失を表します。具体的なネットワーク最適化と解決プロセスにはハンガリーアルゴリズムを使用します。詳細については[8]、[9]を参照してください。

インスタンスマスクを予測するにはどうすればいいですか?

バウンディング ボックス予測ブランチと比較すると、このブランチは比較的単純です。バウンディング ボックス予測が十分に優れている限り、このブランチはバイナリ分類問題を実行することと同等であり、盲目的な推測でも 50% の精度が得られるからです。このブランチでは、ポイントレベルのランドマークを各境界ボックスとスコアに融合し、各インスタンスのポイントレベルのバイナリマスクを予測します。背景点とインスタンス点の不均衡を考慮して、焦点損失[10]を使用してこの分岐を最適化します。

図6. ポイントマスク予測の分岐構造図。

実験

ScanNet(v2)ベンチマークでは、当社の方法は最先端の結果を達成し、3D-SIS、MASC、およびその他の方法に比べて大幅に改善されています。

図7. ScanNet(V2)における当手法の結果

アブレーション研究では、損失関数の各ブランチと各評価指標の役割もさらに確認しました。詳細な分析については論文を参照してください。

図8.アブレーション研究結果(S3DIS、エリア5)

計算効率の面では、3D-BoNet は現在最も高速な方法です。SGPN、ASIS、3D-SIS などの方法と比較すると、3D-BoNet は 10 倍以上高速です。

図 9. ScanNet 検証セットを処理するためにさまざまな方法に必要な時間。

さらに、図 10 には、S3DIS データセット (トレーニング用に領域 1、2、3、4、6、テスト用に領域 5) でトレーニングしたときの、提案された損失関数の変化曲線も示されています。図からわかるように、私たちが提案した損失関数はより一貫して収束することができ、それによってセマンティックセグメンテーションブランチ、バウンディングボックス予測ブランチ、およびポイントマスク予測ブランチのエンドツーエンドの最適化を実現できます。

図10. S3DISデータセットにおける本手法のトレーニング損失

図 11 では、予測された境界ボックスと境界ボックス スコアを視覚化しています。私たちの方法によって予測されたボックスは、必ずしも非常に正確でコンパクトではないことがわかります。むしろ、それらは比較的包括的であり、客観性が高い。これは、この記事の冒頭で述べたおおよその境界ボックスを取得するという目標とも一致しています。

図 11. S3DIS データセット エリア 2 における当社の手法の予測境界ボックスとスコアの視覚化。赤いボックスは予測された境界ボックスを表し、青いボックスは実際の値を表します。

境界ボックスが予測されると、各ボックス内のポイントマスクを予測するのがはるかに簡単になります。最後に、予測されたインスタンス マスクを視覚化します。黒い点は、このインスタンスに属する確率が 0 に近いことを表し、色付きの点は、このインスタンスに属する確率が 1 に近いことを表します。色が濃いほど、確率が高くなります。

図 12. 予測されたインスタンス マスクの視覚化。入力ポイント クラウドには、椅子 2 脚、テーブル 1 台、地面の合計 4 つのインスタンスが含まれています。左から順に、椅子 #1、椅子 #2、テーブル #1、地面 #2 のポイント マスクです。

要約すると、我々はバウンディング ボックス回帰に基づく効率的なポイント クラウド インスタンス セグメンテーション アルゴリズムを提案しました。このアルゴリズムは、マッチング コスト関数を最小化することで近似バウンディング ボックス回帰を実現し、ポイント マスク予測を通じて最終的なインスタンス セグメンテーションを実現します。私たちが提案した 3D-BoNet は、ScanNet および S3DIS データセットで最先端の結果を達成するだけでなく、他の既存のアルゴリズムよりも効率的です。

<<:  ヘルスケアにおける6つの新たなテクノロジートレンド

>>:  シンプルで効率的なアルゴリズムが衛星IoTを現実に近づける

ブログ    
ブログ    

推薦する

2021年の人工知能トレンドに関する5つの予測

人工知能は人々の生活を変える可能性を秘めた分野です。ヘルスケア、ビジネス、金融、その他の分野での応用...

スタンフォード大学のマニング教授はAAAS特別号に記事を掲載した。「ビッグモデルは画期的な進歩となり、汎用人工知能に期待が寄せられている」

NLP は人工知能を刺激的な新時代へと導きます。現在、人工知能分野で最もホットな話題は、大規模モデ...

ヤン・ルカンは、テンセントのポートレート写真生成が自由にできることを明かした。

今回、ヤン・ルカンが初めて「変わり続ける大物」の仲間入りを果たした。アイアンマンの衣装とかっこいいサ...

今後5年間の産業AIの8つの主要な発展トレンド

ChatGPT と生成型人工知能 (AI) が世間の注目を集めるようになり、突如として世界で最も議論...

インタビュアー: アルゴリズムの時間計算量と空間計算量についてどう思いますか?計算方法は?

[[424483]] 1. はじめにアルゴリズムとは、データを操作し、プログラムの問題を解決するた...

MITが組み立てロボットを開発:将来的には宇宙コロニーを建設できる

2 台のプロトタイプ組み立てロボットが稼働しており、ボクセルと呼ばれる一連の小さなユニットを組み立...

人工知能が巨大な応用価値を生み出す

飛行機搭乗時の「顔スキャン」から無人スーパーマーケットまで、多機能巡回ロボットからスマート医療まで....

人工知能と機械学習技術がビジネス開発を推進

IT リーダーはすでに人工知能と機械学習テクノロジーの恩恵を受けています。最近の調査によると、経済が...

直接的な選好最適化戦略を用いたミストラル7bモデルの微調整

翻訳者|朱 仙中レビュー | Chonglou導入通常、事前トレーニング済みの大規模言語モデル (L...

Python + 機械学習手法を使用した感情分析 (詳細な手順)

辞書マッチングの方法はないのでしょうか?なぜ複数の機械学習方法が必要なのでしょうか?辞書方式と機械学...

OpenAIがChatGPTに「ドラゴン退治のテクニック」を直接教える!公式のヒントエンジニアリングガイドはこちら

Prompt プロジェクトをどのように説明すればよいでしょうか? ChatGPT を初めて使用する初...

わずか数分で 8 文字のパスワードを解読するにはどうすればよいでしょうか?

翻訳者 |ブガッティレビュー | Chonglouセキュリティの専門家は長い間、オンラインアカウント...

人工知能アルゴリズムがバーベキューの香りを再現。ネットユーザー:料理番組を見ながらその香りを嗅ぎますか?

近年、人工肉は急速に発展していますが、本物の肉と比較すると、味や食感にはまだ明らかな差があります。最...

サンダーソフト、AIoT産業・大学・研究のボトルネックを打破するTurboX AI Kit教育実験プラットフォームをリリース

10月12日、世界をリードするインテリジェントオペレーティングシステム製品およびテクノロジープロバイ...

...