自動運転 AI に「プラグイン」を与えると、0.1M で動作状態を区別する能力が大幅に向上します (HKU および TCL より) | オープンソース

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

たった「100Kサイズのプラグイン」で、自動運転AIの「物体の動きの状態」を識別する能力を大幅に向上できます！

これは香港大学のコンピュータビジョンおよび機械知能研究所（CVMIラボ）とTCL AIラボによる新しい研究です。この論文はCVPR 2023に掲載されています。

この研究では、 MarS3Dと呼ばれる軽量モデルを提案しました。これは、物体が「何であるか」しか認識できないセマンティックセグメンテーションモデルで使用でき、これらの物体が「動いている」かどうかを認識できるようにさらに学習することができます。

さらに、主流のモデルとプラグアンドプレイで接続でき、追加の計算能力はほとんど必要ありません（推論時間は 0.03 秒未満しか増加しません）。現在はオープンソースです。

周囲の環境を判断するために LiDAR に依存する自動運転システムの場合、その認識能力は 3D ポイントクラウドセマンティックセグメンテーションモデルの精度と効率に大きく依存することを知っておく必要があります。

モデルの「移動物体」識別能力を向上させたい場合、多くの場合、屋外の大量のマルチフレームポイントクラウドデータを個別に抽出して処理する必要があります。ただし、この方法では計算量が大幅に増加するだけでなく、認識性能もそれほど向上しません。実際には、2倍の労力で半分の結果しか得られません。

比較すると、MarS3D には約 10 万個のパラメータしかありませんが、主流のポイントクラウドセグメンテーションモデルのパフォーマンスを5% 近く向上させることができます。

これはどうやって行うのですか?

10万個のパラメータにより、モデルは「動く」物体を認識することを学習できる。

まず、3D ポイントクラウドの 2 つのセマンティックセグメンテーションタスク、シングルスキャンとマルチスキャンを理解する必要があります。

これら 2 つの方法の主な違いは、オブジェクトの運動状態を区別できるかどうかにあります。

1 回のスキャンタスクでは、1 つのフレームポイントクラウドに基づいて、シーン内の車、歩行者、道路などのセマンティック情報をセグメント化してラベル付けするだけで済みます。下の図に示すように、異なる色は異なるオブジェクトを表します。たとえば、青い点群は車を表します。

マルチスキャンタスクでは、時系列のマルチフレームポイントクラウドに基づいて、意味情報と動作状態を同時にセグメント化する必要があります。

言い換えれば、車、歩行者、道路を区別することを学ぶだけでなく、これらの物体が動いているかどうかも認識する必要があります。たとえば、車のラベルは「動いている車」と「止まっている車」に拡張され、歩行者のラベルは「動いている歩行者」と「止まっている歩行者」に拡張されます。

現在、自動運転用のLIDAR点群データの処理は、主にシングルスキャンセマンティックセグメンテーション方式によって行われています。

ラベルを拡張し、点群データを融合することで、シングルスキャンモデルをマルチスキャンモデルに直接トレーニングし、AIが物体の運動状態を識別する能力を習得することは可能ですが、2つの問題があります。

1 つはパフォーマンスが平均的であることです。もう 1 つは、融合されたポイントクラウドデータの量が多いため、モデルが複雑になり、計算時間が長くなり、「時間との競争」の自動運転システムにはまったく受け入れられないことです。

これら 2 つの問題を解決し、セマンティックセグメンテーションモデルが「動く物体」を識別する方法を迅速かつ効果的に習得できるようにするために、MarS3D が誕生しました。

以前のモデルではシングルスキャンのセマンティックセグメンテーションしか実行できませんでしたが、MarS3D を追加すると、マルチスキャンのセマンティックセグメンテーション機能が大幅に向上し、オブジェクトが「動いている」かどうかを区別できるだけでなく、他のマルチスキャン方法よりも優れた結果を達成できます。

それで、MarS3Dの核となるアイデアは何でしょうか?

具体的には、2D CNN ネットワークに基づいてブランチBEV ブランチを設計します。このモデルは、ポイントクラウドデータ変換の BEV (Bird's Eye View)表現、つまりトップダウンの鳥瞰図を抽出できます。

BEV を選択する主な理由は 2 つあります。

一方、現在移動している物体は基本的に地上を走行しており（空中を飛行している場合でも垂直方向の上昇はほとんどありません）、つまり、ほとんどすべての動きは水平面内での変位を伴うため、ほとんどのシーンの物体の移動状態をよく反映できます。

一方、BEV はポイントクラウドよりもデータ量が少なく、参照フレームと特徴マップを減算することで、ポイントクラウドのスパース性によって生じる表現が不安定になる問題も軽減できます。つまり、同じ静的領域の表現は近似的になり、動的オブジェクトを含む領域の表現距離は遠くなります。さらに、抽出された特徴マップを表現するためにマルチサイズの畳み込みが使用され、モデルが異なる移動速度を持つオブジェクトを強力に認識できるようになります。

その後、このブランチによって抽出された動作状態情報の特徴は、時間的埋め込みベクトルによって強化された他のシングルスキャンタスクモデルブランチ3D ブランチによって抽出された意味情報の特徴と結合され、特徴融合が実行され、最終的に意味セグメンテーションが達成されます。

では、このようにして実現される 3D ポイントクラウドセマンティックセグメンテーションの効果は何でしょうか?

計算時間は数十ミリ秒で、セグメンテーションのパフォーマンスは5%近く向上します。

この論文では、RGB 画像などの他の入力と組み合わせる場合と比較して、純粋なポイントクラウド入力に対するモデルのセグメンテーション効果のテストに重点を置いています。

下の表からわかるように、SemanticKITTIデータセットの場合、SPVCNN、SparseConv、MinkUNetなどの現在主流のシングルスキャンポイントクラウドセグメンテーションモデルでは、MarS3Dはモデルに0.1Mのみを追加し（パラメータ数は0.5％未満増加）、パフォーマンス（mIoU）をそれぞれ4.96％、5.65％、6.24％向上させます。

同時に、計算時間（レイテンシ）はそれぞれ 19 ミリ秒、14 ミリ秒、28 ミリ秒しか増加しませんでした。

モデルセグメンテーションパフォーマンスの 5% 向上はどの程度重要ですか?次の図は、2 つのスキャンシーンで MarS3D を追加する前と追加した後のモデルの効果を比較したものです。左の写真は追加前、中央の写真は追加後、右の写真は実際の値です。

明らかに、MarS3D を追加した後、モデルはオブジェクトをより適切に認識します。

セグメンテーション効果を真の値と直接比較すると、MarS3D を追加した後の「エラー値」は追加する前よりもはるかに低いことがわかります。

推論プロセス全体を NVIDIA GeForce RTX 3090 GPU 1 つだけで完了できます。

MarS3Dに興味のある友達はぜひ試してみてください〜

プロジェクトアドレス: https://github.com/CVMI-Lab/MarS3D

論文アドレス: https://arxiv.org/abs/2307.09316

<<: AI 対応スマートビルディングの利点は何ですか?

>>: 清華大学の「自然言語プログラミング成果物」が利用可能になりました！ 100以上のプログラミング言語をサポートし、効率性が向上しました