自動運転 AI に「プラグイン」を与えると、0.1M で動作状態を区別する能力が大幅に向上します (HKU および TCL より) | オープンソース

自動運転 AI に「プラグイン」を与えると、0.1M で動作状態を区別する能力が大幅に向上します (HKU および TCL より) | オープンソース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

たった「100Kサイズのプラグイン」で、自動運転AIの「物体の動きの状態」を識別する能力を大幅に向上できます!

これは香港大学のコンピュータビジョンおよび機械知能研究所(CVMIラボ)とTCL AIラボによる新しい研究です。この論文はCVPR 2023に掲載されています。

この研究では、 MarS3Dと呼ばれる軽量モデルを提案しました。これは、物体が「何であるか」しか認識できないセマンティックセグメンテーションモデルで使用でき、これらの物体が「動いている」かどうかを認識できるようにさらに学習することができます。

さらに、主流のモデルとプラグアンドプレイで接続でき、追加の計算能力はほとんど必要ありません(推論時間は 0.03 秒未満しか増加しません) 。現在はオープンソースです。

周囲の環境を判断するために LiDAR に依存する自動運転システムの場合、その認識能力は 3D ポイント クラウド セマンティック セグメンテーション モデルの精度と効率に大きく依存することを知っておく必要があります。

モデルの「移動物体」識別能力を向上させたい場合、多くの場合、屋外の大量のマルチフレームポイントクラウドデータを個別に抽出して処理する必要があります。ただし、この方法では計算量が大幅に増加するだけでなく、認識性能もそれほど向上しません。実際には、2倍の労力で半分の結果しか得られません。

比較すると、MarS3D には約 10 万個のパラメータしかありませんが、主流のポイント クラウド セグメンテーション モデルのパフォーマンスを5% 近く向上させることができます。

これはどうやって行うのですか?

10万個のパラメータにより、モデルは「動く」物体を認識することを学習できる。

まず、3D ポイント クラウドの 2 つのセマンティック セグメンテーション タスク、シングル スキャンマルチ スキャンを理解する必要があります。

これら 2 つの方法の主な違いは、オブジェクトの運動状態を区別できるかどうかにあります。

1 回のスキャンタスクでは、1 つのフレーム ポイント クラウドに基づいて、シーン内の車、歩行者、道路などのセマンティック情報をセグメント化してラベル付けするだけで済みます。下の図に示すように、異なる色は異なるオブジェクトを表します。たとえば、青い点群は車を表します。

マルチスキャンタスクでは、時系列のマルチフレームポイントクラウドに基づいて、意味情報と動作状態を同時にセグメント化する必要があります。

言い換えれば、車、歩行者、道路を区別することを学ぶだけでなく、これらの物体が動いているかどうかも認識する必要があります。たとえば、車のラベルは「動いている車」と「止まっている車」に拡張され、歩行者のラベルは「動いている歩行者」と「止まっている歩行者」に拡張されます。

現在、自動運転用のLIDAR点群データの処理は、主にシングルスキャンセマンティックセグメンテーション方式によって行われています。

ラベルを拡張し、点群データを融合することで、シングルスキャンモデルをマルチスキャンモデルに直接トレーニングし、AIが物体の運動状態を識別する能力を習得することは可能ですが、2つの問題があります。

1 つはパフォーマンスが平均的であることです。もう 1 つは、融合されたポイント クラウド データの量が多いため、モデルが複雑になり、計算時間が長くなり、「時間との競争」の自動運転システムにはまったく受け入れられないことです。

これら 2 つの問題を解決し、セマンティック セグメンテーション モデルが「動く物体」を識別する方法を迅速かつ効果的に習得できるようにするために、MarS3D が誕生しました。

以前のモデルではシングルスキャンのセマンティックセグメンテーションしか実行できませんでしたが、MarS3D を追加すると、マルチスキャンのセマンティックセグメンテーション機能が大幅に向上し、オブジェクトが「動いている」かどうかを区別できるだけでなく、他のマルチスキャン方法よりも優れた結果を達成できます。

それで、MarS3Dの核となるアイデアは何でしょうか?

具体的には、2D CNN ネットワークに基づいてブランチBEV ブランチを設計します。このモデルは、ポイント クラウド データ変換の BEV (Bird's Eye View)表現、つまりトップダウンの鳥瞰図を抽出できます。

BEV を選択する主な理由は 2 つあります。

一方、現在移動している物体は基本的に地上を走行しており(空中を飛行している場合でも垂直方向の上昇はほとんどありません) 、つまり、ほとんどすべての動きは水平面内での変位を伴うため、ほとんどのシーンの物体の移動状態をよく反映できます。

一方、BEV はポイント クラウドよりもデータ量が少なく、参照フレームと特徴マップを減算することで、ポイント クラウドのスパース性によって生じる表現が不安定になる問題も軽減できます。つまり、同じ静的領域の表現は近似的になり、動的オブジェクトを含む領域の表現距離は遠くなります。さらに、抽出された特徴マップを表現するためにマルチサイズの畳み込みが使用され、モデルが異なる移動速度を持つオブジェクトを強力に認識できるようになります。

その後、このブランチによって抽出された動作状態情報の特徴は、時間的埋め込みベクトルによって強化された他のシングルスキャンタスクモデルブランチ3D ブランチによって抽出された意味情報の特徴と結合され、特徴融合が実行され、最終的に意味セグメンテーションが達成されます。

では、このようにして実現される 3D ポイント クラウド セマンティック セグメンテーションの効果は何でしょうか?

計算時間は数十ミリ秒で、セグメンテーションのパフォーマンスは5%近く向上します。

この論文では、RGB 画像などの他の入力と組み合わせる場合と比較して、純粋なポイント クラウド入力に対するモデルのセグメンテーション効果のテストに重点を置いています。

下の表からわかるように、SemanticKITTIデータセットの場合、SPVCNN、SparseConv、MinkUNetなどの現在主流のシングルスキャンポイントクラウドセグメンテーションモデルでは、MarS3Dはモデルに0.1Mのみを追加し(パラメータ数は0.5%未満増加) 、パフォーマンス(mIoU)をそれぞれ4.96%、5.65%、6.24%向上させます。

同時に、計算​​時間(レイテンシ)はそれぞれ 19 ミリ秒、14 ミリ秒、28 ミリ秒しか増加しませんでした。

モデルセグメンテーションパフォーマンスの 5% 向上はどの程度重要ですか?次の図は、2 つのスキャン シーンで MarS3D を追加する前と追加した後のモデルの効果を比較したものです。左の写真は追加前、中央の写真は追加後、右の写真は実際の値です。

明らかに、MarS3D を追加した後、モデルはオブジェクトをより適切に認識します。

セグメンテーション効果を真の値と直接比較すると、MarS3D を追加した後の「エラー値」は追加する前よりもはるかに低いことがわかります。

推論プロセス全体を NVIDIA GeForce RTX 3090 GPU 1 つだけで完了できます。

MarS3Dに興味のある友達はぜひ試してみてください〜

プロジェクトアドレス: https://github.com/CVMI-Lab/MarS3D

論文アドレス: https://arxiv.org/abs/2307.09316

<<:  AI 対応スマート ビルディングの利点は何ですか?

>>:  清華大学の「自然言語プログラミング成果物」が利用可能になりました! 100以上のプログラミング言語をサポートし、効率性が向上しました

ブログ    
ブログ    
ブログ    

推薦する

人工知能とモノのインターネット:スマートシティの交通管理

今日のスマート シティは、都市部を再形成する高度なテクノロジーによって推進されています。人工知能とモ...

ディープラーニングをすぐに始められる、やりがいのあるプロジェクト18選

AlphaGoとイ・セドルの戦いの後、ディープラーニング技術は国内で非常に人気が高まった。多くの技術...

アルコールで動く88mgのマイクロロボットは2時間連続稼働可能

マイクロロボットは極めて狭い空間でも移動できますが、これは人間や従来のロボットでは不可能なことです。...

将来、音声認識はどのような商業シナリオに適用される可能性がありますか?

Companies and Markets の評価レポートでは、世界の音声認識市場は今後さらに多様...

人工知能の次の転換点: グラフニューラルネットワークが急速な爆発の時代を先導する

01 GNN: アーリーアダプターから急成長へ今年以来、グラフニューラルネットワーク (GNN) 技...

AIに人間の思考や行動を模倣させる方法

AI システムは、人間の知能の特定の側面を模倣し、物体の検出、環境のナビゲーション、チェスのプレイ、...

ネットワークデータセキュリティ管理に関する新たな規制が導入される

顔は機密性の高い個人情報です。一度漏洩すると、個人や財産の安全に大きな損害を与え、公共の安全を脅かす...

TensorFlow ワイド&ディープラーニングチュートリアル

[[211918]]この記事では、TF.Learn API を使用して、ワイド線形モデルとディープ ...

ブリッジで人間の世界チャンピオン8人が全員AIに負ける

最近、人工知能(AI)が再び人間に勝利しました。今回、人工知能はチェッカーやチェス、囲碁をプレイせず...

AIが人々の職場復帰を支援:重慶の音声ロボット、北京の無人配達、広州の顔認識体温測定

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能によるデータ管理の変革

企業は人工知能 (AI) を適用する新しい方法を見つけています。 AI プロジェクトの主な障害の 1...

毛沢東選集と魯迅全集をAIに与えたところ、AIが書いた大学入試のエッセイは非常に適切だった。

[[407658]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...

2頭のアルパカが頭と尻尾を切り落とし、それをくっつけてハギングフェイスリストのトップに

HuggingFace が再びオープンソースの大規模モデルのリストのトップに躍り出ました。最前列は、...