自動運転 AI に「プラグイン」を与えると、0.1M で動作状態を区別する能力が大幅に向上します (HKU および TCL より) | オープンソース

自動運転 AI に「プラグイン」を与えると、0.1M で動作状態を区別する能力が大幅に向上します (HKU および TCL より) | オープンソース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

たった「100Kサイズのプラグイン」で、自動運転AIの「物体の動きの状態」を識別する能力を大幅に向上できます!

これは香港大学のコンピュータビジョンおよび機械知能研究所(CVMIラボ)とTCL AIラボによる新しい研究です。この論文はCVPR 2023に掲載されています。

この研究では、 MarS3Dと呼ばれる軽量モデルを提案しました。これは、物体が「何であるか」しか認識できないセマンティックセグメンテーションモデルで使用でき、これらの物体が「動いている」かどうかを認識できるようにさらに学習することができます。

さらに、主流のモデルとプラグアンドプレイで接続でき、追加の計算能力はほとんど必要ありません(推論時間は 0.03 秒未満しか増加しません) 。現在はオープンソースです。

周囲の環境を判断するために LiDAR に依存する自動運転システムの場合、その認識能力は 3D ポイント クラウド セマンティック セグメンテーション モデルの精度と効率に大きく依存することを知っておく必要があります。

モデルの「移動物体」識別能力を向上させたい場合、多くの場合、屋外の大量のマルチフレームポイントクラウドデータを個別に抽出して処理する必要があります。ただし、この方法では計算量が大幅に増加するだけでなく、認識性能もそれほど向上しません。実際には、2倍の労力で半分の結果しか得られません。

比較すると、MarS3D には約 10 万個のパラメータしかありませんが、主流のポイント クラウド セグメンテーション モデルのパフォーマンスを5% 近く向上させることができます。

これはどうやって行うのですか?

10万個のパラメータにより、モデルは「動く」物体を認識することを学習できる。

まず、3D ポイント クラウドの 2 つのセマンティック セグメンテーション タスク、シングル スキャンマルチ スキャンを理解する必要があります。

これら 2 つの方法の主な違いは、オブジェクトの運動状態を区別できるかどうかにあります。

1 回のスキャンタスクでは、1 つのフレーム ポイント クラウドに基づいて、シーン内の車、歩行者、道路などのセマンティック情報をセグメント化してラベル付けするだけで済みます。下の図に示すように、異なる色は異なるオブジェクトを表します。たとえば、青い点群は車を表します。

マルチスキャンタスクでは、時系列のマルチフレームポイントクラウドに基づいて、意味情報と動作状態を同時にセグメント化する必要があります。

言い換えれば、車、歩行者、道路を区別することを学ぶだけでなく、これらの物体が動いているかどうかも認識する必要があります。たとえば、車のラベルは「動いている車」と「止まっている車」に拡張され、歩行者のラベルは「動いている歩行者」と「止まっている歩行者」に拡張されます。

現在、自動運転用のLIDAR点群データの処理は、主にシングルスキャンセマンティックセグメンテーション方式によって行われています。

ラベルを拡張し、点群データを融合することで、シングルスキャンモデルをマルチスキャンモデルに直接トレーニングし、AIが物体の運動状態を識別する能力を習得することは可能ですが、2つの問題があります。

1 つはパフォーマンスが平均的であることです。もう 1 つは、融合されたポイント クラウド データの量が多いため、モデルが複雑になり、計算時間が長くなり、「時間との競争」の自動運転システムにはまったく受け入れられないことです。

これら 2 つの問題を解決し、セマンティック セグメンテーション モデルが「動く物体」を識別する方法を迅速かつ効果的に習得できるようにするために、MarS3D が誕生しました。

以前のモデルではシングルスキャンのセマンティックセグメンテーションしか実行できませんでしたが、MarS3D を追加すると、マルチスキャンのセマンティックセグメンテーション機能が大幅に向上し、オブジェクトが「動いている」かどうかを区別できるだけでなく、他のマルチスキャン方法よりも優れた結果を達成できます。

それで、MarS3Dの核となるアイデアは何でしょうか?

具体的には、2D CNN ネットワークに基づいてブランチBEV ブランチを設計します。このモデルは、ポイント クラウド データ変換の BEV (Bird's Eye View)表現、つまりトップダウンの鳥瞰図を抽出できます。

BEV を選択する主な理由は 2 つあります。

一方、現在移動している物体は基本的に地上を走行しており(空中を飛行している場合でも垂直方向の上昇はほとんどありません) 、つまり、ほとんどすべての動きは水平面内での変位を伴うため、ほとんどのシーンの物体の移動状態をよく反映できます。

一方、BEV はポイント クラウドよりもデータ量が少なく、参照フレームと特徴マップを減算することで、ポイント クラウドのスパース性によって生じる表現が不安定になる問題も軽減できます。つまり、同じ静的領域の表現は近似的になり、動的オブジェクトを含む領域の表現距離は遠くなります。さらに、抽出された特徴マップを表現するためにマルチサイズの畳み込みが使用され、モデルが異なる移動速度を持つオブジェクトを強力に認識できるようになります。

その後、このブランチによって抽出された動作状態情報の特徴は、時間的埋め込みベクトルによって強化された他のシングルスキャンタスクモデルブランチ3D ブランチによって抽出された意味情報の特徴と結合され、特徴融合が実行され、最終的に意味セグメンテーションが達成されます。

では、このようにして実現される 3D ポイント クラウド セマンティック セグメンテーションの効果は何でしょうか?

計算時間は数十ミリ秒で、セグメンテーションのパフォーマンスは5%近く向上します。

この論文では、RGB 画像などの他の入力と組み合わせる場合と比較して、純粋なポイント クラウド入力に対するモデルのセグメンテーション効果のテストに重点を置いています。

下の表からわかるように、SemanticKITTIデータセットの場合、SPVCNN、SparseConv、MinkUNetなどの現在主流のシングルスキャンポイントクラウドセグメンテーションモデルでは、MarS3Dはモデルに0.1Mのみを追加し(パラメータ数は0.5%未満増加) 、パフォーマンス(mIoU)をそれぞれ4.96%、5.65%、6.24%向上させます。

同時に、計算​​時間(レイテンシ)はそれぞれ 19 ミリ秒、14 ミリ秒、28 ミリ秒しか増加しませんでした。

モデルセグメンテーションパフォーマンスの 5% 向上はどの程度重要ですか?次の図は、2 つのスキャン シーンで MarS3D を追加する前と追加した後のモデルの効果を比較したものです。左の写真は追加前、中央の写真は追加後、右の写真は実際の値です。

明らかに、MarS3D を追加した後、モデルはオブジェクトをより適切に認識します。

セグメンテーション効果を真の値と直接比較すると、MarS3D を追加した後の「エラー値」は追加する前よりもはるかに低いことがわかります。

推論プロセス全体を NVIDIA GeForce RTX 3090 GPU 1 つだけで完了できます。

MarS3Dに興味のある友達はぜひ試してみてください〜

プロジェクトアドレス: https://github.com/CVMI-Lab/MarS3D

論文アドレス: https://arxiv.org/abs/2307.09316

<<:  AI 対応スマート ビルディングの利点は何ですか?

>>:  清華大学の「自然言語プログラミング成果物」が利用可能になりました! 100以上のプログラミング言語をサポートし、効率性が向上しました

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能とは何ですか?

人工知能とは何か人工知能(AI)の誕生以来、その定義と意味合いは議論の的となってきました。文字通り、...

趙傑:面接では(純粋な)アルゴリズムの質問が見られる

今朝、外出中に、タブレットでZuo Erduo Haoziの新しい記事「純粋アルゴリズムの面接の質問...

データ構造とアルゴリズム: グラフ構造

写真グラフ構造は、ツリー構造よりも複雑な非線形構造です。ツリー構造では、ノード間に分岐階層関係があり...

ワークスペースデザインの未来: AI、3Dウォークスルー、リアルタイムコラボレーション

過去 10 年間で、スマート AI ツールの導入により、ワークスペースのデザインは完全に変化しました...

...

企業がAIアプリケーションの成功を測定する方法

AI を従来のソフトウェアと区別する基本的な特徴は、非決定性です。同じ入力であっても、計算のラウンド...

Wolfram言語の父: ChatGPT は何ができるのか?

写真ChatGPT は非常に人気が高まり、人間の働き方や考え方さえも変え始めています。それを十分に理...

...

機械翻訳:人工知能分野の重要な中核技術

近年、機械翻訳 (MT) は大きな進歩を遂げ、満足のいく成果を達成しました。 MT は人工知能分野の...

...

...

競争相手に差をつけるための機械学習プロジェクトのアイデア 8 つ

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

企業の75%が現在ChatGPTを無効化しているか、永久に無効化する予定である。

BlackBerry が発表した新しい調査によると、世界中の組織の 75% が現在、職場での Ch...

顔認証の時代が本当に到来しました。あなたも参加してみませんか?

データによると、顔認識市場の規模は今後数年間、年間約20%の高い成長率を維持すると予想されています。...