PillarNeSt: Pillar ベースの 3D オブジェクト検出のパフォーマンスをさらに向上させるにはどうすればよいでしょうか?

PillarNeSt: Pillar ベースの 3D オブジェクト検出のパフォーマンスをさらに向上させるにはどうすればよいでしょうか?

著者の個人的な理解に基づいて書かれた

現在、自動運転の分野では、点群データを収集するためのLIDARセンサーや、画像データを収集するためのカメラセンサーなど、さまざまなセンサーが自動運転車に搭載されています。 LIDAR センサーは検出対象物体の形状と位置情報をより正確に取得できるため、ポイント クラウド ベースの認識アルゴリズム モデルは急速に反復され、発展しています。現在主流となっている点群ベースの認識アルゴリズムは、主に次の 2 つのカテゴリに分けられます。

  • 1 つのタイプは、古典的な SECOND、VoxelNet などのアルゴリズムなどのボクセルベースの認識アルゴリズムです。ボクセルベースのアルゴリズム モデルは、まず入力ポイント クラウド データを 3D ボクセル構造表現に変換し、次に 3D 畳み込みアルゴリズム モデルを使用して後続の特徴抽出を実装し、抽出された 3D 特徴を後続のモジュールに送信します。
  • もう 1 つのカテゴリは、古典的な PointPillar、PillaNext、PillarNet などのアルゴリズムなどのPillar ベースの認識アルゴリズムです。ピラーベースのアルゴリズム モデルは、ポイント クラウド機能を取得するために 3D 畳み込みネットワークに依存せず、ポイント クラウド データを柱状データに直接構築して、検出速度を高速化し、オンボード展開などの後続のタスクを容易にします。

Pillar ベースのアルゴリズム モデルは、導入が容易で精度が高いため広く使用されていますが、2D 畳み込みニューラル ネットワークの初期化には依然として主にランダム初期化が使用されています。このため、ImageNet で事前トレーニングされた多くの 2D バックボーン ネットワークが Pillar ベースのアルゴリズム モデルによって効果的に活用されず、リソースの無駄が生じます。さらに、現時点では、ポイント クラウド ベースの認識アルゴリズム モデルは、モデル サイズの増加による精度の向上は示されていません。 2D 検出タスクでは、大規模なデータセットで事前トレーニングされたバックボーン ネットワークと、より大きなサイズのバックボーン ネットワークの方が優れた利点を示しています。

したがって、今日分析する論文は、2D バックボーン ネットワークのサイズと事前トレーニングが Pillar ベースの 3D オブジェクト検出器のパフォーマンスに与える影響を調査することを目的としています。

論文のarxivリンクは次のとおりです:https://arxiv.org/pdf/2311.17770.pdf

PillarNeStアルゴリズム分析

まず、下の図に示すように、PillarNeSt アルゴリズム モデルの全体的なフレームワークを見てみましょう。

PillarNeSt アルゴリズム モデルのネットワーク図

上の図からわかるように、PillarNeSt もポイント クラウド認識アルゴリズムの古典的なアーキテクチャ モデル (CenterPoint-Pillars) をベースライン モデルとして使用していますが、論文の著者は、より強力なベースライン モデルを構築するために、元の PointPillars アルゴリズム モデルを変更しました。読者が各部分の変更をより明確に理解できるように、まず CenterPoint-Pillars アルゴリズム モデルのいくつかの基本モジュールを簡単にリストします。

  • ポイント クラウドの疑似画像表現: Pillar Encoder モジュールは、モデルに最初に入力されたポイント クラウド データを疑似画像形式で表現するために使用されます。
  • 2Dバックボーンネットワークが疑似画像の特徴抽出を完了
  • ネックモジュールを使用して、2Dバックボーンネットワークによって抽出されたマルチスケールの特徴マップを融合します。
  • 3D検出ヘッド(CenerHead)を使用して最終的な3D検出結果を出力します。
  • 損失関数に従って損失を計算し、バックプロパゲーションコードを使用してネットワークパラメータ値を更新します。

次に、上記の各基本モジュールを段階的に修正および強化し、最終的にPillarNeStアルゴリズムモデルを構築します。

ピラーエンコーダ

オリジナルの CenterPoint-Pillars アルゴリズム モデルでは、Pillar Encoder モジュールは最初に多層パーセプトロン構造を使用してポイント クラウド データの特徴を抽出し、次に Max Pooling レイヤーを使用して Pillar の特徴を抽出します。しかし、この記事では、Max Pooling レイヤーを 1 つだけ使用すると、情報が失われると考えています。これに基づいて、著者は元の Max Pooling レイヤーに基づいて Mean Pooling レイヤーを追加し、より有用な情報を取得します。さらに、著者らは、Z 軸の情報損失を補正するために、モジュールの入力として、幾何学的中心の高さに対する各点のオフセットも導入しました。

本論文では、最大プーリングと平均プーリングを同時に採用して、より多くの情報を保存します。さらに、Z 軸の情報損失を補うために、幾何学的中心に対する点の高さオフセットも入力として導入します。

2D バックボーンの再設計
  • より大きな畳み込みカーネルを使用した論文の著者らは、2D 画像の分野では、ネットワーク モデルの層数や深さを増やしても、モデルの有効受容野サイズは効果的には増加しないと主張しました。 Pillar ベースのアルゴリズム モデルでは、疑似画像ポイント クラウド データから特徴を抽出する必要もあります。最近のいくつかのラージカーネル研究に触発されて、著者らは、より大きな畳み込みカーネルを使用することで、モデルの有効受容野 (ERF) を拡大し、それによってポイントクラウドベースの認識アルゴリズムの検出性能を向上させることができると考えています。同時に、モデルの速度と精度の関係のバランスをとるために、論文の著者らは、畳み込みカーネル サイズが 7x7 の深度分離可能な畳み込み層を採用しました。

最近の研究では、より大きなカーネルによる畳み込みを使用することで、大きな ERF を効果的に達成できると主張しています。さらに、より大きな受容野は、ポイント クラウド検出器の機能強化に貢献します。

  • 論文の著者らは、画像内の多くのピクセルに冗長な情報が含まれているため、最初のレイヤーのダウンサンプリング操作を削除しています。また、一般的な 2D バックボーン ネットワークには通常、抽出された画像の特徴をダウンサンプリングするためのストライド 2 の畳み込みレイヤーが含まれており、これにより後続の畳み込み操作の計算コストが削減されます。
    ただし、ポイント クラウド情報の場合は異なります。元のポイント クラウド データはまばらで不規則であり、オブジェクトの非常に豊富な幾何学的および構造的情報が含まれているためです。ただし、ダウンサンプリング レイヤーを早期に適用すると、ポイント クラウド内の重要な情報が失われます。これらの考慮に基づいて、論文の著者らは、新しく設計されたアルゴリズム モデルの最初のレイヤーのダウンサンプリング レイヤーを削除し、それによって後続のレイヤーへの入力の解像度を確保し、入力データの有効な情報を保持しました。

私たちのバックボーン設計では、ステムを削除し、第 1 ステージ ブロックでダウンサンプリングを実装しないようにしています。この戦略的な選択により、入力機能の元の解像度が確実に維持されます。

  • モデルの早い段階でブロックを追加する
    著者は、2D画像の分野では、より抽象的な意味的特徴を抽出し、より豊かな意味的表現を得るために、ネットワークモデルの後の層に通常より多くのブロックが積み重ねられると指摘しています。ただし、点群データは不規則でまばらであることを考慮すると、点群に含まれるデータ情報を完全に抽出するには、モデルの初期段階でより多くのブロックを積み重ねる必要があることを意味します。著者は論文の中で、実験結果からも同様の結論を導き出せると述べています。バックボーン ネットワークの後半の段階でブロックを積み重ねる場合と比較して、バックボーン ネットワークの最初の数層でブロックを積み重ねる場合、より高い検出結果を達成できます。

私たちの広範な実験により、初期段階でブロックの数を増やすと、後期段階でブロックを追加するよりも優れた利益が得られることがわかりました。


  • より深いレイヤーの論文の著者は、ポイント クラウド シーンを分析し、さまざまなオブジェクトのサイズのばらつきが非常に大きいと考えました。柱ベースのアルゴリズムでは、柱のサイズが 0.2 m に設定されている場合、8 倍のダウンサンプリング後の最大知覚範囲は 1.6 m になります。しかし、実際のシーンでは多くのオブジェクトが限られた知覚範囲を超えています。これは、8 倍のダウンサンプリング後の特徴点では、大きな物体の全体を完全に認識できないことを意味します。
    これを踏まえて、著者はこの問題を軽減するためのシンプルで簡単な方法を採用しました。バックボーン ネットワークの第 4 層の出力に基づいて、追加の層が追加され、第 5 層としてマークされました。第 5 層モジュールに含まれるモジュールの数は、モデルの規模に応じて拡張できます。

簡単な方法を採用し、1つまたは2つのConNeXtブロックのみを含むステージ4の上に、もう1つのステージ(ステージ5という名前)を追加します。ステージ5のブロック数は、モデルのサイズに基づいて拡大できます。追加されたステージ5の出力は、ネックネットワークのマルチスケール入力の1つとして機能します。

バックボーンネットワークのスケーリング

この論文の主な目的の 1 つは、モデル パラメータの数と精度の間のトレードオフを実現するために、スケーラブルなネットワーク構造モデルのセットを設計することです。本論文では、さまざまなパラメータ量と精度の要件を満たすために、PillarNeSt-Tiny から PillarNeSt-Large までの一連の 2D バックボーン ネットワークを設計しました。さまざまな規模のネットワーク モデル構成を下図に示します。

さまざまなPil​​larNeStモデルのパラメータ設定

上の図から、モデルの異なるバージョンが同様のモデル構造を共有していることがわかります。各モデルは 5 つのレイヤーで構成されています。上記の最初のレイヤーはダウンサンプリング レイヤーを削除し、残りのレイヤーはダウンサンプリングされます。

この論文では、次の図に示すように、さまざまなサイズのバックボーンネットワークモデルをより便利に表現する方法も提供しています。

さまざまな PillarNeSt モデルのチャネル数とブロック数の統計

バックボーンネットワークの事前トレーニング

著者のもう一つの目的は、ImageNet で事前トレーニングされた 2D バックボーン ネットワークを活用することですが、論文のバックボーン ネットワークは ConvNeXt に基づいて変更されているため、ImageNet で事前トレーニングされた元の ConvNeXt を、新しく設計されたネットワーク構造に直接移行することはできません。これに基づいて、本論文では、ステージビューとミクロビューに基づく初期化方法という 2 つの形式のパラメータ初期化方法を採用しています。

  • ステージビュー
    重みは、ステージ 1 ~ 4 の事前トレーニング済みの ConvNeXt モデルから単純にコピーされますが、最後に追加されたレイヤー (ステージ 5) はランダムに初期化されます。ステージ 1 ~ 4 では、ブロック数が ConvNeXt のブロック数より少ない場合、ブロック識別子に従って対応するブロックのパラメータのみをコピーします。
  • ミクロビュー
    事前学習済みのConvNeXtモデルの最初のCinチャネルから学習済みパラメータをコピーし、ランダム初期化を使用して残りのチャネルにパラメータを割り当てます。
実験セクション

著者らは、設計された PillarNeSt アルゴリズム モデルの有効性をそれぞれ nuScenes および Argoverse2 データセットでテストしました。まず、nuScenes で結果を表示してみましょう。

実験結果によると、パラメータ数が最も多い PillarNeSt-Large アルゴリズム モデルは mAP 64.3 を達成し、他のポイント クラウド ベースの認識アルゴリズム モデルを大幅に上回っています。

nuScenes データセットでの比較結果に加えて、論文で設計された PillarNeSt は Argoverse2 データセットでも優れたパフォーマンスを発揮します。

表の結果から、mAP 指標であれ CDS 指標であれ、PillarNeSt-Base アルゴリズム モデルが最高の検出性能を達成し、他のポイント クラウド ベースの認識アルゴリズム モデルを大幅に上回っていることがわかります。

上記の実験表は、この方法がスケーラブルなネットワーク構造のセットを正常に実装し、特定の状況に応じて異なるパラメータ値を持つ異なるアルゴリズムモデルを選択して、異なる精度効果を実現できることを示しています。論文で提起された事前トレーニングの問題に対応して、論文では以下に示すように実験結果の図も示しています。

実験結果では、論文で設計されたネットワーク構造が、ImageNet の事前トレーニングから得られた知識情報を非常によく継承していることが実証されています。mAP であれ、トレーニング損失であれ、事前トレーニング モデルをロードする効果は、事前トレーニング モデルを使用しない場合よりも優れています。

要約する

ポイントクラウドベースの認識アルゴリズムは大きな進歩を遂げていますが、ピラーベースのアルゴリズム モデルの 2D バックボーン ネットワークでは依然としてランダム初期化が使用されており、ImageNet から事前トレーニングされたネットワーク モデルは使用されていません。同時に、ポイントクラウドベースのアルゴリズム モデルは、異なるスケールによってもたらされる利点を享受できません。

この記事で紹介したPillarNeStは、上記の2つの問題を非常にうまく解決します。この分析が皆様のお役に立てば幸いです。

オリジナルリンク: https://mp.weixin.qq.com/s/NJoAOyTuk9INQRJtJKz__g

<<:  BaiduのHou Zhenyu氏:ビッグモデルがクラウドコンピューティングを再形成し、AIネイティブクラウドがクラウドコンピューティングの様相を変える

>>:  高性能かつ低消費時間!新しい 3D Occupancy Network SGN を試してみませんか?オープンソース

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIによるサイバーセキュリティの自動化

データが組織の生命線となっている今日のデジタル時代では、サイバーセキュリティが極めて重要になっていま...

...

百度の最新アルゴリズム調整対応戦略

Baiduの最新アルゴリズム調整対応戦略、4つの対策でBaiduの最新アルゴリズム調整に対応します。...

ジャック・マー氏の予測は現実になるかもしれない。今後20年間で、仕事の50%が徐々に消滅するだろう。あなたもその中にいないことを祈ります

導入コンピュータが人々の生活に入り始めて以来、人々は、特定の職業をコンピュータに置き換えることは避け...

...

無料の Python 機械学習コース パート 3: 多項式回帰

多項式回帰は線形回帰の改良版です。線形回帰を知っていれば、簡単に理解できるでしょう。そうでない場合は...

JVM チューニング: ガベージの場所、ガベージ コレクション アルゴリズム、ガベージ プロセッサの比較

ガベージ コレクターについて説明する前に、まずガベージ コレクション アルゴリズムと JVM のガベ...

金融や視覚分野に加えて、AIはゲーム開発においても破壊的な技術となっている。

機械学習は、ゲームプログラミングではなく、ゲーム開発トレーニングへの扉を開きます。 「ゲーム開発」は...

...

コンピューティングパワーのコストが急激に上昇したため、AIスタートアップがGoogleやMicrosoftなどの大手に挑戦することが難しくなった。

2月20日のニュースによると、コンピューティングコストが急騰しているため、人工知能業界の新興企業は...

インドは、大規模言語モデルの開発を強化するためにAI分野に1037億ルピーの投資を発表した。

インド政府は3月8日、「インドにAIを根付かせる」と「AIをインドのために役立てる」という2大目標の...

人工知能はビッグデータ天体物理学の時代へのマスターキーとなるのでしょうか?

[[387017]] 01 まさに必要: ビッグデータ天体物理学の時代が到来観測技術の発展により、...

...

AIチップ畳み込みニューラルネットワークの原理

[[319839]]畳み込みニューラル ネットワーク (CNN) は、人工ニューロンが特定のカバレッ...