著者の個人的な理解に基づいて書かれた現在、自動運転の分野では、点群データを収集するためのLIDARセンサーや、画像データを収集するためのカメラセンサーなど、さまざまなセンサーが自動運転車に搭載されています。 LIDAR センサーは検出対象物体の形状と位置情報をより正確に取得できるため、ポイント クラウド ベースの認識アルゴリズム モデルは急速に反復され、発展しています。現在主流となっている点群ベースの認識アルゴリズムは、主に次の 2 つのカテゴリに分けられます。
Pillar ベースのアルゴリズム モデルは、導入が容易で精度が高いため広く使用されていますが、2D 畳み込みニューラル ネットワークの初期化には依然として主にランダム初期化が使用されています。このため、ImageNet で事前トレーニングされた多くの 2D バックボーン ネットワークが Pillar ベースのアルゴリズム モデルによって効果的に活用されず、リソースの無駄が生じます。さらに、現時点では、ポイント クラウド ベースの認識アルゴリズム モデルは、モデル サイズの増加による精度の向上は示されていません。 2D 検出タスクでは、大規模なデータセットで事前トレーニングされたバックボーン ネットワークと、より大きなサイズのバックボーン ネットワークの方が優れた利点を示しています。 したがって、今日分析する論文は、2D バックボーン ネットワークのサイズと事前トレーニングが Pillar ベースの 3D オブジェクト検出器のパフォーマンスに与える影響を調査することを目的としています。 論文のarxivリンクは次のとおりです:https://arxiv.org/pdf/2311.17770.pdf PillarNeStアルゴリズム分析まず、下の図に示すように、PillarNeSt アルゴリズム モデルの全体的なフレームワークを見てみましょう。 PillarNeSt アルゴリズム モデルのネットワーク図 上の図からわかるように、PillarNeSt もポイント クラウド認識アルゴリズムの古典的なアーキテクチャ モデル (CenterPoint-Pillars) をベースライン モデルとして使用していますが、論文の著者は、より強力なベースライン モデルを構築するために、元の PointPillars アルゴリズム モデルを変更しました。読者が各部分の変更をより明確に理解できるように、まず CenterPoint-Pillars アルゴリズム モデルのいくつかの基本モジュールを簡単にリストします。
次に、上記の各基本モジュールを段階的に修正および強化し、最終的にPillarNeStアルゴリズムモデルを構築します。 ピラーエンコーダオリジナルの CenterPoint-Pillars アルゴリズム モデルでは、Pillar Encoder モジュールは最初に多層パーセプトロン構造を使用してポイント クラウド データの特徴を抽出し、次に Max Pooling レイヤーを使用して Pillar の特徴を抽出します。しかし、この記事では、Max Pooling レイヤーを 1 つだけ使用すると、情報が失われると考えています。これに基づいて、著者は元の Max Pooling レイヤーに基づいて Mean Pooling レイヤーを追加し、より有用な情報を取得します。さらに、著者らは、Z 軸の情報損失を補正するために、モジュールの入力として、幾何学的中心の高さに対する各点のオフセットも導入しました。
2D バックボーンの再設計
最近の研究では、より大きなカーネルによる畳み込みを使用することで、大きな ERF を効果的に達成できると主張しています。さらに、より大きな受容野は、ポイント クラウド検出器の機能強化に貢献します。
私たちのバックボーン設計では、ステムを削除し、第 1 ステージ ブロックでダウンサンプリングを実装しないようにしています。この戦略的な選択により、入力機能の元の解像度が確実に維持されます。
私たちの広範な実験により、初期段階でブロックの数を増やすと、後期段階でブロックを追加するよりも優れた利益が得られることがわかりました。
簡単な方法を採用し、1つまたは2つのConNeXtブロックのみを含むステージ4の上に、もう1つのステージ(ステージ5という名前)を追加します。ステージ5のブロック数は、モデルのサイズに基づいて拡大できます。追加されたステージ5の出力は、ネックネットワークのマルチスケール入力の1つとして機能します。 バックボーンネットワークのスケーリングこの論文の主な目的の 1 つは、モデル パラメータの数と精度の間のトレードオフを実現するために、スケーラブルなネットワーク構造モデルのセットを設計することです。本論文では、さまざまなパラメータ量と精度の要件を満たすために、PillarNeSt-Tiny から PillarNeSt-Large までの一連の 2D バックボーン ネットワークを設計しました。さまざまな規模のネットワーク モデル構成を下図に示します。 さまざまなPillarNeStモデルのパラメータ設定 上の図から、モデルの異なるバージョンが同様のモデル構造を共有していることがわかります。各モデルは 5 つのレイヤーで構成されています。上記の最初のレイヤーはダウンサンプリング レイヤーを削除し、残りのレイヤーはダウンサンプリングされます。 この論文では、次の図に示すように、さまざまなサイズのバックボーンネットワークモデルをより便利に表現する方法も提供しています。 さまざまな PillarNeSt モデルのチャネル数とブロック数の統計 バックボーンネットワークの事前トレーニング著者のもう一つの目的は、ImageNet で事前トレーニングされた 2D バックボーン ネットワークを活用することですが、論文のバックボーン ネットワークは ConvNeXt に基づいて変更されているため、ImageNet で事前トレーニングされた元の ConvNeXt を、新しく設計されたネットワーク構造に直接移行することはできません。これに基づいて、本論文では、ステージビューとミクロビューに基づく初期化方法という 2 つの形式のパラメータ初期化方法を採用しています。
実験セクション著者らは、設計された PillarNeSt アルゴリズム モデルの有効性をそれぞれ nuScenes および Argoverse2 データセットでテストしました。まず、nuScenes で結果を表示してみましょう。 実験結果によると、パラメータ数が最も多い PillarNeSt-Large アルゴリズム モデルは mAP 64.3 を達成し、他のポイント クラウド ベースの認識アルゴリズム モデルを大幅に上回っています。 nuScenes データセットでの比較結果に加えて、論文で設計された PillarNeSt は Argoverse2 データセットでも優れたパフォーマンスを発揮します。 表の結果から、mAP 指標であれ CDS 指標であれ、PillarNeSt-Base アルゴリズム モデルが最高の検出性能を達成し、他のポイント クラウド ベースの認識アルゴリズム モデルを大幅に上回っていることがわかります。 上記の実験表は、この方法がスケーラブルなネットワーク構造のセットを正常に実装し、特定の状況に応じて異なるパラメータ値を持つ異なるアルゴリズムモデルを選択して、異なる精度効果を実現できることを示しています。論文で提起された事前トレーニングの問題に対応して、論文では以下に示すように実験結果の図も示しています。 実験結果では、論文で設計されたネットワーク構造が、ImageNet の事前トレーニングから得られた知識情報を非常によく継承していることが実証されています。mAP であれ、トレーニング損失であれ、事前トレーニング モデルをロードする効果は、事前トレーニング モデルを使用しない場合よりも優れています。 要約するポイントクラウドベースの認識アルゴリズムは大きな進歩を遂げていますが、ピラーベースのアルゴリズム モデルの 2D バックボーン ネットワークでは依然としてランダム初期化が使用されており、ImageNet から事前トレーニングされたネットワーク モデルは使用されていません。同時に、ポイントクラウドベースのアルゴリズム モデルは、異なるスケールによってもたらされる利点を享受できません。 この記事で紹介したPillarNeStは、上記の2つの問題を非常にうまく解決します。この分析が皆様のお役に立てば幸いです。 オリジナルリンク: https://mp.weixin.qq.com/s/NJoAOyTuk9INQRJtJKz__g |
<<: BaiduのHou Zhenyu氏:ビッグモデルがクラウドコンピューティングを再形成し、AIネイティブクラウドがクラウドコンピューティングの様相を変える
>>: 高性能かつ低消費時間!新しい 3D Occupancy Network SGN を試してみませんか?オープンソース
データが組織の生命線となっている今日のデジタル時代では、サイバーセキュリティが極めて重要になっていま...
Baiduの最新アルゴリズム調整対応戦略、4つの対策でBaiduの最新アルゴリズム調整に対応します。...
導入コンピュータが人々の生活に入り始めて以来、人々は、特定の職業をコンピュータに置き換えることは避け...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
多項式回帰は線形回帰の改良版です。線形回帰を知っていれば、簡単に理解できるでしょう。そうでない場合は...
ガベージ コレクターについて説明する前に、まずガベージ コレクション アルゴリズムと JVM のガベ...
機械学習は、ゲームプログラミングではなく、ゲーム開発トレーニングへの扉を開きます。 「ゲーム開発」は...
2月20日のニュースによると、コンピューティングコストが急騰しているため、人工知能業界の新興企業は...
インド政府は3月8日、「インドにAIを根付かせる」と「AIをインドのために役立てる」という2大目標の...
[[387017]] 01 まさに必要: ビッグデータ天体物理学の時代が到来観測技術の発展により、...
[[319839]]畳み込みニューラル ネットワーク (CNN) は、人工ニューロンが特定のカバレッ...