この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 FlashOcc: チャネルから高さへのプラグインによる高速かつメモリ効率の高い占有率予測 論文リンク: https://arxiv.org/pdf/2311.12058.pdf 著者ユニット: 大連理工大学 Houmo AI アデレード大学 論文のアイデア:占有予測は、3D 物体検出でよく見られるロングテール欠陥や複雑な形状の欠落を軽減できるため、自動運転システムの重要なコンポーネントとなっています。しかし、3D ボクセル レベルの表現を処理すると、メモリと計算の面で必然的に大きなオーバーヘッドが発生し、これまでの占有予測方法の展開が妨げられてきました。モデルをより大規模かつ複雑にする傾向とは対照的に、この論文では、理想的なフレームワークは高い精度を維持しながら、さまざまなチップ上で展開しやすいものでなければならないと主張しています。この目的のために、本論文では、高精度を維持しながら高速かつメモリ効率の高い占有予測を統合するプラグアンドプレイパラダイム、つまり FlashOCC を提案します。特に、当社の FlashOCC は、現代のボクセルレベルの占有率予測方法に比べて 2 つの点が改善されています。まず、BEV では特徴が保持されるため、特徴抽出に効率的な 2D 畳み込み層を使用できるようになります。次に、BEV の出力ロジットを 3D 空間に上げるために、チャネルから高さへの変換が導入されます。本稿では、困難な Occ3D-nuScenes ベンチマークのさまざまな占有予測ベースラインに FlashOCC を適用し、その有効性を検証するための広範な実験を実施します。結果により、当社のプラグアンドプレイパラダイムは、精度、実行時効率、メモリコストの点で従来の最先端の方法よりも優れていることが確認され、その導入可能性が実証されました。コードは使用可能になります。 ネットワーク設計:サブピクセル畳み込み技術[26]に着想を得て、画像のアップサンプリングをチャネルの再配置に置き換え、チャネルから空間特徴への変換を実現します。したがって、本研究では、チャネルから高さの特徴への変換を効果的に実現することを目指します。 BEV 認識タスクの進歩に照らして、BEV 表現の各ピクセルには、高さの次元に沿った対応する柱内のすべてのオブジェクトに関する情報が含まれています。私たちは、チャネルから高さへの変換を直感的に利用して、平坦化された BEV 機能を 3D ボクセル レベルの占有ロジットに再形成します。したがって、本論文では、図 1 (a) に示すように、新しいモデル アーキテクチャを開発するのではなく、既存のモデルを一般的なプラグ アンド プレイ方式で強化することに重点を置いています。具体的には、現代の方法における 3D 畳み込みを 2D 畳み込みに直接置き換え、3D 畳み込み出力から導出された占有ロジットを、2D 畳み込みによって得られた BEV レベルの特徴のチャネルから高さへの変換に置き換えます。これらのモデルは、精度と時間消費の間の最適なトレードオフを実現するだけでなく、優れた展開互換性も示します。 FlashOcc は、非常に高い精度でリアルタイムのサラウンドビュー 3D 占有予測を実現し、この分野における画期的な貢献を果たしました。さらに、高価なボクセルレベルの特徴処理を必要とせず、ビュートランスフォーマーや 3D (変形可能) 畳み込み演算子が回避されるため、さまざまな車両プラットフォームに展開するための汎用性が向上します。図 2 に示すように、FlashOcc の入力データは周囲の画像で構成され、出力は密な占有率の予測結果です。当社の FlashOcc は、既存のモデルを一般的なプラグアンドプレイ方式で強化することに重点を置いていますが、5 つの基本モジュールに分けることができます。(1) 2D 画像エンコーダーは、複数のカメラ画像から画像の特徴を抽出する役割を果たします。 (2)ビュー変換モジュールは、2D対応のビュー画像の特徴を3D BEV表現にマッピングするのに役立ちます。 (3)BEVエンコーダー:BEV特徴情報の処理を担当する。 (4)占有予測モジュールは、各ボクセルのセグメンテーションラベルを予測する。 (5)履歴情報を統合してパフォーマンスを向上させるように設計されたオプションの時間融合モジュール。 図1(a)は、提案されたFlashOccをプラグアンドプレイ方式で実装する方法を示しています。最新の方法では、3D-Conv によって処理されたボクセル レベルの 3D 機能を使用して占有率を予測します。対照的に、私たちのプラグイン置換モデルは、(1) 3D-Convを2D-Convに置き換え、(2) 3D-Convから得られた占有ロジットを、2D-Convから得られたBEVレベルの特徴を使用したチャネルから高さへの変換に置き換えることで、高速でメモリ効率の高い占有予測を実現します。 「Conv」という略語は、Convolution(畳み込み)の略です。 (b) 精度と速度、推論メモリ消費量、トレーニング期間などの要素との間のトレードオフを説明します。 図 2. この図は FlashOcc の全体的なアーキテクチャを示しており、ズーム機能付きのカラーで表示すると最適です。破線のボックスで指定された領域は、交換可能なモジュールが存在することを示します。各交換モジュールの特徴的な形状は、それぞれ 2D 画像、BEV レベル、ボクセル レベルの特徴を表すアイコンで表されます。水色の領域はオプションのテンポラル フュージョン モジュールに対応しており、その使用は赤いスイッチのアクティブ化によって決まります。 図 4. 3D ボクセル レベルの表現処理とプラグインの置き換えのアーキテクチャの比較。 実験結果:要約:この論文では、高速かつメモリ効率の高い占有率予測を実現することを目的とした、FlashOCC と呼ばれるプラグアンドプレイ アプローチを紹介します。これは、ボクセルベースの占有法における 3D 畳み込みを 2D 畳み込みに直接置き換え、チャネルから高さへの変換を組み合わせて、平坦化された BEV 特徴を占有ロジットに再形成します。 FlashOCC の有効性と汎用性は、さまざまなボクセルレベルの占有率予測方法で実証されています。広範囲にわたる実験により、このアプローチは、精度、時間消費、メモリ効率、および展開のしやすさの点で、従来の最先端の方法よりも優れていることが実証されています。私たちの知る限り、この論文は、サブピクセルパラダイム(チャネルから高さ)を占有タスクに適用した初めての論文であり、BEV レベルの特徴のみを活用し、計算 3D(変形可能)畳み込みやトランスフォーマーモジュールの使用を完全に回避しています。視覚化の結果は、FlashOcc が高さ情報を正常に保存していることを説得力を持って示しています。今後の研究では、効率的なオンチップ展開の実現を目指して、FlashOcc を自動運転の認識パイプラインに統合することを検討します。 引用:Yu, Z., Shu, C., Deng, J., Lu, K., Liu, Z., Yu, J., Yang, D., Li, H., & Chen, Y. (2023). FlashOcc: チャネルから高さへのプラグインによる高速かつメモリ効率に優れた占有率予測。ArXiv. /abs/2311.12058 オリジナルリンク: https://mp.weixin.qq.com/s/JDPlWj8FnZffJZc9PIsvXQ |
今日、機械学習の可能性に関心を持つプログラマーは、人工知能と AI ベースのソフトウェア開発ツールを...
現在、ビッグデータ、クラウドコンピューティング、人工知能技術が急速に発展しており、産業インターネット...
近年、人工知能の継続的な成熟に伴い、生体認証技術は生活のあらゆる分野に浸透し、コストが削減され、効率...
インターネット技術の急速な発展に伴い、「クラウド コンピューティング」や「フォグ コンピューティング...
GPT-3などの超大規模モデルの登場により、コンテキスト内学習も普及してきました。インコンテキスト...
AIで自動化できる3つのITタスク幸いなことに、人工知能が役に立ちます。ここでは、AI が手動で実行...
データ センターは、他のテクノロジー ベースの業界と同様に、革新を続けなければ成功できません。従来の...
8年生の理科のテストに60点で合格すれば、8万ドル(57万人民元相当)の賞金を獲得できます。 [[...
SQL 結合を最適化する方法は、データベース コミュニティが何十年にもわたって研究してきた大きな問題...
マイクロソフトの共同創業者ポール・アレン氏が設立したアレンAI研究所は最近、Satlasと呼ばれる新...
[[320655]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...
ビデオ編集は、編集者が適切なフレームを見つけてつなぎ合わせる必要がある、時間と労力を要する作業です。...
古典的な「樽理論」によれば、樽にどれだけの水が入るかは、一番低い木材によって決まります。 [[397...