この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 前に書いた && 著者の個人的な理解現在、純粋なカメラに基づく自動運転用の3D認識アルゴリズムも、2Dターゲット検出の技術的ルートに応じて、後処理を含む認識アルゴリズムと後処理を必要としない認識アルゴリズム(エンドツーエンド)に分けることができます。 BEVDet などの高密度検出認識アルゴリズムは、3D ヘッドを使用して、BEV 機能の各単位グリッドに対応する認識結果を出力します。つまり、このような高密度検出の認識結果では、重複する検出フレームを抑制するために、3D NMS などの後処理操作を使用する必要があります。 ただし、2D ターゲット検出のエンドツーエンド方式と同様に、自動運転認識アルゴリズムにもクエリベースの検出アルゴリズムがあり、Transformer のデコーダー モジュールを使用して最終的な検出結果を直接出力し、NMS 後処理操作を排除します。 ただし、このタイプのクエリベースのアルゴリズム モデルの認識パフォーマンスは、BEV ベースの認識モデルに徐々に近づいているか、それを上回っています。しかし、著者らは、BEV ベースの認識アルゴリズムは、車体の周囲の前景領域または背景領域に対応する意味的特徴を出力するため、クエリベースの認識アルゴリズムよりも BEV ベースの認識アルゴリズムの方が全体的なシーンの理解に役立つと考えています。 同時に、著者は、BEV ベースのアルゴリズムが現在クエリ ベースのアルゴリズムより遅れをとっているのは、主に、より高度なネットワーク設計とトレーニング手法が不足しているためだと考えています。これに基づいて、著者は現在の古典的な BEV ベースのアルゴリズムを分析し、次の 3 つの欠点をまとめています。
上記の問題に基づいて、著者らはより高度な BEV ベースのアルゴリズム モデル、つまり BEV-NeXt を提案しました。 論文のarxivリンク: https://arxiv.org/pdf/2312.01696.pdf BEVNeXt アルゴリズムフローBEVNeXt は既存の LSS アルゴリズムに基づいて構築されています。 BEVNeXt アルゴリズム モデルの全体的なブロック図を以下に示します。 BEVNeXtアルゴリズムモデルの全体的なネットワーク構造 上の図からわかるように、BEVNeXt アルゴリズム モデルは主に、 BEV 生成モジュール、 BEV エンコーダーモジュール、検出ヘッドモジュールの 3 つのサブモジュールで構成されています。以下に各モジュールの機能と用途を紹介します。 BEV発電モジュールまず、ネットワーク モデルに入力される 6 つのサラウンド ビュー画像に対して、2D バックボーン ネットワークを使用して、入力されたサラウンド ビュー画像のマルチスケール特徴を抽出します。本論文で抽出されたマルチスケール特徴は、元の入力画像を4倍、8倍、16倍、32倍にダウンサンプリングした特徴結果です。 次に、バックボーン ネットワークによって抽出されたマルチスケール特徴は、深度推定ネットワーク Depth Net に送信され、離散深度確率分布を予測します。次に、本論文で提案されている条件付きランダムフィールド (CRF) を使用して、入力画像の色情報を使用して推定深度情報を変調し、変調された深度確率推定値を取得します。次に、CRF 変調サブモジュールがどのように実装されているかを見てみましょう。
最後に、View Transformer を使用して、抽出されたマルチスケール画像特徴と変調された離散深度確率値を組み合わせて、現在の時刻 T における最終的な BEV 特徴を構築します。 BEV エンコーダーモジュールこの論文で設計された BEV エンコーダー モジュールは、過去の K フレームから計算された履歴 BEV 特徴情報を融合するために使用されます。前述のように、時間的情報融合のプロセスでは、車両周囲の動きのターゲット特徴情報を取得するために、十分に大きな受容野が必要です。このプロセスは、論文で提案されているRes2Fusionサブネットワークを通じて実現されます。
Res2Fusionサブネットワーク全体のネットワーク構造 現在のフレームと、前の K モーメントの履歴 BEV 特徴情報については、まずすべての BEV 特徴がウィンドウ サイズをサイズとしてグループに分割されます。次に畳み込みを使用して、各特徴セットのチャネル数を削減します。これは次のように表すことができます。 チャネル数を削減した後、マルチスケール畳み込み演算を使用して特徴抽出を行い、モデルの受容野を拡大し、時系列情報をモデル化するモデルの能力を向上させます。この部分の数学的表現は次のとおりです。 検出ヘッドモジュール最後に、統合された BEV 機能は、センターベースの 3D 検出ヘッドを使用して処理され、最終的な 3D 認識結果が得られます。ただし、最終的な検出結果を生成するプロセスでは、CRF 変調深度推定サブモジュールによって取得された深度推定確率を使用して、モデルが異なる位置にあるターゲットの特徴を区別できるようにします。
実験著者らは、提案されたアルゴリズム モデルの有効性を nuScenes データセットで検証しました。表の結果から、BEVNeXt はさまざまな 2D バックボーンを使用した場合に優れた検出結果を達成することがわかります。 nuScenes valデータセットにおけるBEVNeXtアルゴリズムモデルの実験結果の比較 さらに、提案されたCRF変調深度推定ネットワークの効果をより直感的に示すために、この論文では、次の図に示すように、入力画像のいくつかのセットを視覚化しています。 条件付きランダムフィールドモジュールの視覚化効果の比較 視覚化結果から、CRF モジュールを使用した深度推定がより正確で、ターゲットのエッジがより鮮明で、前景と背景領域の区別がより明確であることが明確にわかり、提案された CRF モジュールの有効性が証明されています。 さらに、この論文では、視覚化を通じて提案された視点の洗練イノベーションの有効性も検証しています。 パースペクティブリファインメントモジュールの視覚化効果の比較 上記の視覚化結果から、大規模なターゲットと小規模なターゲットの両方が、提案された Perspective Refinement モジュールの恩恵を受けることができることが明確にわかります。同時に、さらなる改良により、モデルによる方向予測の精度も向上しました。 要約するクエリベースのアルゴリズムモデルの全体的な認識性能はBEVベースのアルゴリズムよりも優れていますが、著者はその理由を現在の高密度BEVベースの検出モデルのネットワーク構造とトレーニング戦略に帰しています。前述の関連する欠点に基づいて、この記事で紹介したBEVNeXtは、2Dモデリング機能、時系列情報の融合、および視点の洗練の観点からBEVベースのアルゴリズムモデルを強化します。この記事がお役に立てば幸いです。 オリジナルリンク: https://mp.weixin.qq.com/s/vPDCMSSW1bp0zZ2d73xYzg |
<<: DrivingGaussian: リアルなサラウンドビューデータ、運転シーンの再構成SOTA
>>: Quark App、健康検索をアップグレードし、健康モデルアプリ「Quark Health Assistant」をリリース
音声アシスタントからチャットボットまで、人工知能 (AI) はテクノロジーとのやり取りの方法に革命を...
CSDNパスワード漏洩事件では、ネットユーザーらはパスワードのプレーンテキスト保存とMD5保存の問題...
人工知能アルゴリズムによる注目ベースの単一画像超解像法は、テクスチャと滑らかさを区別します。概要: ...
機械学習の初心者であっても、中級プログラマーであっても、この質問に戸惑うかもしれません。チートシート...
ブルームバーグが14日に報じたところによると、声優のシッキー・ジョーンズがAIスタートアップ企業モー...
修士課程の学生として、私は頑固にアルゴリズムの方向を選択しました。今年の秋の採用は確かに寒い冬でした...
[[277303]] [51CTO.com クイック翻訳] 開発者は人気のある仕事の 1 つであり、...
オピニオンリーダー | 北京大学光華管理学院文:周 連(北京大学光華管理学院副学長)新興技術である人...
人工知能はデータ変換ツールに革命をもたらし、効率、精度、リアルタイム処理を向上させます。シームレスな...
[51CTO.comからのオリジナル記事] 人工知能の応用が深まるにつれ、データの価値はますます顕著...