CVPR 2021 車線検出論文: 車線から目を離さない: リアルタイムの注意誘導型車線検出。 紙: 出典: http://arxiv.org/pdf/2010.12035.pdf コード: https://github.com/lucastabelini/LaneATT 0 モチベーション車線検出は、自動運転の分野において最も重要なサブタスクの 1 つです。著者らは、LaneATT というリアルタイムの高性能車線検出アルゴリズムを提案しました。 この方法はアンカー実装に基づいており、アテンションメカニズムを適用します。軽量バージョンの推論速度は 250FPS に達します。 01 ネットワーク構造1.1 全体的なプロセスアルゴリズムの全体的なプロセスを下の図に示します。 車両の前方カメラで収集された RGB 画像を入力として使用し、車線の位置を出力します。 上図からわかるように、アルゴリズムはバックボーンの出力結果に対してプーリング操作を実行して各アンカーの特徴を抽出します。抽出された特徴は、アテンション モジュールによって生成されたグローバル特徴と融合され、遮蔽や照明などにより車線が検出できない問題を解決します。融合された特徴は完全接続層の入力として使用され、完全接続層は車線線の信頼度と関連パラメータを出力します。 1.2 車線とアンカーの表現車線標示 画像を垂直方向に等分割し、得られた等分割点を ( )として記録します。 各車線ラインについて、 を固定し、各車線ラインの差を決定します。各 は、対応する を持つ車線ライン上の点を形成します。 車線は画像全体を通らないため、 と はそれぞれ開始インデックスと終了インデックスを表します。これらは、車線線の連続した有効なポイントを表すために使用されます。 アンカー表現 アンカーは原点と方向によって表されます。 原点は常に画像の左、右、下の境界に位置します。 1.3 バックボーンLaneATT のバックボーンとしては ResNet などの一般的なネットワークが使用され、バックボーンの出力特徴は次のように記録されます。 後続のモジュールでの計算量を削減するために、 に対して畳み込みが実行され、出力結果が として記録されます。 1.4 特徴プーリング各アンカーについて、そこから抽出される特徴点の座標インデックスを使用して、そこから特徴が抽出されます。まず、これらの座標点の方向座標を定義し、次の式を使用して対応する座標を見つけます。 上記の式の合計はアンカーの原点と方向を表し、元の画像に対応する特徴のステップ サイズを表します。 各アンカーについて、上記の合計を使用して特徴を抽出します。上記で計算されたポイントの座標値が範囲を超える場合、対応する位置の値は 0 になります。 1.5 注意メカニズム上記の特徴プーリング操作により、ローカルな特徴が取得されます。遮蔽や照明などの複雑なシーンに対応するには、ローカルな特徴とグローバルな特徴を融合する必要があります。 著者らは、入力がローカル特徴であり、出力がグローバル特徴である注意モジュールを使用します。 注意モジュールには完全に接続された層が含まれています。インデックス のアンカーの場合、アンカーに対応するローカル特徴が入力として使用され、出力は重みになります。 これは、i 番目のアンカーを除く他のアンカーに対応するローカル フィーチャを融合してグローバル フィーチャを形成するために使用されます。 上記の内容は、インデックス i のアンカーのみを対象としています。すべてのアンカーについては、行列乗算を使用して簡単に実装できます。アンカーの数が であると仮定し、次の行列乗算を使用して、すべてのアンカーに対応するグローバル特徴を計算します。 上記の式では、そして。 1.6 予測ヘッドインデックス i のアンカーについては、そのローカル特徴とグローバル特徴が連結演算され、出力結果が として記録されます。 2 つの並列完全接続層の入力として、完全接続層の 1 つは分類に使用され、出力情報は次のとおりです。もう 1 つの完全接続層は回帰に使用され、出力情報は次のとおりです。 各アンカーについて、ネットワークは最終的に次の 3 種類の情報を出力します。 (1)確率値。アンカーに対応する車線区分と背景の確率を予測するために使用される。車線カテゴリ注釈情報を含まないデータセットの場合は、 とします。 (2)オフセット値。アンカー内の点と予測車線上の点との間の横方向のオフセットを示す。 (3)車線の長さは、車線を表すために実際に使用されるアンカーの点の数である。セクション 1.2 の情報によると、およびはそれぞれ開始インデックスと終了インデックスを表し、これはアンカーの原点の座標によって決定でき、長さを使用して値を決定できます。 1.7 NMS2 つの車線間の距離を次のように定義します。 上記の式では、. 上記で定義した距離を使用して、ネットワーク予測結果に対して NMS 操作を実行し、誤検知の数を減らします。 02 モデルトレーニング2.1 トレーニングトレーニング中は、セクション 1.7 で定義された距離が、アンカーとグラウンド トゥルース間の距離を測定するために引き続き使用されます。 2 つの間の距離がしきい値より小さい場合、アンカーは正のサンプルと見なされ、2 つの間の距離がしきい値より大きい場合、アンカーは負のサンプルと見なされます。それ以外の場合、アンカーは無視されます。 次の損失関数を構築します。 上記の式では、 と はそれぞれネットワークの分類ブランチと回帰ブランチの出力結果を表し、 は真の値です。は焦点損失、は滑らかな L1 損失関数です。2 つの損失関数のバランスを取るために使用されます。回帰損失は、対応するアンカーとグラウンドトゥルース間の共通の水平座標に基づいて計算されます。 2.2 モデルの加速トレーニングと推論中は、合計 2782 個のアンカーがあります。アンカーの数が多いと、計算効率が低下します。開始点が地平線の上にあるアンカーなど、トレーニングおよび推論中に無効なアンカーがかなりあります。各アンカーがトレーニング セット内の正のサンプルとして使用された回数は、アンカーが有用かどうかを評価するための指標として測定されます。その後のトレーニングと推論では、最も多く使用されるアンカーが選択されます。 03 実験結果トレーニング中、ネットワーク入力画像の解像度は であり、変換、回転、スケーリング、水平反転がデータ強化に使用されます。設定、、、。 TuSimple データセットの結果は次の表に示されています。 CULane データセットの結果は次の表に示されています。 2 つのデータセットにおけるモデルの実行時間とパフォーマンスの比較を次の図に示します。 視覚化の結果は以下の図に示されています。 上図の 1 行目は TuSimple データセットの視覚化結果、2 行目は CULane データセットの視覚化結果です。図の青い線は真実であり、緑の線と赤の線はネットワーク出力結果であり、緑の線は真陽性、赤の線は偽陽性です。 04 要約する
|
<<: AIが復活! GPT-3を使用して亡くなった婚約者を複製し、アメリカ人男性は愛する人をデジタル形式で永遠に生きさせました
>>: フェイフェイ・リーのチームは、ゼロサンプル一般化を備えた自己エキスパートクローン技術を提案し、その性能はSOTAを上回った。
手を自由にして口で入力する時代が本当に到来しました。 『原神』の宣伝原稿を書きたいとき、ネットでいろ...
テクノロジーが進歩するにつれ、それが従来の人間の仕事をどのように変えたり、置き換えたりするのかという...
[[408920]]編集部注:人工知能(AI)の発達により、人々は徐々に未来についてより多様な想像...
AIGC のテキストからオーディオ (または音楽) を生成するトラックにおいて、Meta は最近新...
ChatGPTはリリースされてから9か月が経ちました。この 9 か月間、この驚異的なアプリケーショ...
近年、世界中でますます多くの政府や企業組織が人工知能の経済的、戦略的重要性を徐々に認識し、国家戦略や...
人工知能企業は主に北京、上海、深セン、杭州に分布している中国新世代人工知能開発研究所のデータによると...
[[425133]] [51CTO.com クイック翻訳]長年にわたり、ビジネス マーケティングの動...