CVPR 2021 車線検出論文: 車線から目を離さない: リアルタイムの注意誘導型車線検出。 紙: 出典: http://arxiv.org/pdf/2010.12035.pdf コード: https://github.com/lucastabelini/LaneATT 0 モチベーション車線検出は、自動運転の分野において最も重要なサブタスクの 1 つです。著者らは、LaneATT というリアルタイムの高性能車線検出アルゴリズムを提案しました。 この方法はアンカー実装に基づいており、アテンションメカニズムを適用します。軽量バージョンの推論速度は 250FPS に達します。 01 ネットワーク構造1.1 全体的なプロセスアルゴリズムの全体的なプロセスを下の図に示します。 車両の前方カメラで収集された RGB 画像を入力として使用し、車線の位置を出力します。 上図からわかるように、アルゴリズムはバックボーンの出力結果に対してプーリング操作を実行して各アンカーの特徴を抽出します。抽出された特徴は、アテンション モジュールによって生成されたグローバル特徴と融合され、遮蔽や照明などにより車線が検出できない問題を解決します。融合された特徴は完全接続層の入力として使用され、完全接続層は車線線の信頼度と関連パラメータを出力します。 1.2 車線とアンカーの表現車線標示 画像を垂直方向に等分割し、得られた等分割点を ( )として記録します。 各車線ラインについて、 を固定し、各車線ラインの差を決定します。各 は、対応する を持つ車線ライン上の点を形成します。 車線は画像全体を通らないため、 と はそれぞれ開始インデックスと終了インデックスを表します。これらは、車線線の連続した有効なポイントを表すために使用されます。 アンカー表現 アンカーは原点と方向によって表されます。 原点は常に画像の左、右、下の境界に位置します。 1.3 バックボーンLaneATT のバックボーンとしては ResNet などの一般的なネットワークが使用され、バックボーンの出力特徴は次のように記録されます。 後続のモジュールでの計算量を削減するために、 に対して畳み込みが実行され、出力結果が として記録されます。 1.4 特徴プーリング各アンカーについて、そこから抽出される特徴点の座標インデックスを使用して、そこから特徴が抽出されます。まず、これらの座標点の方向座標を定義し、次の式を使用して対応する座標を見つけます。 上記の式の合計はアンカーの原点と方向を表し、元の画像に対応する特徴のステップ サイズを表します。 各アンカーについて、上記の合計を使用して特徴を抽出します。上記で計算されたポイントの座標値が範囲を超える場合、対応する位置の値は 0 になります。 1.5 注意メカニズム上記の特徴プーリング操作により、ローカルな特徴が取得されます。遮蔽や照明などの複雑なシーンに対応するには、ローカルな特徴とグローバルな特徴を融合する必要があります。 著者らは、入力がローカル特徴であり、出力がグローバル特徴である注意モジュールを使用します。 注意モジュールには完全に接続された層が含まれています。インデックス のアンカーの場合、アンカーに対応するローカル特徴が入力として使用され、出力は重みになります。 これは、i 番目のアンカーを除く他のアンカーに対応するローカル フィーチャを融合してグローバル フィーチャを形成するために使用されます。 上記の内容は、インデックス i のアンカーのみを対象としています。すべてのアンカーについては、行列乗算を使用して簡単に実装できます。アンカーの数が であると仮定し、次の行列乗算を使用して、すべてのアンカーに対応するグローバル特徴を計算します。 上記の式では、そして。 1.6 予測ヘッドインデックス i のアンカーについては、そのローカル特徴とグローバル特徴が連結演算され、出力結果が として記録されます。 2 つの並列完全接続層の入力として、完全接続層の 1 つは分類に使用され、出力情報は次のとおりです。もう 1 つの完全接続層は回帰に使用され、出力情報は次のとおりです。 各アンカーについて、ネットワークは最終的に次の 3 種類の情報を出力します。 (1)確率値。アンカーに対応する車線区分と背景の確率を予測するために使用される。車線カテゴリ注釈情報を含まないデータセットの場合は、 とします。 (2)オフセット値。アンカー内の点と予測車線上の点との間の横方向のオフセットを示す。 (3)車線の長さは、車線を表すために実際に使用されるアンカーの点の数である。セクション 1.2 の情報によると、およびはそれぞれ開始インデックスと終了インデックスを表し、これはアンカーの原点の座標によって決定でき、長さを使用して値を決定できます。 1.7 NMS2 つの車線間の距離を次のように定義します。 上記の式では、. 上記で定義した距離を使用して、ネットワーク予測結果に対して NMS 操作を実行し、誤検知の数を減らします。 02 モデルトレーニング2.1 トレーニングトレーニング中は、セクション 1.7 で定義された距離が、アンカーとグラウンド トゥルース間の距離を測定するために引き続き使用されます。 2 つの間の距離がしきい値より小さい場合、アンカーは正のサンプルと見なされ、2 つの間の距離がしきい値より大きい場合、アンカーは負のサンプルと見なされます。それ以外の場合、アンカーは無視されます。 次の損失関数を構築します。 上記の式では、 と はそれぞれネットワークの分類ブランチと回帰ブランチの出力結果を表し、 は真の値です。は焦点損失、は滑らかな L1 損失関数です。2 つの損失関数のバランスを取るために使用されます。回帰損失は、対応するアンカーとグラウンドトゥルース間の共通の水平座標に基づいて計算されます。 2.2 モデルの加速トレーニングと推論中は、合計 2782 個のアンカーがあります。アンカーの数が多いと、計算効率が低下します。開始点が地平線の上にあるアンカーなど、トレーニングおよび推論中に無効なアンカーがかなりあります。各アンカーがトレーニング セット内の正のサンプルとして使用された回数は、アンカーが有用かどうかを評価するための指標として測定されます。その後のトレーニングと推論では、最も多く使用されるアンカーが選択されます。 03 実験結果トレーニング中、ネットワーク入力画像の解像度は であり、変換、回転、スケーリング、水平反転がデータ強化に使用されます。設定、、、。 TuSimple データセットの結果は次の表に示されています。 CULane データセットの結果は次の表に示されています。 2 つのデータセットにおけるモデルの実行時間とパフォーマンスの比較を次の図に示します。 視覚化の結果は以下の図に示されています。 上図の 1 行目は TuSimple データセットの視覚化結果、2 行目は CULane データセットの視覚化結果です。図の青い線は真実であり、緑の線と赤の線はネットワーク出力結果であり、緑の線は真陽性、赤の線は偽陽性です。 04 要約する
|
<<: AIが復活! GPT-3を使用して亡くなった婚約者を複製し、アメリカ人男性は愛する人をデジタル形式で永遠に生きさせました
>>: フェイフェイ・リーのチームは、ゼロサンプル一般化を備えた自己エキスパートクローン技術を提案し、その性能はSOTAを上回った。
[[398324]]この記事はWeChatの公開アカウント「Beta Learns JAVA」から転...
[[421061]] PyTorch がさまざまな種類のデータを読み込んで処理できるように、公式で...
言語は機械と人間をつなぐ重要な経路であり、機械が現実世界を深く理解するためには知識が必要です。 8月...
AlphaGo が囲碁の名人に勝利し、百度の無人自動車が第五環状線を走行し、マイクロソフトの Xi...
マイクロソフトは、人工知能はテクノロジー大手が反体制派を排除するための武器として利用されるべきではな...
多くの自然言語処理には機械学習が関係しているため、機械学習の基本的なツールとテクニックを理解しておく...
この記事の内容には、(双方向) バブル ソート、選択ソート、挿入ソート、クイック ソート (穴埋めと...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
1. PIDの紹介モーター制御この方法ではフィードバックはありません。つまり、入力数値を完全に信じて...
人工知能(AI)技術はどこまで発展したのでしょうか? [[278665]]将来、AIが社会に本格的に...
2024 年までに、AI は企業で主流となり、クラウド サービス、セキュリティ、持続可能性も影響力を...