ICRA 2022 優秀論文: 自動運転用 2D 画像を鳥瞰図に変換し、モデル認識精度を 15% 向上

自動運転における多くのタスクは、トップダウン、マップ、または鳥瞰図 (BEV) の観点から見ると、より簡単に実行できます。多くの自動運転のトピックは地面の平面に制限されているため、トップダウンビューは、ナビゲーションに最適で、関連する障害物や危険を捉えることができる、より実用的な低次元表現です。自動運転のようなシナリオでは、自由に移動する物体や一度しか訪れないシーンを処理するために、意味的にセグメント化された BEV マップを瞬時の推定値として生成する必要があります。

画像から BEV マップを推測するには、画像要素と環境内での位置との対応を決定する必要があります。これまでの研究では、この変換プロセスをガイドするために高密度深度マップと画像セグメンテーションマップが使用されており、深度とセマンティクスを暗黙的に解析する方法を拡張した研究もあります。いくつかの研究では、カメラの幾何学的事前条件を活用しましたが、画像要素と BEV 平面間の相互作用を明示的に学習していませんでした。

最近の論文で、サリー大学の研究者らは、自動運転の2D画像を鳥瞰図に変換する注目メカニズムを導入し、モデルの認識精度を15％向上させた。この研究は、少し前に終了した ICRA 2022 会議で優秀論文賞を受賞しました。

論文リンク: https://arxiv.org/pdf/2110.00966.pdf

これまでの方法とは異なり、この研究では、BEV の変換を「画像から世界」への変換問題とみなし、画像内の垂直走査線と BEV 内の極線の間の位置合わせを学習することを目標としています。したがって、この射影幾何学はネットワークに暗黙的に存在します。

研究者らは、アライメントモデルにおいて、注目度に基づくシーケンス予測構造であるTransformerを採用した。注目メカニズムを使用して、画像内の垂直スキャンラインとその極性 BEV 投影間のペアワイズ相互作用を明示的にモデル化します。トランスフォーマーは、オブジェクト、深度、シーンの照明間の相互依存性を推論して、全体的に一貫した表現を実現できるため、画像から BEV への変換問題に適しています。

Transformer ベースのアライメントモデルを、単眼画像とその固有マトリックスを入力として受け取り、静的クラスと動的クラスのセマンティック BEV マップを予測するエンドツーエンドの学習式に埋め込みます。

本稿では、位置合わせされたモデルの周囲の単眼画像からセマンティック BEV マップを予測するのに役立つアーキテクチャを構築します。下の図 1 に示すように、これは 3 つの主要コンポーネントで構成されています。画像平面上の空間特徴を抽出するための標準 CNN バックボーン、画像平面上の特徴を BEV に変換するエンコーダー/デコーダートランスフォーマー、そして最後に BEV 特徴をセマンティックマップにデコードするセグメンテーションネットワークです。

具体的には、この研究の主な貢献は次のとおりです。

（１）１Ｄシーケンス間変換のセットを使用して画像からBEVマップを生成する。
（２）空間認識機能を備えた制約付き、データ効率の高いTransformerネットワークを構築した。
（３）言語領域における公式と単調注意の組み合わせは、画像内の点の下にあるものを知ることが、上にあるものを知ることよりも正確なマッピングにとって重要であることを示しているが、両方を使用すると最高のパフォーマンスが得られる。
（4）軸方向の注意が時間的認識を提供することでどのようにパフォーマンスを向上させることができるかを実証し、3つの大規模データセットで最先端の結果を提示します。

実験結果

実験では、研究者らは、nuScenes データセットでの変換問題としての画像から BEV への変換の有効性の評価、単調な注意におけるバックトラッキング方向の除去、長いシーケンスレベルのコンテキストの有効性と極位置情報の影響の評価など、いくつかの評価を実施しました。最後に、提案された手法を nuScenes、Argoverse、Lyft データセット上の SOTA 手法と比較します。

アブレーション実験

下の表 2 の最初の部分に示すように、研究者はソフトアテンション (両方向を見る)、画像の下部を振り返るモノトニックアテンション (下を見る)、および画像の上部を振り返るモノトニックアテンション (上を見る) を比較しました。画像内のある点から見下ろす方が、上を見上げるよりも良いことがわかります。

ローカルテクスチャの手がかりに従う - これは、人間が都市環境で物体の距離を判定しようとする方法と一致しており、物体が地面と交差する場所を使用します。結果はまた、両方向で観察することで精度がさらに向上し、深い推論の識別力が向上することを示しています。

長いシーケンスレベルのコンテキストの有用性。ここで、画像から BEV への変換は、1D シーケンスからシーケンスへの変換のセットとして実行されるため、画像全体を BEV に変換すると何が起こるかが疑問になります。このアプローチは、注意マップを生成するために必要な二次計算時間とメモリを考えると、非常に高価です。ただし、画像平面の特徴に水平軸方向の注意を適用することで、ほぼ画像全体を使用するというコンテキスト上の利点を得ることができます。垂直スキャンラインのピクセルは、画像行を軸方向に処理することで長距離の水平コンテキストを持つようになり、長距離の垂直コンテキストは、以前と同様に 1D シーケンス間の遷移によって提供されます。

表 2 の中央部分に示されているように、長いシーケンスレベルのコンテキストを組み込むことはモデルにメリットをもたらさず、わずかな悪影響を与える可能性さえあります。これは 2 つのことを示唆しています。まず、変換された各レイは入力画像の全幅の情報を必要としないこと、より正確には、長いコンテキストのシーケンスは、フロントエンド畳み込みによってすでに集約されたコンテキストに対して追加の利点を提供しないことです。これは、画像全体を使用して変換を実行しても、ベースライン制約式を超えてモデルの精度が向上しないことを示しています。さらに、水平軸の注意を導入することで発生するパフォーマンスの低下は、注意を使用して画像全体のシーケンスをトレーニングすることが困難であることを意味します。画像全体を入力シーケンスとして使用すると、トレーニングがより困難になることがわかります。

極性非依存型トランスフォーマーと極性適応型トランスフォーマー: 表 2 の最後の部分では、Po-Ag 型と Po-Ad 型のバリエーションを比較しています。 Po-Ag モデルには偏光位置情報がありません。画像平面の Po-Ad には、Transformer エンコーダーに追加された極性エンコーディングが含まれますが、BEV 平面の場合、この情報はデコーダーに追加されます。任意の平面で極性エンコーディングを追加すると、アグノスティックモデルで追加するよりも多くの利点があり、動的クラスで最大の増加が見られます。両方のプレーンに追加すると、これがさらに強化されますが、静的クラスに最も大きな影響があります。

SOTA方式との比較

研究者らは、この論文の手法をいくつかの SOTA 手法と比較しました。下の表 1 に示すように、空間モデルは現在の圧縮 SOTA 方式 STA-S よりも優れており、平均相対改善率は 15% です。より小さな動的クラスでは改善はさらに劇的で、バス、トラック、トレーラー、障害物はすべて、検出精度が相対的に 35 ～ 45% 向上します。

下の図 2 で得られた定性的な結果もこの結論を裏付けており、提案されたモデルは構造上の類似性が高く、形状感覚が優れていることを示しています。この違いは、圧縮に使用される完全接続レイヤー (FCL) に部分的に起因します。つまり、小さくて遠くにあるオブジェクトを検出する場合、画像の大部分は冗長なコンテキストになります。

さらに、歩行者などの物体は車両によって部分的に隠れてしまうことがよくあります。この場合、完全に接続されたレイヤーは歩行者を無視し、代わりに車両のセマンティクスを保持する傾向があります。ここでは、各放射状の深度が独立して画像に注意を向けることができるため、注意のアプローチがその強みを発揮します。つまり、深度が深くなると歩行者の体が見えるようになりますが、それ以前の深度では車両のみに注意を向けていました。

下の表3のArgoverseデータセットの結果も同様のパターンを示しており、私たちの方法はPON [8]と比較して30%改善されています。

表4に示すように、私たちの方法はnuScenesとLyftにおいてLSS [9]とFIERY [20]よりも優れています。 Lyft では標準的な列車/バス分割がなく、LSS で使用される分割が利用できないため、真の比較は不可能です。

研究の詳細については原著論文を参照してください。

<<: 清華大学、ケンブリッジ大学、UICが共同で中国初のファクトチェックデータセットを公開。医学や社会学を含む複数の分野を網羅した証拠に基づくデータセット。

>>: AIOpsの構築と導入を成功させるための3つの要素