自動運転車における LiDAR とカメラセンサーの融合

センサーフュージョンは、自動運転車の重要な技術の 1 つです。これは、すべての自動運転車のエンジニアが備えていなければならないスキルです。理由は簡単です。知覚はどこにでもあり、常に使用されているからです。

自動運転車は、認識、位置特定、計画、制御という 4 つの主要テクノロジーを通じて機能します。

センサーフュージョンは知覚モジュールの一部です。ビジョンセンサーからのデータを融合して冗長性や決定論性を追加したり、複数のセンサーの長所を活用したりしたいと考えています。

センサーデータと融合

認識段階では、環境を把握するために、LIDAR、レーダー、カメラを組み合わせて使用するのが一般的です。これら 3 つのセンサーにはそれぞれ長所と短所がありますが、これらを使用することですべての長所を活用できます。

上の図に示すように:

カメラは物体を分類したりシーンを理解したりするのに優れています。
飛行時間センサーとして、LIDAR は距離を推定するのに適しています。
レーダーは障害物の速度を直接測定できます。

この記事では、LiDAR とカメラを融合し、カメラの解像度、コンテキストを理解してオブジェクトを分類する機能、LiDAR テクノロジーを活用して距離を推定し世界を 3D で見る方法について学習します。

カメラ: 2Dセンサー

カメラは、境界ボックス、車線の位置、信号の色、交通標識など、さまざまなものを出力するために使用されるよく知られたセンサーです。自動運転車ではカメラが問題になることはありません。

この 2D センサーをどのように使用し、3D センサー (LiDAR など) と組み合わせて 3D の世界に適用できるでしょうか?

LiDAR: 3Dセンサー

LiDAR は、Light Detection and Ranging (光検出と測距) の略です。これは、それぞれが (X、Y、Z) 座標を持つ点のクラウドを出力する 3D センサーです。機械学習モデルやニューラルネットワークの実行など、多くのアプリケーションを 3D データ上で実行できます。以下は出力の例です。

この 3D センサーをカメラなどの 2D センサーと一緒に使用するにはどうすればよいですか?

今日は、LIDARとカメラ間のデータの融合について紹介します。

センサーフュージョンアルゴリズム

センサー融合アルゴリズムは数多く存在します。さまざまなアプローチが可能です。「どのようなタイプの統合を望んでいるのか？」という質問は非常に重要です。

記事にもあるように、融合アルゴリズムを分類する方法は 3 つあります。

抽象化レベル別: 収束はいつ起こるのか?いつ
集中化のレベル別: どこで収束が起こっているか?どこ
競争レベル別：「何を」収束させるのか？何

「何」かは明らかです。私たちの目標は競争と冗長性です。「どこ」は実際には重要ではなく、多くの解決策が機能します。残るは「いつ」だけです...

センサーフュージョンでは、次の 2 つのプロセスが考えられます。

早期融合: 生データ (ピクセルとポイントクラウド) を融合します。
後期融合: 結果の融合 - LIDAR とカメラからの境界ボックス。

この記事では、両方のアプローチを検討します。

次に、ポイントクラウドがカメラで検出された 2D 境界ボックスに属しているかどうかを確認します。

この 3 ステップのプロセスは次のようになります。

私たちは早期の統合から始めます。

初期のセンサー融合: 生データの融合

初期融合は、センサーからの生データの融合です。したがって、センサーが挿入されると、プロセスは非常に迅速に実行されます。

最も単純で一般的なアプローチは、ポイントクラウド (3D) を 2D 画像に投影することです。次に、ポイントクラウドがカメラによって検出された 2D 境界ボックスと重なっているかどうかがチェックされます。

3 ステップのプロセスは次のとおりです。

このプロセスは、この論文では低レベルセンサーフュージョンとして分類されています。

1. 点群を2Dに投影する

最初のアイデアは、LIDAR フレーム内の 3D ポイントクラウドをカメラフレーム内の 2D 投影に変換することです。これを行うには、次の幾何学的原理を適用する必要があります。

(入力ポイントクラウドは LiDAR フレーム/ユークリッド座標です。)

（１）各3D LIDAR点を同次座標に変換する。

出力: LiDARフレーム/同次座標

（２）変換された点の投影方程式（平行移動と回転）を適用して、点をライダーフレームからカメラフレームに変換します。

出力: カメラフレーム/同次座標

（３）最後に、点をユークリッド座標に戻します。

出力: カメラフレーム/ユークリッド座標

投影、回転、同次座標に慣れていない場合は、ステレオビジョンコースを受講できます。

これがステップ1の結果です。

2.2Dオブジェクト検出

次の部分はカメラでオブジェクトを検出することです。あまり詳しく説明しませんが、YOLOv4 のようなアルゴリズムはオブジェクト検出を実行できます。詳細については、YOLOv4 研究レビューをお読みください。

3. ROIマッチング

最後の部分は、関心領域のマッチングと呼ばれます。各境界ボックス内のデータを単純に融合します。

出力は何ですか?

各境界ボックスごとに、カメラは分類結果を提供します。
各 LIDAR 投影ポイントには、非常に正確な距離があります。

➡️ その結果、正確に測定され分類されたオブジェクトが得られます。

次のような疑問が生じるかもしれません: 距離としてどの点を選択すればよいのでしょうか?

各ポイントの平均値ですか?
中央値？
中心点？
一番最近のもの?

2D 障害物検出を使用する場合、次の問題が発生する可能性があります。選択したポイントが別の境界ボックスに属している場合はどうなるでしょうか?それとも、背景に属するのでしょうか?これは難しいプロセスです。ポイントがピクセルに正確に一致するため、セグメンテーションアプローチの方が適している可能性があります。

結果は次のようになります。矢印は融合が失敗する可能性があるポイントを示しています。

後期センサー融合：融合の結果

後期融合とは、独立した検出後に結果を融合することです。

考えられる 1 つのアプローチは、独立した検出を実行し、両端で 3D 境界ボックスを取得して、結果を融合することです。

別のアプローチとしては、独立した検出を実行し、両端で 2D 境界ボックスを取得してから、結果を融合する方法があります。

したがって、融合を 2D で実行するか 3D で実行するかという 2 つの可能性があります。

以下は 2D の例です。

この記事では、より難しい 3D プロセスについて説明します。 2D でも同じ原則が適用されます。

プロセスは次のとおりです。

1.3D障害物検知（LiDAR）

LiDAR を使用して 3D で障害物を検出するプロセスはよく知られています。方法は2つあります:

教師なし 3D 機械学習を使用した単純なアプローチ。

RANDLA-NET などのアルゴリズムを使用するディープラーニング手法。

LiDAR コースでは、両方の方法をカバーします。

2.3D障害物検知（カメラ）

このプロセスは、特に単眼カメラを使用する場合、はるかに困難になります。 3D で障害物を見つけるには、投影値を正確に把握し (内部および外部のキャリブレーション)、ディープラーニングを使用する必要があります。正しい境界ボックスを取得するには、車両のサイズと向きを知ることも重要です。

この記事は融合に関するもので、検出部分については紹介しません。記事をご覧いただけます。

最後に、マッチングについて一言。

以下は論文「3D Iou-Net (2020)」からの例です。

3. IOUマッチング

宇宙でのIOUマッチング

マッチングの背後にあるプロセスは非常にシンプルです。カメラと LiDAR の境界ボックスが 2D または 3D で重なる場合、障害物は同一であるとみなします。

以下は論文「3D Iou-Net (2020)」からの例です。

このアイデアを使用すると、空間内のオブジェクトを関連付け、さまざまなセンサー間の相関関係を作成できます。

このプロセスは、この記事では中レベルセンサーフュージョンとして分類されています。

中級センサーフュージョンと上級センサーフュージョンの違いは、上級センサーフュージョンには追跡機能が含まれていることです。

時間追跡を追加するには、時間相関と呼ばれる同様のプロセスが必要です。

時間の経過に伴うIOUマッチング

障害物追跡コースでは、カルマンフィルターとハンガリーアルゴリズムを使用して、フレーム間でオブジェクトを時間的に相関させる手法を教えました。その結果、フレーム間でオブジェクトを追跡し、次の位置を予測することさえ可能になります。

以下のように表示されます。

IOU マッチングの原理はまったく同じです。最初のフレームから 2 番目のフレームまでの境界ボックスが重なる場合、障害物は同じであるとみなします。

ここでは、境界ボックスの位置を追跡し、IOU (Intersection Over Union) をメトリックとして使用します。また、深層畳み込み機能を使用して、境界ボックス内のオブジェクトが同じであることを確認することもできます。このプロセスを SORT (Simple Online Tracking in Real Time) と呼びます。畳み込み機能が使用される場合は、深層 SORT と呼びます。

空間と時間内でオブジェクトを追跡できるため、このアプローチでは高度なセンサー融合にまったく同じアルゴリズムを使用することもできます。

要約する

私たちは現在、LiDAR とカメラの融合に関する 2 つのアプローチを調査しています。

学んだことをまとめてみましょう:

センサーフュージョンプロセスは、異なるセンサー (ここでは LiDAR とカメラ) からのデータを融合することです。

融合には早期融合と後期融合があります。早期融合 (低レベルセンサー融合) は、生データを融合することです。後期融合は、オブジェクト（中レベルセンサー融合）または軌道（高度センサー融合）を融合することです。

初期のセンサー融合を行うときは、ポイントクラウドをピクセルまたはフレームに関連付ける必要があります。

後期センサーフュージョンを実行する場合、結果（境界ボックス）間の相関関係を調べる必要があるため、これを解決するためのハンガリーアルゴリズムやカルマンフィルターなどのアルゴリズムがあります。

<<: 二重の流行が迫る中、機械学習アルゴリズムは新型コロナウイルスの迅速な検出にどのように役立つのでしょうか?

>>: 高性能自動運転ドメインコントローラ設計の主要要素