クラウド上でのインテリジェント運転の 3D 再構築のベストプラクティス

インテリジェント運転技術の継続的な発展により、私たちの移動方法や交通システムは変化しています。 3D 再構築は重要な技術の 1 つとして、インテリジェント運転システムにおいて重要な役割を果たします。車両側の認識および再構築アルゴリズムに加えて、自動運転技術の実装と開発には、クラウドベースの膨大な再構築機能が必要です。 Volcano Engineマルチメディア研究所は、業界をリードする自社開発の3D再構築技術と強力なクラウドプラットフォームのリソースと機能を組み合わせ、大規模な再構築、自動ラベリング、クラウドでのリアルなシミュレーションなどのシナリオでの関連技術の実装と応用を支援します。

この記事は、Volcano Engine Multimedia Laboratory の動的および静的シーンにおける 3D 再構築技術の原理と実践に焦点を当て、高度なライトフィールド再構築技術と組み合わせて、クラウドベースのインテリジェント 3D 再構築がインテリジェント運転の分野にどのように役立ち、業界の発展を促進できるかをすべての人がよりよく理解し認識できるようにします。

1. 技術的な課題と困難

運転シーンの再構築には、道路環境の点群レベルの 3D 再構築が必要です。従来の 3D 再構築技術の適用シナリオと比較すると、運転シーンの再構築技術には次のような困難があります。

車両運転中の環境要因は複雑で制御不能です。さまざまな天候、照明、車両速度、道路状況などが車載センサーによって収集されたデータに影響を与え、再構築技術の堅牢性に課題をもたらします。
道路シーンでは、特徴の劣化やテクスチャの損失がよく発生します。たとえば、カメラは視覚的特徴の乏しい画像情報を取得したり、LIDAR は類似性が高いシーン構造情報を取得したりします。同時に、再構築の重要な要素の 1 つである路面は単色で、十分なテクスチャ情報が不足しているため、再構築技術に対する要求が高くなります。
車載センサーはカメラ、ライダー、ミリ波レーダー、慣性航法、GPS測位システム、車輪速計など多数あり、複数のセンサーからのデータを統合してより正確な再構築結果を得る方法が再構築技術の課題となっています。
移動中の車両、非自動車、道路上の歩行者などの動的オブジェクトの存在は、従来の再構成アルゴリズムに課題をもたらします。静的シーンの再構成において動的オブジェクトの干渉を排除し、動的オブジェクトの位置、サイズ、速度を推定する方法も、プロジェクトの難しさの 1 つです。

2. 運転シーン再現技術の紹介

自動運転分野における再構築アルゴリズムは、通常、LIDARとカメラを主に使用し、GPSと慣性航法で補完する技術的なルートを採用しています。 LiDAR は高精度の測距情報を直接取得し、シーン構造を素早く取得できます。事前に実行された LiDAR カメラのジョイントキャリブレーションにより、カメラで取得した画像からレーザーポイントクラウドの色、セマンティクスなどの情報を得ることができます。同時に、GPS と慣性航法は、再構築プロセス中の特徴の劣化によって生じるドリフトを軽減するための補助的な測位を提供できます。しかし、マルチラインLIDARは価格が高いため、通常はエンジニアリング車両で使用され、量産車両に大規模に使用することは困難です。

これに対応して、火山エンジンマルチメディア研究所は、静的シーン再構成、動的オブジェクト再構成、神経放射場再構成技術を含む一連の純粋に視覚的な運転シーン再構成技術を独自に開発しました。シーン内の動的オブジェクトと静的オブジェクトを区別し、静的シーンの高密度ポイントクラウドを復元し、路面、標識、信号機などの重要な要素を強調表示できます。シーン内の移動オブジェクトの位置、サイズ、方向、速度を効果的に推定し、その後の4D注釈を作成できます。神経放射場を使用して、静的シーン再構成に基づいてシーンを再構成および再現し、自由視点ローミングを実現し、シーン編集やシミュレーションレンダリングに使用できます。この技術的ソリューションは、LIDAR に依存せず、デシメートルレベルの相対誤差を実現し、最小限のハードウェアコストで LIDAR に近い再構成効果を実現します。

2.1 静的シーン再構成技術：動的干渉を排除し、静的シーンを復元する

視覚再構成技術は、マルチビュージオメトリの理論に基づいており、再構成するシーンまたはオブジェクトがフレーム間の一貫性、つまり異なる画像フレームで静的な状態にあることが必要です。したがって、再構成プロセス中に動的なオブジェクトを排除する必要があります。シーン内のさまざまな要素の重要度に応じて、密なポイントクラウドから重要でないポイントクラウドを削除し、いくつかの重要な要素のポイントクラウドを保持する必要があるため、事前に画像に対してセマンティックセグメンテーションを実行する必要があります。この点について、 火山エンジン マルチメディアラボでは、AI テクノロジーとマルチビュージオメトリの基本原理を組み合わせて、高度で堅牢、正確かつ完全なビジュアル再構築アルゴリズムフレームワークを構築します。復興プロセスは3つの重要なステップから構成される : 画像前処理、スパース再構成、密再構成 。

撮影中は車載カメラが動いています。露出時間の関係で、車両の速度が上がると、撮影した画像に深刻なモーションブラーが発生します。さらに、帯域幅とストレージスペースを節約するために、送信プロセス中に画像は不可逆的に圧縮され、画質がさらに低下します。この目的のために、Volcano Engine Multimedia Lab は、エンドツーエンドのニューラルネットワークを使用して画像のぼかしを除去し、モーションブラーを抑制しながら画質を向上させることができました。ぼかし除去前後の比較を下図に示します。

ぼかし除去前（左）ぼかし除去後（右）

動的オブジェクトを区別するために、Volcano Engine Multimedia Laboratory は、ピクセルレベルの動的オブジェクトマスクを取得できるオプティカルフローに基づく動的オブジェクト認識テクノロジを使用しました。その後の静的シーン再構築プロセスでは、動的オブジェクト領域にある特徴点が削除され、静的シーンとオブジェクトのみが保持されます。

オプティカルフロー（左）移動物体（右）

スパース再構築プロセスでは、カメラの位置、方向、シーンのポイントクラウドを同時に計算する必要があります。一般的に使用されるアルゴリズムには、SLAM (Simultaneous localization and mapping) や SFM (Structure from Motion、略して SfM) などがあります。リアルタイムのパフォーマンスが要求されない場合、SFM アルゴリズムはより高い再構築精度を実現できます。ただし、従来の SFM アルゴリズムでは通常、各カメラを独立したカメラとして扱いますが、車両には通常、前後左右のさまざまな方向に複数のカメラが配置されています。これらのカメラの相対的な位置は実際には固定されています (車両の振動による微妙な変化は無視されます)。カメラ間の相対的な位置制約を無視すると、各カメラの計算された位置誤差は比較的大きくなります。さらに、遮蔽がひどい場合、個々のカメラの姿勢を計算することが難しくなります。これに対応して、火山エンジンマルチメディア研究所は、カメラ群全体に基づくSFMアルゴリズムを独自に開発しました。カメラ間の事前相対姿勢制約を利用して、カメラ群全体の姿勢を計算することができます。同時に、GPSと慣性航法の融合測位結果を使用して、カメラ群の中心位置を制約することで、姿勢推定の成功率と精度を効果的に向上させ、異なるカメラ間の点群の不一致を改善し、点群の階層化を軽減できます。

従来のSFM（左）カメラグループSFM（右）

地面は単色でテクスチャがないため、従来の視覚的再構築では地面全体を復元することが困難です。しかし、地面には車線、矢印、テキスト/標識などの重要な要素があります。そのため、Volcano Engine Multimedia Laboratory は、地面をフィッティングするために二次曲面を使用し、地面領域の深度推定とポイントクラウドフュージョンを支援します。実際の道路表面は理想的な平面ではないことが多いため、平面フィッティングと比較すると、二次曲面は実際の道路のシーンにより近くなります。以下は、平面方程式と二次曲面方程式を使用して地面をフィッティングした場合の効果の比較です。

平面方程式（左）二次曲面方程式（右）

レーザーポイントクラウドを真値として考え、その上に視覚的な再構築結果を重ね合わせることで、再構築されたポイントクラウドの精度を直感的に測定できます。下の図からわかるように、再構成された点群と実際の点群は非常に一致しています。測定後、再構成結果の相対誤差は約 15cm です。

Volcano Engine Multimedia Laboratoryの再構築結果（カラー）と実際の点群（白）

以下は、Volcano Engine Multimedia Laboratory の視覚再構築アルゴリズムと主流の商用再構築ソフトウェアの比較です。市販のソフトウェアと比較すると、Volcano Engine Multimedia Laboratory の独自開発アルゴリズムの方が再構築効果がより優れ、より完全であることがわかります。道路標識、信号機、電柱、車線、路面の矢印など、シーン内の特徴が高度に復元されていますが、市販のソフトウェアの再構築された点群は非常にまばらで、路面の広い範囲が欠落しています。

主流の商用ソフトウェア（左） Volcano Engine Multimedia Laboratory アルゴリズム（右）

2.2 ダイナミック再構築技術

画像内のオブジェクトに 3D 注釈を付けるのは非常に難しく、ポイントクラウドが必要になります。車両に視覚センサーしかない場合、シーン内の対象オブジェクトの完全なポイントクラウドを取得するのは非常に困難です。特に動的オブジェクトの場合、従来の 3D 再構築技術を使用して高密度のポイントクラウドを取得することは不可能です。移動物体の表現と4D注釈を提供するために、3Dバウンディングボックス（以下、3D bbox）を使用して動的物体を表現します。シーン内の各瞬間の動的物体の3D bboxの姿勢、サイズ、速度などは、独自に開発した動的再構成アルゴリズムによって取得され、動的物体再構成機能が完成します。

パイプラインを動的に再構築する

車両によって収集された画像の各フレームについて、まずシーン内の動的ターゲットを抽出し、3D bbox の初期提案を生成します。2D ターゲット検出を使用してカメラのポーズから対応する 3D bbox を推定する方法と、3D ターゲット検出を直接使用する方法の 2 つの方法が提供されます。 2 つの方法は、異なるデータに対して柔軟に選択できます。2D 検出は一般化が良好で、3D 検出ではより優れた初期値を取得できます。同時に、画像の動的領域内の特徴点が抽出されます。単一フレーム画像の初期 3D bbox 提案と特徴点を取得した後、複数のフレーム間のデータ関連付けを確立します。つまり、独自に開発したマルチターゲット追跡アルゴリズムを通じてオブジェクトマッチングを確立し、特徴マッチング技術を通じて画像の特徴をマッチングします。マッチング関係を取得した後、共視聴関係にある画像フレームをローカルマップとして作成し、グローバルに一貫したターゲット bbox 推定を解決するための最適化問題を構築します。具体的には、特徴点マッチングと動的三角測量技術によって動的 3D ポイントが復元され、車両の動きがモデル化され、オブジェクト、3D ポイント、カメラ間の観測が共同で最適化され、動的オブジェクトの最適な推定 3D bbox が得られます。

2Dから3D（左から2番目）3Dオブジェクト検出の例

2.3 ネールフ再構成: フォトリアリスティックレンダリング、自由視点

ニューラルネットワークを使用して暗黙的な再構築を行い、微分可能なレンダリングモデルを活用して、既存のビューから新しい視点で画像をレンダリングする方法を学習することで、フォトリアリスティックな画像レンダリング、つまりニューラル放射場 (NeRF) テクノロジを実現します。同時に、暗黙的な再構築は編集可能でクエリ可能な連続空間という特性があり、自動運転シナリオにおける自動ラベル付けやシミュレーションデータ構築などのタスクに使用できます。 NeRF テクノロジーを使用してシーンを再構築することは非常に価値があります。

Volcano Engine マルチメディアラボは、神経放射場技術と大規模シーンモデリング技術を統合します。具体的な実践では、まずデータを処理します。シーン内の動的なオブジェクトは、NeRF 再構成でアーティファクトを引き起こします。独自に開発した動的および静的セグメンテーション、影検出などのアルゴリズムを使用して、シーン内の幾何学的に矛盾する領域を抽出し、マスクを生成します。同時に、ビデオ修復アルゴリズムを使用して、削除された領域を修復します。自社開発の 3D 再構築機能を利用して、カメラパラメータの推定や疎および密なポイントクラウドの生成など、シーンの高精度な幾何学的再構築が実行されます。さらに、シナリオを分割して単一のトレーニングセッションのリソース消費を削減し、分散トレーニングとメンテナンスを実行することもできます。ニューラル放射線場トレーニングプロセス中、境界のない大規模な屋外シーンに対して、チームはいくつかの最適化戦略を使用して、このシーンでの新しい視点の生成効果を改善しました。たとえば、トレーニング中のポーズを最適化することで再構築精度を向上させ、ハッシュコーディングの階層的表現に基づいてモデルのトレーニング速度を向上させ、外観コーディングを利用して異なる時間に収集されたシーンの外観の一貫性を向上させ、MVS高密度深度情報を利用して幾何学的精度を向上させました。チームはHaomo AIと協力して、シングルチャネル取得とマルチチャネル統合NeRF再構築を完了し、関連する結果がHaomo AI Dayで発表されました。

動的オブジェクト/シャドウカリング、パディング

<<: IDC: AIソリューションへの世界的な支出は3年以内に5000億ドルを超える

>>: ボストン・ダイナミクスのロボット犬がチャットできるようになりました！ ChatGPTは機知に富んだ会話をサポートします