クラウド上でのインテリジェント運転の 3D 再構築のベスト プラクティス

クラウド上でのインテリジェント運転の 3D 再構築のベスト プラクティス

インテリジェント運転技術の継続的な発展により、私たちの移動方法や交通システムは変化しています。 3D 再構築は重要な技術の 1 つとして、インテリジェント運転システムにおいて重要な役割を果たします。車両側の認識および再構築アルゴリズムに加えて、自動運転技術の実装と開発には、クラウドベースの膨大な再構築機能が必要です。 Volcano Engineマルチメディア研究所は、業界をリードする自社開発の3D再構築技術と強力なクラウドプラットフォームのリソースと機能を組み合わせ、大規模な再構築、自動ラベリング、クラウドでのリアルなシミュレーションなどのシナリオでの関連技術の実装と応用を支援します。

この記事は、Volcano Engine Multimedia Laboratory の動的および静的シーンにおける 3D 再構築技術の原理と実践に焦点を当て、高度なライト フィールド再構築技術と組み合わせて、クラウドベースのインテリジェント 3D 再構築がインテリジェント運転の分野にどのように役立ち、業界の発展を促進できるかをすべての人がよりよく理解し認識できるようにします。

1. 技術的な課題と困難

運転シーンの再構築には、道路環境の点群レベルの 3D 再構築が必要です。従来の 3D 再構築技術の適用シナリオと比較すると、運転シーンの再構築技術には次のような困難があります。

  1. 車両運転中の環境要因は複雑で制御不能です。さまざまな天候、照明、車両速度、道路状況などが車載センサーによって収集されたデータに影響を与え、再構築技術の堅牢性に課題をもたらします。
  2. 道路シーンでは、特徴の劣化やテクスチャの損失がよく発生します。たとえば、カメラは視覚的特徴の乏しい画像情報を取得したり、LIDAR は類似性が高いシーン構造情報を取得したりします。同時に、再構築の重要な要素の 1 つである路面は単色で、十分なテクスチャ情報が不足しているため、再構築技術に対する要求が高くなります。
  3. 車載センサーはカメラ、ライダー、ミリ波レーダー、慣性航法、GPS測位システム、車輪速計など多数あり、複数のセンサーからのデータを統合してより正確な再構築結果を得る方法が再構築技術の課題となっています。
  4. 移動中の車両、非自動車、道路上の歩行者などの動的オブジェクトの存在は、従来の再構成アルゴリズムに課題をもたらします。静的シーンの再構成において動的オブジェクトの干渉を排除し、動的オブジェクトの位置、サイズ、速度を推定する方法も、プロジェクトの難しさの 1 つです。

2. 運転シーン再現技術の紹介

自動運転分野における再構築アルゴリズムは、通常、LIDARとカメラを主に使用し、GPSと慣性航法で補完する技術的なルートを採用しています。 LiDAR は高精度の測距情報を直接取得し、シーン構造を素早く取得できます。事前に実行された LiDAR カメラのジョイント キャリブレーションにより、カメラで取得した画像からレーザー ポイント クラウドの色、セマンティクスなどの情報を得ることができます。同時に、GPS と慣性航法は、再構築プロセス中の特徴の劣化によって生じるドリフトを軽減するための補助的な測位を提供できます。しかし、マルチラインLIDARは価格が高いため、通常はエンジニアリング車両で使用され、量産車両に大規模に使用することは困難です。

これに対応して、火山エンジンマルチメディア研究所は、静的シーン再構成、動的オブジェクト再構成、神経放射場再構成技術を含む一連の純粋に視覚的な運転シーン再構成技術を独自に開発しました。シーン内の動的オブジェクトと静的オブジェクトを区別し、静的シーンの高密度ポイントクラウドを復元し、路面、標識、信号機などの重要な要素を強調表示できます。シーン内の移動オブジェクトの位置、サイズ、方向、速度を効果的に推定し、その後の4D注釈を作成できます。神経放射場を使用して、静的シーン再構成に基づいてシーンを再構成および再現し、自由視点ローミングを実現し、シーン編集やシミュレーションレンダリングに使用できます。この技術的ソリューションは、LIDAR に依存せず、デシメートル レベルの相対誤差を実現し、最小限のハードウェア コストで LIDAR に近い再構成効果を実現します。

2.1 静的シーン再構成技術:動的干渉を排除し、静的シーンを復元する

視覚再構成技術は、マルチビュージオメトリの理論に基づいており、再構成するシーンまたはオブジェクトがフレーム間の一貫性、つまり異なる画像フレームで静的な状態にあることが必要です。したがって、再構成プロセス中に動的なオブジェクトを排除する必要があります。シーン内のさまざまな要素の重要度に応じて、密なポイント クラウドから重要でないポイント クラウドを削除し、いくつかの重要な要素のポイント クラウドを保持する必要があるため、事前に画像に対してセマンティック セグメンテーションを実行する必要があります。この点について、  火山エンジン マルチメディア ラボでは、AI テクノロジーとマルチビュー ジオメトリの基本原理を組み合わせて、高度で堅牢、正確かつ完全なビジュアル再構築アルゴリズム フレームワークを構築します。復興プロセスは3つの重要なステップから構成される  : 画像前処理、スパース再構成、密再構成 

撮影中は車載カメラが動いています。露出時間の関係で、車両の速度が上がると、撮影した画像に深刻なモーション ブラーが発生します。さらに、帯域幅とストレージスペースを節約するために、送信プロセス中に画像は不可逆的に圧縮され、画質がさらに低下します。この目的のために、Volcano Engine Multimedia Lab は、エンドツーエンドのニューラル ネットワークを使用して画像のぼかしを除去し、モーション ブラーを抑制しながら画質を向上させることができました。ぼかし除去前後の比較を下図に示します。

ぼかし除去前(左) ぼかし除去後(右)

動的オブジェクトを区別するために、Volcano Engine Multimedia Laboratory は、ピクセルレベルの動的オブジェクト マスクを取得できるオプティカル フローに基づく動的オブジェクト認識テクノロジを使用しました。その後の静的シーン再構築プロセスでは、動的オブジェクト領域にある特徴点が削除され、静的シーンとオブジェクトのみが保持されます。

オプティカルフロー(左) 移動物体(右)

スパース再構築プロセスでは、カメラの位置、方向、シーンのポイント クラウドを同時に計算する必要があります。一般的に使用されるアルゴリズムには、SLAM (Simultaneous localization and mapping) や SFM (Structure from Motion、略して SfM) などがあります。リアルタイムのパフォーマンスが要求されない場合、SFM アルゴリズムはより高い再構築精度を実現できます。ただし、従来の SFM アルゴリズムでは通常、各カメラを独立したカメラとして扱いますが、車両には通常、前後左右のさまざまな方向に複数のカメラが配置されています。これらのカメラの相対的な位置は実際には固定されています (車両の振動による微妙な変化は無視されます)。カメラ間の相対的な位置制約を無視すると、各カメラの計算された位置誤差は比較的大きくなります。さらに、遮蔽がひどい場合、個々のカメラの姿勢を計算することが難しくなります。これに対応して、火山エンジンマルチメディア研究所は、カメラ群全体に基づくSFMアルゴリズムを独自に開発しました。カメラ間の事前相対姿勢制約を利用して、カメラ群全体の姿勢を計算することができます。同時に、GPSと慣性航法の融合測位結果を使用して、カメラ群の中心位置を制約することで、姿勢推定の成功率と精度を効果的に向上させ、異なるカメラ間の点群の不一致を改善し、点群の階層化を軽減できます。

従来のSFM(左)カメラグループSFM(右)

地面は単色でテクスチャがないため、従来の視覚的再構築では地面全体を復元することが困難です。しかし、地面には車線、矢印、テキスト/標識などの重要な要素があります。そのため、Volcano Engine Multimedia Laboratory は、地面をフィッティングするために二次曲面を使用し、地面領域の深度推定とポイント クラウド フュージョンを支援します。実際の道路表面は理想的な平面ではないことが多いため、平面フィッティングと比較すると、二次曲面は実際の道路のシーンにより近くなります。以下は、平面方程式と二次曲面方程式を使用して地面をフィッティングした場合の効果の比較です。

平面方程式(左) 二次曲面方程式(右)

レーザーポイントクラウドを真値として考え、その上に視覚的な再構築結果を重ね合わせることで、再構築されたポイントクラウドの精度を直感的に測定できます。下の図からわかるように、再構成された点群と実際の点群は非常に一致しています。測定後、再構成結果の相対誤差は約 15cm です。

Volcano Engine Multimedia Laboratoryの再構築結果(カラー)と実際の点群(白)

以下は、Volcano Engine Multimedia Laboratory の視覚再構築アルゴリズムと主流の商用再構築ソフトウェアの比較です。市販のソフトウェアと比較すると、Volcano Engine Multimedia Laboratory の独自開発アルゴリズムの方が再構築効果がより優れ、より完全であることがわかります。道路標識、信号機、電柱、車線、路面の矢印など、シーン内の特徴が高度に復元されていますが、市販のソフトウェアの再構築された点群は非常にまばらで、路面の広い範囲が欠落しています。

主流の商用ソフトウェア(左) Volcano Engine Multimedia Laboratory アルゴリズム(右)

2.2  ダイナミック再構築技術

画像内のオブジェクトに 3D 注釈を付けるのは非常に難しく、ポイント クラウドが必要になります。車両に視覚センサーしかない場合、シーン内の対象オブジェクトの完全なポイント クラウドを取得するのは非常に困難です。特に動的オブジェクトの場合、従来の 3D 再構築技術を使用して高密度のポイント クラウドを取得することは不可能です。移動物体の表現と4D注釈を提供するために、3Dバウンディングボックス(以下、3D bbox)を使用して動的物体を表現します。シーン内の各瞬間の動的物体の3D bboxの姿勢、サイズ、速度などは、独自に開発した動的再構成アルゴリズムによって取得され、動的物体再構成機能が完成します。

パイプラインを動的に再構築する

車両によって収集された画像の各フレームについて、まずシーン内の動的ターゲットを抽出し、3D bbox の初期提案を生成します。2D ターゲット検出を使用してカメラのポーズから対応する 3D bbox を推定する方法と、3D ターゲット検出を直接使用する方法の 2 つの方法が提供されます。 2 つの方法は、異なるデータに対して柔軟に選択できます。2D 検出は一般化が良好で、3D 検出ではより優れた初期値を取得できます。同時に、画像の動的領域内の特徴点が抽出されます。単一フレーム画像の初期 3D bbox 提案と特徴点を取得した後、複数のフレーム間のデータ関連付けを確立します。つまり、独自に開発したマルチターゲット追跡アルゴリズムを通じてオブジェクト マッチングを確立し、特徴マッチング技術を通じて画像の特徴をマッチングします。マッチング関係を取得した後、共視聴関係にある画像フレームをローカルマップとして作成し、グローバルに一貫したターゲット bbox 推定を解決するための最適化問題を構築します。具体的には、特徴点マッチングと動的三角測量技術によって動的 3D ポイントが復元され、車両の動きがモデル化され、オブジェクト、3D ポイント、カメラ間の観測が共同で最適化され、動的オブジェクトの最適な推定 3D bbox が得られます。

2Dから3D(左から2番目)3Dオブジェクト検出の例

2.3  ネールフ 再構成: フォトリアリスティックレンダリング、自由視点

ニューラル ネットワークを使用して暗黙的な再構築を行い、微分可能なレンダリング モデルを活用して、既存のビューから新しい視点で画像をレンダリングする方法を学習することで、フォトリアリスティックな画像レンダリング、つまりニューラル放射場 (NeRF) テクノロジを実現します。同時に、暗黙的な再構築は編集可能でクエリ可能な連続空間という特性があり、自動運転シナリオにおける自動ラベル付けやシミュレーションデータ構築などのタスクに使用できます。 NeRF テクノロジーを使用してシーンを再構築することは非常に価値があります。

Volcano Engine マルチメディア ラボは、神経放射場技術と大規模シーン モデリング技術を統合します。具体的な実践では、まずデータを処理します。シーン内の動的なオブジェクトは、NeRF 再構成でアーティファクトを引き起こします。独自に開発した動的および静的セグメンテーション、影検出などのアルゴリズムを使用して、シーン内の幾何学的に矛盾する領域を抽出し、マスクを生成します。同時に、ビデオ修復アルゴリズムを使用して、削除された領域を修復します。自社開発の 3D 再構築機能を利用して、カメラ パラメータの推定や疎および密なポイント クラウドの生成など、シーンの高精度な幾何学的再構築が実行されます。さらに、シナリオを分割して単一のトレーニング セッションのリソース消費を削減し、分散トレーニングとメンテナンスを実行することもできます。ニューラル放射線場トレーニングプロセス中、境界のない大規模な屋外シーンに対して、チームはいくつかの最適化戦略を使用して、このシーンでの新しい視点の生成効果を改善しました。たとえば、トレーニング中のポーズを最適化することで再構築精度を向上させ、ハッシュコーディングの階層的表現に基づいてモデルのトレーニング速度を向上させ、外観コーディングを利用して異なる時間に収集されたシーンの外観の一貫性を向上させ、MVS高密度深度情報を利用して幾何学的精度を向上させました。チームはHaomo AIと協力して、シングルチャネル取得とマルチチャネル統合NeRF再構築を完了し、関連する結果がHaomo AI Dayで発表されました。

動的オブジェクト/シャドウカリング、パディング

<<:  IDC: AIソリューションへの世界的な支出は3年以内に5000億ドルを超える

>>:  ボストン・ダイナミクスのロボット犬がチャットできるようになりました! ChatGPTは機知に富んだ会話をサポートします

ブログ    
ブログ    
ブログ    

推薦する

複合 AI: エンタープライズ AI の成功の鍵

最近、Dynatrace は、AI への投資が増加し続けるにつれて、「複合 AI」が企業による AI...

機械学習はどのような種類のタスクを解決できますか?

機械学習により、人間が設計した固定されたプログラムでは解決が難しい問題を解決できるようになります。科...

インテリジェントな意思決定の新時代: AutoGen による財務データの分析

著者 | 崔昊レビュー | ChonglouまとめAutoGenはAIをベースにしている 人間の意思...

2022 年ソフトウェア エンジニア レポートが公開されました。最も高い年収はサイバーセキュリティ業界、機械学習はNLPに勝てない

2022 年に雇用主の間で最も人気のあるプログラミング言語はどれですか? 地域や職種によってソフトウ...

あなたの AI は規制に対応できる準備ができていますか?

現在、人工知能 (AI) に関する同様の規制が世界中の複数の地域で施行され始めており、GDPR に関...

ハルビン工業大学は、象の鼻と同じくらい柔軟な人工筋肉を備えた柔軟なロボットを開発しました。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

2021年の人工知能の5つのトレンド

[[382638]]モバイル デバイス、スマート デバイス、IoT 製品からのデータが家庭や企業に溢...

2026年までにIoT分野のAIサービス収益は36億ドルに達する

iottechnewsによると、IoT分野の人工知能(AI)と機械学習(ML)サービスは年間40%成...

...

...

...

顔認識のゴッドファーザー、李自青氏:技術革新が業界の未来を力づける

NVIDIA の GTC CHINA 2016 テクノロジー カンファレンスでは、数多くの業界リーダ...

顔認識は政治的立場を決定できるか?研究者:本当ですよ!正解率は72%にも達する

アメリカのテクノロジーウェブサイト「ベンチャービート」が1月12日に報じたところによると、米スタンフ...