GoogleとWaymoが提案する4D-Netは、RGB画像と点群を組み合わせて遠くのターゲットを検出します

GoogleとWaymoが提案する4D-Netは、RGB画像と点群を組み合わせて遠くのターゲットを検出します

今日の自動運転車やロボットは、LIDARやカメラなどのさまざまなセンサーを通じて情報を取得できます。センサーとしての LiDAR は光のパルスを使用してシーン内のオブジェクトの 3D 座標を測定しますが、まばらさと範囲の制限という問題があります。つまり、センサーから遠ざかるほど、返されるポイントが少なくなります。つまり、遠くの物体は数点しか取得されないか、まったく取得されない可能性があり、LiDAR だけでは捕捉できない可能性があります。同時に、オンボードカメラからの画像入力は非常に高密度であるため、検出やオブジェクトのセグメンテーションなどの意味理解タスクに役立ちます。高解像度のカメラは遠くの物体を検出するのに非常に効果的ですが、距離を測定する精度は低くなります。

自動運転車は、LiDAR と車載カメラ センサーからデータを収集します。各センサーの測定値は一定の間隔で記録され、4D の世界を正確に表現します。ただし、この 2 つを一緒に使用する研究アルゴリズムはほとんどありません。両方のセンシング モダリティを同時に使用する場合、2 つの課題があります。1) 計算効率を維持するのが難しい、2) LiDAR ポイントとオンボード カメラの RGB 画像入力が必ずしも直接対応しているわけではないため、1 つのセンサーからの情報を他のセンサーの情報と組み合わせるとシステムの複雑さがさらに増す、です。

ICCV 2021で発表された論文「学習したマルチモーダルアライメントのための4D-Net」では、GoogleとWaymoの研究者が4Dデータ(3Dポイントクラウドと車載カメラ画像データ)を処理できるニューラルネットワーク、4D-Netを提案しました。これは、3D LiDAR ポイント クラウドと車両カメラの RGB 画像を組み合わせた最初の研究です。さらに、Google は動的接続学習方式も導入しました。最後に、Google は、4D-Net が計算効率を維持しながら、動きの手がかりと高密度の画像情報をより有効に活用して遠くの物体を検出できることを実証しました。

論文アドレス: https://openaccess.thecvf.com/content/ICCV2021/papers/Piergiovanni_4D-Net_for_Learned_Multi-Modal_Alignment_ICCV_2021_paper.pdf

4Dネット

Google は、オブジェクトの 3D 境界ボックスの検出に 4D 入力を使用します。 4D-Net は、3D LiDAR ポイント クラウドと RGB 画像をタイムリーに効果的に組み合わせ、さまざまなセンサー間の接続とその特徴表現を学習します。

Google は軽量ニューラル アーキテクチャ検索を使用して、2 種類のセンサー入力とその特徴表現の関係を学習し、最も正確な 3D ボックス検出を実現します。自動運転の分野では、大きく変化する距離にある物体を確実に検出することが特に重要です。最新の LiDAR センサーの検出範囲は最大数百メートルです。つまり、遠くにある物体は画像内で小さく表示され、最も重要な特徴はネットワークの初期の層に存在し、後の層で表される近くの物体と比較して、細かいスケールの特徴をより適切に捉えることができます。この観察に基づいて、接続を動的に変更し、自己注意メカニズムを使用してすべてのレイヤーの機能を選択します。 Google は、他のすべてのレイヤーの重みに注意重みを適用し、現在のタスクに最適な組み合わせを学習できる学習可能な線形レイヤーを適用します。

接続学習法の概略図。

結果

Google は Waymo Open Dataset ベンチマークでこれをテストしました。以前のモデルでは、3D ポイント クラウドのみ、または単一のポイント クラウドとカメラ画像データの組み合わせが使用されていました。 4D-Net は 2 つのセンサー入力を効果的に使用し、32 個のポイント クラウドと 16 個の RGB フレームを 164 ミリ秒で処理し、他の方法と比較して優れたパフォーマンスを発揮します。対照的に、2 番目に優れたパフォーマンスを発揮する方法は、ニューラル ネットワークの計算に 300 ミリ秒かかり、4D-Net よりもセンサー入力が少ないため、効率と精度が低くなります。

3Dシーンの結果。上部: 検出された車両に対応する 3D ボックスが異なる色で表示され、破線のボックスは失われたオブジェクトを表します。下部: 視覚化のために、対応するカメラ画像にボックスが表示されます。

遠くの物体を検出する

4D-Net のもう 1 つの利点は、RGB が提供する高解像度を利用して画像上のオブジェクトを正確に検出し、ポイント クラウド データが提供する正確な深度を活用できることです。そのため、点群方式では検出できない遠距離の対象物も4D-Netでは検出可能です。これはカメラ データの融合によるもので、遠くの物体を検出し、その情報をネットワークの 3D 部分に効率的に伝播して正確な検出を行うことができます。

4D-Net がもたらす利点を理解するために、Google は一連のアブレーション研究を実施しました。実験により、少なくとも 1 つのセンサー入力が時間内にストリーミングされると、検出精度が大幅に向上することがわかりました。両方のセンサー入力を時間内に考慮することで、パフォーマンスを最大化できます。

4D-Net の 3D オブジェクト検出のパフォーマンスは、ポイント クラウド (PC)、時間ポイント クラウド (PC + T)、RGB 画像入力 (RGB)、および時間 RGB 画像 (RGB + T) を使用した場合の平均精度 (AP) で測定されます。

マルチストリーム 4D-Net

4D-Net の動的接続学習メカニズムは汎用的であるため、Google はポイント クラウド ストリームと RGB ビデオ ストリームのみを組み合わせることに限定されません。実際には、Google は、高解像度の単一画像ストリームと低解像度のビデオ ストリームを 3D ポイント クラウド ストリーム入力と組み合わせて提供することが非常に費用対効果が高いことを発見しました。そのため、Google は、リアルタイムのポイント クラウドと画像を使用した 2 ストリーム アーキテクチャよりもパフォーマンスが優れている 4 ストリーム アーキテクチャの例を次の図に示します。

動的連結は、連結する特定の特徴入力を選択することを学習します。複数の入力ストリームがある場合、4D-Net は複数のターゲット機能表現間の接続を学習する必要がありますが、アルゴリズムは変更されておらず、入力から特定の機能を選択するだけでよいため、これは当然のことです。これは、微分可能なアーキテクチャ検索を使用してモデル アーキテクチャ内の新しい接続を検出し、新しい 4D-Net モデルを効率的に見つける軽量プロセスです。

マルチストリーム 4D-Net アーキテクチャは、リアルタイム 3D ポイント クラウド ストリームと複数の画像ストリーム (高解像度の単一画像ストリーム、中解像度の単一画像ストリーム、および低解像度のビデオ ストリーム画像) で構成されます。

Google は、4D-Net が効率的な物体検出方法であり、特に遠くの物体を検出するのに適していることを実証しました。研究者たちは、この研究が将来の 4D データ研究に貴重なリソースを提供することを期待しています。

<<:  ニューラル放射フィールドはポイントベースで、NeRFよりも30倍高速なトレーニング速度と優れたレンダリング品質を備えています。

>>:  6つの主要なディープラーニングフレームワークの詳細な説明

ブログ    
ブログ    
ブログ    

推薦する

人工知能の最前線:ブレークスルーの機会と希望

[[253441]]人工知能技術の進歩、産業の革新、産業の発展は、産業の基礎となる人工知能の最先端の...

機械学習の巨匠マイケル・ジョーダン:すべてがAIと呼ばれるわけではない

近い将来、現実世界についての抽象的な推論を実行する能力において、コンピューターは人間に匹敵することは...

マイクロソフトは、Power Platform 向け Copilot サービスの開始を正式に発表しました。これにより、AI によるアプリ開発が一文で可能になります。

マイクロソフトは10月27日、エンタープライズアプリケーションカンファレンスにおいて、ローコードプラ...

業界の資金調達が活発化しています!自動運転技術は物流分野で初めて導入される可能性

2019年、自動運転分野は谷間に向かうかに見えましたが、わずか数か月で業界は徐々に再び熱を帯び始め、...

...

Kubernetes上の機械学習プラットフォームの実践

背景これまで、音楽アルゴリズムのモデル トレーニング タスクは、物理マシン上で開発、デバッグ、スケジ...

AIは新たな科学革命を先導している

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

安定したビデオ拡散がここにあります、コードウェイトはオンラインです

AI描画で有名なStability AIが、ついにAI生成動画の分野に参入した。今週の火曜日、Sta...

過大評価されすぎた人工知能バブルは、どのように崩壊するのでしょうか。

実は、似たような事件は以前にも起きている。江蘇省衛星テレビの番組「The Brain」では、百度脳が...

疫病流行中の人間の行動にAIが混乱!データ変更による作業の「異常」は手動での制御が必要

[[327938]]ビッグデータダイジェスト制作著者: 劉俊環半年前に Taobao をオープンした...

...

...

2020年に人工知能を変える8つのトレンド

人工知能は長い間、架空の物語、SF、さらには映画にも登場してきました。人々の目には、これは技術的な魔...

...