GoogleとWaymoが提案する4D-Netは、RGB画像と点群を組み合わせて遠くのターゲットを検出します

GoogleとWaymoが提案する4D-Netは、RGB画像と点群を組み合わせて遠くのターゲットを検出します

今日の自動運転車やロボットは、LIDARやカメラなどのさまざまなセンサーを通じて情報を取得できます。センサーとしての LiDAR は光のパルスを使用してシーン内のオブジェクトの 3D 座標を測定しますが、まばらさと範囲の制限という問題があります。つまり、センサーから遠ざかるほど、返されるポイントが少なくなります。つまり、遠くの物体は数点しか取得されないか、まったく取得されない可能性があり、LiDAR だけでは捕捉できない可能性があります。同時に、オンボードカメラからの画像入力は非常に高密度であるため、検出やオブジェクトのセグメンテーションなどの意味理解タスクに役立ちます。高解像度のカメラは遠くの物体を検出するのに非常に効果的ですが、距離を測定する精度は低くなります。

自動運転車は、LiDAR と車載カメラ センサーからデータを収集します。各センサーの測定値は一定の間隔で記録され、4D の世界を正確に表現します。ただし、この 2 つを一緒に使用する研究アルゴリズムはほとんどありません。両方のセンシング モダリティを同時に使用する場合、2 つの課題があります。1) 計算効率を維持するのが難しい、2) LiDAR ポイントとオンボード カメラの RGB 画像入力が必ずしも直接対応しているわけではないため、1 つのセンサーからの情報を他のセンサーの情報と組み合わせるとシステムの複雑さがさらに増す、です。

ICCV 2021で発表された論文「学習したマルチモーダルアライメントのための4D-Net」では、GoogleとWaymoの研究者が4Dデータ(3Dポイントクラウドと車載カメラ画像データ)を処理できるニューラルネットワーク、4D-Netを提案しました。これは、3D LiDAR ポイント クラウドと車両カメラの RGB 画像を組み合わせた最初の研究です。さらに、Google は動的接続学習方式も導入しました。最後に、Google は、4D-Net が計算効率を維持しながら、動きの手がかりと高密度の画像情報をより有効に活用して遠くの物体を検出できることを実証しました。

論文アドレス: https://openaccess.thecvf.com/content/ICCV2021/papers/Piergiovanni_4D-Net_for_Learned_Multi-Modal_Alignment_ICCV_2021_paper.pdf

4Dネット

Google は、オブジェクトの 3D 境界ボックスの検出に 4D 入力を使用します。 4D-Net は、3D LiDAR ポイント クラウドと RGB 画像をタイムリーに効果的に組み合わせ、さまざまなセンサー間の接続とその特徴表現を学習します。

Google は軽量ニューラル アーキテクチャ検索を使用して、2 種類のセンサー入力とその特徴表現の関係を学習し、最も正確な 3D ボックス検出を実現します。自動運転の分野では、大きく変化する距離にある物体を確実に検出することが特に重要です。最新の LiDAR センサーの検出範囲は最大数百メートルです。つまり、遠くにある物体は画像内で小さく表示され、最も重要な特徴はネットワークの初期の層に存在し、後の層で表される近くの物体と比較して、細かいスケールの特徴をより適切に捉えることができます。この観察に基づいて、接続を動的に変更し、自己注意メカニズムを使用してすべてのレイヤーの機能を選択します。 Google は、他のすべてのレイヤーの重みに注意重みを適用し、現在のタスクに最適な組み合わせを学習できる学習可能な線形レイヤーを適用します。

接続学習法の概略図。

結果

Google は Waymo Open Dataset ベンチマークでこれをテストしました。以前のモデルでは、3D ポイント クラウドのみ、または単一のポイント クラウドとカメラ画像データの組み合わせが使用されていました。 4D-Net は 2 つのセンサー入力を効果的に使用し、32 個のポイント クラウドと 16 個の RGB フレームを 164 ミリ秒で処理し、他の方法と比較して優れたパフォーマンスを発揮します。対照的に、2 番目に優れたパフォーマンスを発揮する方法は、ニューラル ネットワークの計算に 300 ミリ秒かかり、4D-Net よりもセンサー入力が少ないため、効率と精度が低くなります。

3Dシーンの結果。上部: 検出された車両に対応する 3D ボックスが異なる色で表示され、破線のボックスは失われたオブジェクトを表します。下部: 視覚化のために、対応するカメラ画像にボックスが表示されます。

遠くの物体を検出する

4D-Net のもう 1 つの利点は、RGB が提供する高解像度を利用して画像上のオブジェクトを正確に検出し、ポイント クラウド データが提供する正確な深度を活用できることです。そのため、点群方式では検出できない遠距離の対象物も4D-Netでは検出可能です。これはカメラ データの融合によるもので、遠くの物体を検出し、その情報をネットワークの 3D 部分に効率的に伝播して正確な検出を行うことができます。

4D-Net がもたらす利点を理解するために、Google は一連のアブレーション研究を実施しました。実験により、少なくとも 1 つのセンサー入力が時間内にストリーミングされると、検出精度が大幅に向上することがわかりました。両方のセンサー入力を時間内に考慮することで、パフォーマンスを最大化できます。

4D-Net の 3D オブジェクト検出のパフォーマンスは、ポイント クラウド (PC)、時間ポイント クラウド (PC + T)、RGB 画像入力 (RGB)、および時間 RGB 画像 (RGB + T) を使用した場合の平均精度 (AP) で測定されます。

マルチストリーム 4D-Net

4D-Net の動的接続学習メカニズムは汎用的であるため、Google はポイント クラウド ストリームと RGB ビデオ ストリームのみを組み合わせることに限定されません。実際には、Google は、高解像度の単一画像ストリームと低解像度のビデオ ストリームを 3D ポイント クラウド ストリーム入力と組み合わせて提供することが非常に費用対効果が高いことを発見しました。そのため、Google は、リアルタイムのポイント クラウドと画像を使用した 2 ストリーム アーキテクチャよりもパフォーマンスが優れている 4 ストリーム アーキテクチャの例を次の図に示します。

動的連結は、連結する特定の特徴入力を選択することを学習します。複数の入力ストリームがある場合、4D-Net は複数のターゲット機能表現間の接続を学習する必要がありますが、アルゴリズムは変更されておらず、入力から特定の機能を選択するだけでよいため、これは当然のことです。これは、微分可能なアーキテクチャ検索を使用してモデル アーキテクチャ内の新しい接続を検出し、新しい 4D-Net モデルを効率的に見つける軽量プロセスです。

マルチストリーム 4D-Net アーキテクチャは、リアルタイム 3D ポイント クラウド ストリームと複数の画像ストリーム (高解像度の単一画像ストリーム、中解像度の単一画像ストリーム、および低解像度のビデオ ストリーム画像) で構成されます。

Google は、4D-Net が効率的な物体検出方法であり、特に遠くの物体を検出するのに適していることを実証しました。研究者たちは、この研究が将来の 4D データ研究に貴重なリソースを提供することを期待しています。

<<:  ニューラル放射フィールドはポイントベースで、NeRFよりも30倍高速なトレーニング速度と優れたレンダリング品質を備えています。

>>:  6つの主要なディープラーニングフレームワークの詳細な説明

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

LangGraphの無限の可能性を発見

著者 | 崔昊レビュー | Chonglouまとめこの記事では、LangChain をベースにした新...

シェア | Meituanのディープラーニングシステムのエンジニアリング実践

背景ディープラーニングは、AI時代の中核技術として、さまざまなシナリオに適用されてきました。システム...

中国でApp Storeのランキング操作を禁止しアルゴリズムを調整

国内アプリプロモーション機関APPYINGはこのほど、アップルのApp Store Chinaランキ...

最高裁:アプリは顔情報を収集・処理するためにユーザーの個別の同意が必要

最高人民法院研究室民事部の陳龍野部長は、一部のモバイルアプリケーション(APP)はしばらくの間、パッ...

Weibo での PageRank アルゴリズムの適用

このアイデアは、かなり早い段階で思いつきました。私は検索エンジンの経験があるため、検索エンジンにおけ...

MIT の新しい研究: 労働者は AI によって排除されることを心配する必要はありません。コストは非常に高く、視覚的な作業の23%しか置き換えられない

人工知能は私たちの仕事を奪うのでしょうか?シリコンバレーの幹部が今日の最先端の AI テクノロジーに...

2018年に「ブロックチェーン+人工知能」について知っておくべきこと

現在、ビジネス界、テクノロジー界、金融界を問わず、最もホットな言葉は「ブロックチェーン」に他なりませ...

人工知能の分野でどのように計画するか? マイクロソフトはこうする

[51CTO.com からのオリジナル記事] 人工知能は勢いを増しており、多くの大手企業が独自の計画...

Google AIのスターがPika: ビデオ生成Lumiereの創設科学者に就任

動画世代が猛スピードで進化する中、ピカは偉大なる将軍を迎える―― Google の研究者である Om...

AIによる自動思考の隠れたコストについて

[[273454]]多くの薬と同様に、精神を明晰に保つために特に使用される薬であるモダフィニルには、...

AIを使ってAIを評価する上海交通大学の新しい大規模モデルは、いくつかのタスクでGPT-4を上回り、モデルデータはオープンソースです

大規模モデルのアライメントパフォーマンスを評価する最も効率的な方法は何ですか?生成AIのトレンドでは...

...

戻れる幼少時代!快手が「子供になる」特殊効果をリリース

「子供時代に戻りたい。子供の頃はよく食べて、よく寝て、あまり考えないことが好きだった」。山西省大同市...