GoogleとWaymoが提案する4D-Netは、RGB画像と点群を組み合わせて遠くのターゲットを検出します

今日の自動運転車やロボットは、LIDARやカメラなどのさまざまなセンサーを通じて情報を取得できます。センサーとしての LiDAR は光のパルスを使用してシーン内のオブジェクトの 3D 座標を測定しますが、まばらさと範囲の制限という問題があります。つまり、センサーから遠ざかるほど、返されるポイントが少なくなります。つまり、遠くの物体は数点しか取得されないか、まったく取得されない可能性があり、LiDAR だけでは捕捉できない可能性があります。同時に、オンボードカメラからの画像入力は非常に高密度であるため、検出やオブジェクトのセグメンテーションなどの意味理解タスクに役立ちます。高解像度のカメラは遠くの物体を検出するのに非常に効果的ですが、距離を測定する精度は低くなります。

自動運転車は、LiDAR と車載カメラセンサーからデータを収集します。各センサーの測定値は一定の間隔で記録され、4D の世界を正確に表現します。ただし、この 2 つを一緒に使用する研究アルゴリズムはほとんどありません。両方のセンシングモダリティを同時に使用する場合、2 つの課題があります。1) 計算効率を維持するのが難しい、2) LiDAR ポイントとオンボードカメラの RGB 画像入力が必ずしも直接対応しているわけではないため、1 つのセンサーからの情報を他のセンサーの情報と組み合わせるとシステムの複雑さがさらに増す、です。

ICCV 2021で発表された論文「学習したマルチモーダルアライメントのための4D-Net」では、GoogleとWaymoの研究者が4Dデータ（3Dポイントクラウドと車載カメラ画像データ）を処理できるニューラルネットワーク、4D-Netを提案しました。これは、3D LiDAR ポイントクラウドと車両カメラの RGB 画像を組み合わせた最初の研究です。さらに、Google は動的接続学習方式も導入しました。最後に、Google は、4D-Net が計算効率を維持しながら、動きの手がかりと高密度の画像情報をより有効に活用して遠くの物体を検出できることを実証しました。

論文アドレス: https://openaccess.thecvf.com/content/ICCV2021/papers/Piergiovanni_4D-Net_for_Learned_Multi-Modal_Alignment_ICCV_2021_paper.pdf

4Dネット

Google は、オブジェクトの 3D 境界ボックスの検出に 4D 入力を使用します。 4D-Net は、3D LiDAR ポイントクラウドと RGB 画像をタイムリーに効果的に組み合わせ、さまざまなセンサー間の接続とその特徴表現を学習します。

Google は軽量ニューラルアーキテクチャ検索を使用して、2 種類のセンサー入力とその特徴表現の関係を学習し、最も正確な 3D ボックス検出を実現します。自動運転の分野では、大きく変化する距離にある物体を確実に検出することが特に重要です。最新の LiDAR センサーの検出範囲は最大数百メートルです。つまり、遠くにある物体は画像内で小さく表示され、最も重要な特徴はネットワークの初期の層に存在し、後の層で表される近くの物体と比較して、細かいスケールの特徴をより適切に捉えることができます。この観察に基づいて、接続を動的に変更し、自己注意メカニズムを使用してすべてのレイヤーの機能を選択します。 Google は、他のすべてのレイヤーの重みに注意重みを適用し、現在のタスクに最適な組み合わせを学習できる学習可能な線形レイヤーを適用します。

接続学習法の概略図。

結果

Google は Waymo Open Dataset ベンチマークでこれをテストしました。以前のモデルでは、3D ポイントクラウドのみ、または単一のポイントクラウドとカメラ画像データの組み合わせが使用されていました。 4D-Net は 2 つのセンサー入力を効果的に使用し、32 個のポイントクラウドと 16 個の RGB フレームを 164 ミリ秒で処理し、他の方法と比較して優れたパフォーマンスを発揮します。対照的に、2 番目に優れたパフォーマンスを発揮する方法は、ニューラルネットワークの計算に 300 ミリ秒かかり、4D-Net よりもセンサー入力が少ないため、効率と精度が低くなります。

3Dシーンの結果。上部: 検出された車両に対応する 3D ボックスが異なる色で表示され、破線のボックスは失われたオブジェクトを表します。下部: 視覚化のために、対応するカメラ画像にボックスが表示されます。

遠くの物体を検出する

4D-Net のもう 1 つの利点は、RGB が提供する高解像度を利用して画像上のオブジェクトを正確に検出し、ポイントクラウドデータが提供する正確な深度を活用できることです。そのため、点群方式では検出できない遠距離の対象物も4D-Netでは検出可能です。これはカメラデータの融合によるもので、遠くの物体を検出し、その情報をネットワークの 3D 部分に効率的に伝播して正確な検出を行うことができます。

4D-Net がもたらす利点を理解するために、Google は一連のアブレーション研究を実施しました。実験により、少なくとも 1 つのセンサー入力が時間内にストリーミングされると、検出精度が大幅に向上することがわかりました。両方のセンサー入力を時間内に考慮することで、パフォーマンスを最大化できます。

4D-Net の 3D オブジェクト検出のパフォーマンスは、ポイントクラウド (PC)、時間ポイントクラウド (PC + T)、RGB 画像入力 (RGB)、および時間 RGB 画像 (RGB + T) を使用した場合の平均精度 (AP) で測定されます。

マルチストリーム 4D-Net

4D-Net の動的接続学習メカニズムは汎用的であるため、Google はポイントクラウドストリームと RGB ビデオストリームのみを組み合わせることに限定されません。実際には、Google は、高解像度の単一画像ストリームと低解像度のビデオストリームを 3D ポイントクラウドストリーム入力と組み合わせて提供することが非常に費用対効果が高いことを発見しました。そのため、Google は、リアルタイムのポイントクラウドと画像を使用した 2 ストリームアーキテクチャよりもパフォーマンスが優れている 4 ストリームアーキテクチャの例を次の図に示します。

動的連結は、連結する特定の特徴入力を選択することを学習します。複数の入力ストリームがある場合、4D-Net は複数のターゲット機能表現間の接続を学習する必要がありますが、アルゴリズムは変更されておらず、入力から特定の機能を選択するだけでよいため、これは当然のことです。これは、微分可能なアーキテクチャ検索を使用してモデルアーキテクチャ内の新しい接続を検出し、新しい 4D-Net モデルを効率的に見つける軽量プロセスです。

マルチストリーム 4D-Net アーキテクチャは、リアルタイム 3D ポイントクラウドストリームと複数の画像ストリーム (高解像度の単一画像ストリーム、中解像度の単一画像ストリーム、および低解像度のビデオストリーム画像) で構成されます。

Google は、4D-Net が効率的な物体検出方法であり、特に遠くの物体を検出するのに適していることを実証しました。研究者たちは、この研究が将来の 4D データ研究に貴重なリソースを提供することを期待しています。

<<: ニューラル放射フィールドはポイントベースで、NeRFよりも30倍高速なトレーニング速度と優れたレンダリング品質を備えています。

>>: 6つの主要なディープラーニングフレームワークの詳細な説明

AI.com ドメインが ChatGPT から X.ai にリダイレクトされました

GoogleとWaymoが提案する4D-Netは、RGB画像と点群を組み合わせて遠くのターゲットを検出します

4Dネット

結果

遠くの物体を検出する

マルチストリーム 4D-Net

AI.com ドメインが ChatGPT から X.ai にリダイレクトされました

無補助外骨格メカNK01がゼロワンテクノロジーフェスティバルで公開される

AIはGoogleの変革のツールとなり得るか？

シリコンバレーのアイアンマンがウルトラマンを訴える！ GPT-4 がオープンソースになる見込みはありますか?

XML暗号化アルゴリズムが破られ、W3CはXML暗号化標準を改訂する必要がある

C# で開発されたソートアルゴリズムの詳細な説明

シェフとAIが協力してあなたの味覚を刺激します

中間レビュー: 2020 年に最も注目されたデータサイエンスと機械学習のスタートアップ 10 社

アメリカがスーパーコンピューティングで世界トップの座を奪還！人類はエクサスケールのスーパーコンピューティングを実現、フロンティアが世界トップ500リストのトップに

推薦する

リバースエンジニアリングの後、Transformer は数学的なフレームワークに「変換」します | 25 人の学者が記事を執筆しました

Waymo は不十分なデータを補うために GAN を使用しています。生成された画像を使用して、シミュレーション環境でモデルをトレーニングします。

強化学習の父がAGIスタートアップ業界に参入！伝説のプログラマー、カーマックと力を合わせ、彼らは大規模なモデルに頼らないことを誓った

NLP ビッグモデルを時系列に適用するにはどうすればよいでしょうか? 5つの方法をまとめました！

科学者はロボットに人間に近い触覚を与える人工指先を開発

OpenAIがGPTストアを正式に開始

人工知能は人間の言語を習得したのか？見た目は騙されることがある

AIを使って新薬を「発見」し、研究開発を加速させる

NvidiaはAIでの成功を量子コンピューティングに応用しようとしている

ビッグニュース！ケンブリッジ大学の年次AIパノラマレポートが発表：米国のトップAI人材の27％が中国での教育歴を持つ

NLPの問題の90%を解決する方法を段階的に教えます

ベンチマーク: 14 のソートアルゴリズムと PHP 配列

ロボットが書いた記事には著作権がありますか?国内初の人工知能論文著作権訴訟を例に挙げる