UniPAD: 自動運転のためのユニバーサル事前トレーニングパラダイムが登場!

UniPAD: 自動運転のためのユニバーサル事前トレーニングパラダイムが登場!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

UNIPAD: 自動運転のためのユニバーサル事前トレーニングパラダイム

UNIPAD: 自動運転のためのユニバーサル事前トレーニングパラダイム

論文リンク: https://arxiv.org/pdf/2310.08370.pdf

コードリンク: https://github.com/Nightmare-n/UniPAD

著者所属: 上海人工知能研究所 浙江大学 香港大学 中国科学技術大学 シドニー大学 浙江研究所

論文のアイデア:

自動運転の分野では、効果的な特徴学習の重要性が広く認識されています。従来の 3D 自己教師型事前トレーニング方法は幅広い成功を収めていますが、そのほとんどは元々 2D 画像用に設計されたアイデアに従っています。本稿では、3D ボリューム微分可能レンダリングのための新しい自己教師学習パラダイムである UniPAD を提案します。 UniPAD は 3D 空間を暗黙的にエンコードし、連続した 3D 形状構造とその 2D 投影の複雑な外観特性を再構築するのに役立ちます。当社のアプローチの柔軟性により、2D フレームワークと 3D フレームワークの両方にシームレスに統合でき、シーンをより包括的に理解できるようになります。本稿では、さまざまな下流 3D タスクに関する広範な実験を通じて、UniPAD の実現可能性と有効性を実証します。私たちの方法は、ライダー、カメラ、ライダーカメラベースのベースラインをそれぞれ 9.1、7.7、6.9 NDS 大幅に改善します。特に、当社の事前トレーニング済みパイプラインは、nuScenes 検証セットで 3D オブジェクト検出で 73.2 NDS、3D セマンティック セグメンテーションで 79.4 mIoU を達成し、従来の方法と比較して最先端の結果を達成しました。

主な貢献:

私たちの知る限り、この論文は、自動運転のコンテキストにおける自己教師あり学習のための新しい 3D 微分可能レンダリング アプローチを検討した初めての論文です。

このアプローチの柔軟性により、2D バックボーンの事前トレーニングに簡単に拡張できます。斬新なサンプリング戦略により、当社の方法は有効性と効率性の両面で優れていることが実証されています。

私たちは nuScenes データセットで包括的な実験を実施し、私たちのアプローチは 6 つの事前トレーニング戦略のパフォーマンスを上回りました。 7 つのバックボーンおよび 2 つの知覚タスクを含む実験は、私たちのアプローチの有効性に関する説得力のある証拠を提供します。

ネットワーク設計:

本稿では、効果的な 3D 表現学習に合わせて調整された新しい事前トレーニング パラダイムを提案します。このパラダイムは、複雑な正/負のサンプル割り当てを回避するだけでなく、3D 形状構造を学習するための継続的な監視信号を暗黙的に提供します。図 2 に示すように、フレームワーク全体はマスクされたポイント クラウドを入力として受け取り、3D 微分可能ニューラル レンダリングを通じて投影された 2D 深度画像上の欠落したジオメトリを再構築することを目的としています。具体的には、マスクされた LiDAR ポイント クラウドが提供される場合、私たちの方法では 3D エンコーダを使用して階層的な特徴を抽出します。次に、ボクセル化によって 3D 特徴がボクセル空間に変換されます。本論文ではさらに、微分可能なボリュームレンダリング法を適用して、完全な幾何学的表現を再構築します。当社のアプローチの柔軟性により、事前トレーニング済みの 2D バックボーンとのシームレスな統合が可能になります。マルチビュー画像機能は、リフト・スプリット・シュート (LSS) を介して 3D ボリュームを構築するために使用されます (Philion & Fidler、2020)。トレーニング段階の効率を維持するために、本論文では、トレーニングコストとメモリ消費を大幅に削減できる、自動運転アプリケーション向けに設計されたメモリ節約型のレイサンプリング戦略を提案します。新しいサンプリング戦略により、従来の方法と比較して精度が大幅に向上します。

図 1: 事前トレーニングによる 3D 検出とセグメンテーションの効果。C、L、M はそれぞれカメラ、LiDAR、融合モダリティを表します。

図 2: 全体的なアーキテクチャ。

私たちのフレームワークは、LiDAR ポイント クラウドまたはマルチビュー画像を入力として使用します。この論文ではまず、入力を部分的にマスクするマスク ジェネレータを提案します。次に、モダリティ固有のエンコーダーを適用して、スパースな可視特徴を抽出し、マスク領域がゼロで埋められた密な特徴に変換します。次に、モダリティ固有の特徴がボクセル空間に変換され、その後に投影レイヤーが続き、ボクセルの特徴が強化されます。最後に、ボリュームベースのニューラル レンダリングにより、可視領域とマスク領域の RGB または深度予測が生成されます。

実験結果:

引用:

Yang, H., Zhang, S., Huang, D., Wu, X., Zhu, H., He, T., Tang, S., Zhao, H., Qiu, Q., Lin, B., He, X., & Ouyang, W. (2023). UniPAD: 自動運転のためのユニバーサル事前トレーニングパラダイム。  翻訳: ...

オリジナルリンク: https://mp.weixin.qq.com/s/ep_al_G-ejQycgG4Jq0nTQ

<<:  IBMの調査によると、AIのフィッシング能力は人間と同等であることが判明

>>:  統計分析と人工知能の9つの有名な大惨事

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AI スペクトルをめぐる戦いは 5G にとって何を意味するのでしょうか?

インテリジェントな都市変革の活発なトレンドの中で、AI を使用して交通渋滞を管理することは、誰もが多...

海雲捷迅2018ビッグデータ博覧会ツアー——2018ビッグデータ博覧会人工知能世界大会決勝戦が終了

5月25日、2018年中国国際ビッグデータ博覧会人工知能世界大会決勝戦が予定通り貴陽で開催され、世界...

グラフニューラルネットワークは急成長を遂げており、最新の進歩はここにあります

[[346023]]グラフニューラルネットワーク (GNN) は近年急速に発展しており、最近の会議で...

アンドリュー・ン氏との独占インタビュー: 今後 10 年間の AI、ハードウェア優先からデータ優先へ

現在の仕事に飽きて方向転換したいと思ったことはありませんか?もしそうなら、あなたは決して一人ではあり...

VRとAI: 融合しようとしている2つの技術

テクノロジーは私たちの生活に常に影響を与えています。社会として私たちはテクノロジーに大きく依存するよ...

写真とテキスト付き!推奨アルゴリズムのアーキテクチャ - 大まかなランキング

1. 全体的なアーキテクチャ粗いソートは、リコールと細かいソートの中間のモジュールです。 。数万の候...

「宝くじ仮説」の著者による新しいPyTorchライブラリは人気があり、モデルのトレーニングが2〜4倍高速化されます。

さまざまなタスクに人工知能を導入する企業が増えるにつれ、AI モデルのトレーニングはコストがかかり、...

将来のビジネスインテリジェンスにおける人工知能の役割

AI 搭載のチャットボットを導入しているコールセンターから、ディープラーニングを使用して数え切れない...

MITの科学者が数時間でロボットヒトデを作る新システムを設計

水中の海洋生物を研究する場合、動物たちにとって不自然に見えて怖がらせないような装置を使うと役に立つで...

...

Python で自然言語処理を始める

このチュートリアルの目的は、自然言語処理 (NLP) の概念を通じて Python でテキスト デー...

人工知能の最初のグループが解雇された

全世界を置き換えると叫んだ人工知能は、ついに失業という苦境に陥った。スウェーデンのオンライン銀行であ...

...

推薦システムにおける大規模言語モデルの実用化

1. 背景と課題従来の推奨モデルのネットワークパラメータの影響は比較的小さく(埋め込みパラメータを除...