UniPAD: 自動運転のためのユニバーサル事前トレーニングパラダイムが登場!

UniPAD: 自動運転のためのユニバーサル事前トレーニングパラダイムが登場!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

UNIPAD: 自動運転のためのユニバーサル事前トレーニングパラダイム

UNIPAD: 自動運転のためのユニバーサル事前トレーニングパラダイム

論文リンク: https://arxiv.org/pdf/2310.08370.pdf

コードリンク: https://github.com/Nightmare-n/UniPAD

著者所属: 上海人工知能研究所 浙江大学 香港大学 中国科学技術大学 シドニー大学 浙江研究所

論文のアイデア:

自動運転の分野では、効果的な特徴学習の重要性が広く認識されています。従来の 3D 自己教師型事前トレーニング方法は幅広い成功を収めていますが、そのほとんどは元々 2D 画像用に設計されたアイデアに従っています。本稿では、3D ボリューム微分可能レンダリングのための新しい自己教師学習パラダイムである UniPAD を提案します。 UniPAD は 3D 空間を暗黙的にエンコードし、連続した 3D 形状構造とその 2D 投影の複雑な外観特性を再構築するのに役立ちます。当社のアプローチの柔軟性により、2D フレームワークと 3D フレームワークの両方にシームレスに統合でき、シーンをより包括的に理解できるようになります。本稿では、さまざまな下流 3D タスクに関する広範な実験を通じて、UniPAD の実現可能性と有効性を実証します。私たちの方法は、ライダー、カメラ、ライダーカメラベースのベースラインをそれぞれ 9.1、7.7、6.9 NDS 大幅に改善します。特に、当社の事前トレーニング済みパイプラインは、nuScenes 検証セットで 3D オブジェクト検出で 73.2 NDS、3D セマンティック セグメンテーションで 79.4 mIoU を達成し、従来の方法と比較して最先端の結果を達成しました。

主な貢献:

私たちの知る限り、この論文は、自動運転のコンテキストにおける自己教師あり学習のための新しい 3D 微分可能レンダリング アプローチを検討した初めての論文です。

このアプローチの柔軟性により、2D バックボーンの事前トレーニングに簡単に拡張できます。斬新なサンプリング戦略により、当社の方法は有効性と効率性の両面で優れていることが実証されています。

私たちは nuScenes データセットで包括的な実験を実施し、私たちのアプローチは 6 つの事前トレーニング戦略のパフォーマンスを上回りました。 7 つのバックボーンおよび 2 つの知覚タスクを含む実験は、私たちのアプローチの有効性に関する説得力のある証拠を提供します。

ネットワーク設計:

本稿では、効果的な 3D 表現学習に合わせて調整された新しい事前トレーニング パラダイムを提案します。このパラダイムは、複雑な正/負のサンプル割り当てを回避するだけでなく、3D 形状構造を学習するための継続的な監視信号を暗黙的に提供します。図 2 に示すように、フレームワーク全体はマスクされたポイント クラウドを入力として受け取り、3D 微分可能ニューラル レンダリングを通じて投影された 2D 深度画像上の欠落したジオメトリを再構築することを目的としています。具体的には、マスクされた LiDAR ポイント クラウドが提供される場合、私たちの方法では 3D エンコーダを使用して階層的な特徴を抽出します。次に、ボクセル化によって 3D 特徴がボクセル空間に変換されます。本論文ではさらに、微分可能なボリュームレンダリング法を適用して、完全な幾何学的表現を再構築します。当社のアプローチの柔軟性により、事前トレーニング済みの 2D バックボーンとのシームレスな統合が可能になります。マルチビュー画像機能は、リフト・スプリット・シュート (LSS) を介して 3D ボリュームを構築するために使用されます (Philion & Fidler、2020)。トレーニング段階の効率を維持するために、本論文では、トレーニングコストとメモリ消費を大幅に削減できる、自動運転アプリケーション向けに設計されたメモリ節約型のレイサンプリング戦略を提案します。新しいサンプリング戦略により、従来の方法と比較して精度が大幅に向上します。

図 1: 事前トレーニングによる 3D 検出とセグメンテーションの効果。C、L、M はそれぞれカメラ、LiDAR、融合モダリティを表します。

図 2: 全体的なアーキテクチャ。

私たちのフレームワークは、LiDAR ポイント クラウドまたはマルチビュー画像を入力として使用します。この論文ではまず、入力を部分的にマスクするマスク ジェネレータを提案します。次に、モダリティ固有のエンコーダーを適用して、スパースな可視特徴を抽出し、マスク領域がゼロで埋められた密な特徴に変換します。次に、モダリティ固有の特徴がボクセル空間に変換され、その後に投影レイヤーが続き、ボクセルの特徴が強化されます。最後に、ボリュームベースのニューラル レンダリングにより、可視領域とマスク領域の RGB または深度予測が生成されます。

実験結果:

引用:

Yang, H., Zhang, S., Huang, D., Wu, X., Zhu, H., He, T., Tang, S., Zhao, H., Qiu, Q., Lin, B., He, X., & Ouyang, W. (2023). UniPAD: 自動運転のためのユニバーサル事前トレーニングパラダイム。  翻訳: ...

オリジナルリンク: https://mp.weixin.qq.com/s/ep_al_G-ejQycgG4Jq0nTQ

<<:  IBMの調査によると、AIのフィッシング能力は人間と同等であることが判明

>>:  統計分析と人工知能の9つの有名な大惨事

ブログ    
ブログ    

推薦する

...

...

人間とコンピュータのインタラクションにおける状況認識

狭義の人間とコンピュータの相互作用(ヒューマン・コンピュータ・インタラクション)であろうと、広義の人...

NVIDIA DLSS 3.5 がリリースされました!新しいAI「光再構成」は超リアルな光と影を実現し、新旧両方のグラフィックカードでサポートされています。

人工知能は世界を変えており、グラフィックス コンピューティングも例外ではありません。 5 年前、NV...

クラウドに人工知能を導入する際の 10 の考慮事項

クラウド コンピューティングは、あらゆる規模の企業がインターネット経由で多様なオンデマンドの仮想 I...

米上院司法委員会公聴会:AIは制御が難しく、悪意のある者が生物兵器の開発に利用する可能性がある

海外メディアTechCrunchによると、7月26日、米上院司法委員会は昨日、人工知能に関する公聴会...

中国人の「専門用語」データセット、AI:あなたはDBQさえ理解していない

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

人工知能チップの過去、現在、そして未来

AIは現在ニュースでよく取り上げられています。現在、AIは医療診断、新しい化学物質の合成、群衆の中に...

2023 年のテクノロジー業界の最高、最悪、そして最も醜い出来事

翻訳者 | ジン・ヤンレビュー | Chonglou 2023 年はテクノロジー業界にとってエキサイ...

Google、ファイルサイズを35%削減できる新しいJPEGアルゴリズムをオープンソース化

海外メディアの報道によると、Googleはファイルサイズを約35%削減、あるいはファイルサイズを変え...

顔認識はどのように実現されるのでしょうか? コンピューターはカメラを通じてどのように私たちの身元を識別するのでしょうか?

携帯電話を使って顔をスキャンして支払いをするとき、会社の入退室管理を通過するとき、あるいは道路を運転...

アルゴリズムのアルゴリズム: すべての機械学習アルゴリズムはニューラルネットワークとして表現できる

機械学習におけるすべての研究は、ニューラル ネットワークの作成とともに 1950 年代の初期の研究以...

Pandasの魅力:データ処理から機械学習まで

パート01、 シリーズとデータフレーム: Pandas のコアPandas の 2 つの主要なデータ...

国宝の旅:人工知能技術が文化遺産の病気を防ぐ方法

一日で世界三大博物館を訪れ、数千年前の国宝を自分の手で触り、さらには1300年前の繁栄した唐王朝にタ...