UniPAD: 自動運転のためのユニバーサル事前トレーニングパラダイムが登場!

UniPAD: 自動運転のためのユニバーサル事前トレーニングパラダイムが登場!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

UNIPAD: 自動運転のためのユニバーサル事前トレーニングパラダイム

UNIPAD: 自動運転のためのユニバーサル事前トレーニングパラダイム

論文リンク: https://arxiv.org/pdf/2310.08370.pdf

コードリンク: https://github.com/Nightmare-n/UniPAD

著者所属: 上海人工知能研究所 浙江大学 香港大学 中国科学技術大学 シドニー大学 浙江研究所

論文のアイデア:

自動運転の分野では、効果的な特徴学習の重要性が広く認識されています。従来の 3D 自己教師型事前トレーニング方法は幅広い成功を収めていますが、そのほとんどは元々 2D 画像用に設計されたアイデアに従っています。本稿では、3D ボリューム微分可能レンダリングのための新しい自己教師学習パラダイムである UniPAD を提案します。 UniPAD は 3D 空間を暗黙的にエンコードし、連続した 3D 形状構造とその 2D 投影の複雑な外観特性を再構築するのに役立ちます。当社のアプローチの柔軟性により、2D フレームワークと 3D フレームワークの両方にシームレスに統合でき、シーンをより包括的に理解できるようになります。本稿では、さまざまな下流 3D タスクに関する広範な実験を通じて、UniPAD の実現可能性と有効性を実証します。私たちの方法は、ライダー、カメラ、ライダーカメラベースのベースラインをそれぞれ 9.1、7.7、6.9 NDS 大幅に改善します。特に、当社の事前トレーニング済みパイプラインは、nuScenes 検証セットで 3D オブジェクト検出で 73.2 NDS、3D セマンティック セグメンテーションで 79.4 mIoU を達成し、従来の方法と比較して最先端の結果を達成しました。

主な貢献:

私たちの知る限り、この論文は、自動運転のコンテキストにおける自己教師あり学習のための新しい 3D 微分可能レンダリング アプローチを検討した初めての論文です。

このアプローチの柔軟性により、2D バックボーンの事前トレーニングに簡単に拡張できます。斬新なサンプリング戦略により、当社の方法は有効性と効率性の両面で優れていることが実証されています。

私たちは nuScenes データセットで包括的な実験を実施し、私たちのアプローチは 6 つの事前トレーニング戦略のパフォーマンスを上回りました。 7 つのバックボーンおよび 2 つの知覚タスクを含む実験は、私たちのアプローチの有効性に関する説得力のある証拠を提供します。

ネットワーク設計:

本稿では、効果的な 3D 表現学習に合わせて調整された新しい事前トレーニング パラダイムを提案します。このパラダイムは、複雑な正/負のサンプル割り当てを回避するだけでなく、3D 形状構造を学習するための継続的な監視信号を暗黙的に提供します。図 2 に示すように、フレームワーク全体はマスクされたポイント クラウドを入力として受け取り、3D 微分可能ニューラル レンダリングを通じて投影された 2D 深度画像上の欠落したジオメトリを再構築することを目的としています。具体的には、マスクされた LiDAR ポイント クラウドが提供される場合、私たちの方法では 3D エンコーダを使用して階層的な特徴を抽出します。次に、ボクセル化によって 3D 特徴がボクセル空間に変換されます。本論文ではさらに、微分可能なボリュームレンダリング法を適用して、完全な幾何学的表現を再構築します。当社のアプローチの柔軟性により、事前トレーニング済みの 2D バックボーンとのシームレスな統合が可能になります。マルチビュー画像機能は、リフト・スプリット・シュート (LSS) を介して 3D ボリュームを構築するために使用されます (Philion & Fidler、2020)。トレーニング段階の効率を維持するために、本論文では、トレーニングコストとメモリ消費を大幅に削減できる、自動運転アプリケーション向けに設計されたメモリ節約型のレイサンプリング戦略を提案します。新しいサンプリング戦略により、従来の方法と比較して精度が大幅に向上します。

図 1: 事前トレーニングによる 3D 検出とセグメンテーションの効果。C、L、M はそれぞれカメラ、LiDAR、融合モダリティを表します。

図 2: 全体的なアーキテクチャ。

私たちのフレームワークは、LiDAR ポイント クラウドまたはマルチビュー画像を入力として使用します。この論文ではまず、入力を部分的にマスクするマスク ジェネレータを提案します。次に、モダリティ固有のエンコーダーを適用して、スパースな可視特徴を抽出し、マスク領域がゼロで埋められた密な特徴に変換します。次に、モダリティ固有の特徴がボクセル空間に変換され、その後に投影レイヤーが続き、ボクセルの特徴が強化されます。最後に、ボリュームベースのニューラル レンダリングにより、可視領域とマスク領域の RGB または深度予測が生成されます。

実験結果:

引用:

Yang, H., Zhang, S., Huang, D., Wu, X., Zhu, H., He, T., Tang, S., Zhao, H., Qiu, Q., Lin, B., He, X., & Ouyang, W. (2023). UniPAD: 自動運転のためのユニバーサル事前トレーニングパラダイム。  翻訳: ...

オリジナルリンク: https://mp.weixin.qq.com/s/ep_al_G-ejQycgG4Jq0nTQ

<<:  IBMの調査によると、AIのフィッシング能力は人間と同等であることが判明

>>:  統計分析と人工知能の9つの有名な大惨事

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

4つの業界は人工知能がもたらす混乱に注意を払う必要がある

2020 年には、AI と機械学習のテクノロジーが新興産業に継続的な影響を与え、企業だけでなく消費者...

AIを使って内部脅威を特定することの倫理

マイノリティ・リポートのトム・クルーズを覚えていますか? AI は将来のリスクを示唆する従業員の行動...

ロボットが人間のように学習できるようにする Google RT-2 AI モデルとは何ですか?

ビッグモデルが急増し、仮想世界から現実世界に進出しています。 Google DeepMind は最近...

Shell、EY、GE で変革を推進している AI Center of Excellence はどれほど素晴らしいのでしょうか?

シェルが2013年に初めて「AI Center of Excellence」を立ち上げたとき、それは...

MIT、新たな3Dプリント材料の発見を加速する新たなAIツールを開発

カスタマイズされた医療機器から手頃な価格の住宅まで、あらゆるものを作成するために使用される 3D プ...

Quora は機械学習をどのように活用していますか?

[[202181]] 2015年、同社のエンジニアリング担当副社長であるXavier Amatri...

...

画像認識AIは敵対的な画像に遭遇すると「盲目」になり、精度が90%低下する

[[271243]]視覚に関して、AIと人間の間にはどれくらいのギャップがあるのでしょうか?カリフォ...

AIが書いた記事は教師を本当に騙すことができる

過去数年間、機械学習 (ML) と人工知能 (AI) の専門家は、以前は完全に人間が実行できると考え...

...

インテリジェントプラットフォームを活用してビデオ監視データの津波に対処する方法

システム設計者は、高度なセンサー技術の急激な拡大と、それを安全または生命/安全の環境にどのように適用...

OpenAI のセキュリティ脆弱性が明らかに: ChatGPT の制限は一般的でない言語を使用することで簡単に回避可能

10月12日、ブラウン大学のコンピューターサイエンス研究者は、OpenAIのGPT-4セキュリティ設...

顔認識アプリケーションにおける人工知能の利点と欠点についての簡単な説明

1950年代にチューリングの論文「ロボットは考えることができるか?」が人工知能への扉を開いて以来、人...

信じてはいけないクラウドコンピューティングと人工知能に関する2つの誤解

クラウド コンピューティングによってデータ センターが消滅し、AI プロジェクトは失敗する運命にある...

ResearchAndMarkets: 世界の AI ソリューション市場は 2027 年に 2,820 億ドルに達する見込み

ResearchAndMarkets が発表した最新のレポートによると、2027 年までに世界の人...