CVPR 自動運転チャレンジで優勝したのはどのようなソリューションでしょうか?

CVPR 自動運転チャレンジで優勝したのはどのようなソリューションでしょうか?

道路は複雑で、車両の種類も多様で、歩行者も密集しています。これが都市部の道路交通の現状であり、自動運転の分野が直面する真の課題でもあります。この課題を解決するには、3 次元環境を感知して理解することが重要です。

従来の 3D オブジェクト検出タスクでは、前景オブジェクトは通常、3D 境界ボックスで表されます。しかし、この方法にはいくつかの欠点があります。一方では、現実世界の物体の形状は非常に複雑で、単純な 3 次元ボックスでは表現できません。他方では、この方法では背景要素の認識が無視される傾向があります。包括的な L4/L5 自動運転を実現するには、従来の 3D 認識方法では不十分です。

最近、エンドツーエンドの自動運転ワークショップとビジョン中心の自動運転ワークショップが、CVPR 2023 で 3D 占有予測トラックを含む自動運転チャレンジを開催しました。

図1 CVPR2023自動運転チャレンジ

3 次元占有予測は、自動運転の分野における新たなタスクであり、車両の運転シナリオのきめ細かいモデリングを必要とし、自動運転の一般的な認識機能を実現するために非常に重要です。このコンペティションでは、3次元空間をボクセル化し、3次元占有タスクに基づいて、3次元空間内のボクセルの占有状態と意味情報を推定するという2つの新しいタスクを組み合わせた、nuScenesデータセットに基づく大規模な占有予測評価ベンチマークを提供します。全体的なタスクは、マルチビュー画像を与えられた 3 次元空間で高密度の予測を行うことを目的としています。

このコンテストは、3次元占有センシングの分野における初のトップクラスの国際的権威あるイベントであり、業界や学界から幅広い注目を集めています。コンテストには、Xiaomi Auto、Huawei、42dot、Hikvisionなどの業界チームや、北京大学、浙江大学、中国科学院などの研究機関の学術チームなど、合計149チームが参加しました。

最終的に、NVIDIA と南京大学のチームが激しい競争を勝ち抜き、3D 占有率予測タスクの優勝と最優秀イノベーション賞という 2 つの重要な賞を受賞しました。優勝チームの勝利プランを見てみましょう。

チャンピオンプログラム

データの利用に制限があるこれまでのコンテストとは異なり、この自動運転コンテストでは、参加者が追加のオープンソース データやモデルを使用して、データ駆動型アルゴリズムを探索できます。そのため、今回のコンテストでは、NVIDIA と南京大学の研究者が効率的なモデル構造を設計しただけでなく、大規模モデルのトレーニングも検討し、モデルパラメータを 10 億のオーダーにまで拡張しました。これは、従来一般的に使用されていた 3D 認識モデルの 10 倍以上に相当します。

高度なモデル構造設計と大規模モデルの強力な表現機能により、チームが提案したソリューション FB-OCC は、単一モデルで 50% mIoU を超える優れたパフォーマンスを実現し、最終的に 54.19% mIoU という最高スコアを達成しました。

ネットワークアーキテクチャ

FB-OCC の主な革新は、前方投影と後方投影を組み合わせた 3 次元空間モデリング手法の使用です。

図 2 に示すように、前方投影プロセス中に、LSS 投影パラダイムを参照して、FB-OCC は各ピクセルの深度分布に基づいてシーンに対応する 3D ボクセル表現を生成します。一方、LSS パラダイムによって生成される特徴はスパースかつ非均一になる傾向があるため、FB-OCC では、スパースなシーンの特徴を最適化するためにバックプロジェクション メカニズムを導入しています。

図2 ネットワークアーキテクチャ図

さらに、計算負荷を考慮して、FB-OCC は方向投影プロセス中にシーンの特徴を鳥瞰図 (BEV) 表現に圧縮し、最終的に 3D ボクセル表現と鳥瞰図表現を組み合わせます。結合された 3D ボクセル特徴は、特徴受容野を強化するために追加のボクセル エンコーダーを通過します。

大規模モデル探索

モデルパラメータの数を増やすことは、モデルの精度を向上させる最も便利な方法ですが、3次元視覚知覚の分野では、既存の主流の知覚モデルのパラメータが依然として1億のオーダーであるのに対し、大規模モデルは過剰適合になりやすいことが研究者によって発見されました。

このコンペティションでは、FB-OCCモデルは10億のパラメータを持つInternImageバックボーンネットワークの使用を試みました。モデルパラメータの総数は、既存の一般的なモデルの10倍以上です。大規模モデルのトレーニングには通常、それに対応するビッグデータが必要ですが、自動運転データの収集と注釈付けにはコストがかかることから、オープンソースの 3D 認識データセットでは 10 億のパラメータを持つモデルをサポートするには不十分です。

この問題点に対処するために、FB-OCC は複数ラウンドの事前トレーニング メカニズムを使用します。利用可能な 2 次元知覚データセットは 3 次元知覚データよりもはるかに豊富であるため、FB-OCC はまず大規模なオープンソース データセット Objects365 で一般的なオブジェクト検出の事前トレーニングを実行します。次に、図 3 に示すように、FB-OCC は深度と意味の共同事前トレーニングを導入して、2D 知覚と 3D 知覚の間に橋を架けます。

図3. 深度と意味の統合事前トレーニング

FB-OCC は、セマンティック セグメンテーション ラベルを生成するために、ボックス プロンプトとポイント プロンプトを使用してさまざまなカテゴリのセマンティクスを生成する、自動注釈付け用の Meta の SAM モデルも使用します。複数回の事前トレーニングを経て、大規模モデルは占有認識タスクにおける深刻な過剰適合の問題を回避できるようになります。

実験結果

研究チームは実験でFB-OCCの優れた性能を実証しました。表 1 に示すように、ResNet-50 バックボーン ネットワークと 256x704 解像度の入力画像を使用すると、FB-OCC は時間的融合、ディープ スーパービジョン、その他のテクノロジの助けを借りて、モデル パフォーマンスを初期の 23.12% mIoU から 42.06% mIoU に向上させます。

表1 小規模モデルのアブレーション実験結果

より高い精度を実現するために、FB-OCC ではより大きなパラメータを持つモデルを使用します。表 2 に示すように、モデル スケールが 400M の場合、FB-OCC は単一モデルで 50% 以上の mIoU 効果を実現します。 InternImage バックボーン ネットワークの助けにより、10 億のパラメータを持つモデルはさらに 52.79% という優れた結果を達成しました。

表2 異なるモデルスケールの影響

最終的に、複数の FB-OCC モデルの統合結果がテスト セットで最高の精度 (54.19%) を達成し、コンテストで優勝し、最優秀イノベーション賞を受賞しました。 FB-OCC は、自動運転における複雑な 3 次元占有予測問題に新しいアイデアをもたらします。

<<:  AI時代が到来。アンドリュー・ン氏はすべての子供に人工知能について教えるべきだと訴える

>>:  すべてのオープンソースモデルを超え、クロードとバードを破り、プログラミングタスク専用の大規模モデルが登場

ブログ    
ブログ    

推薦する

...

この肖像生成AIは、簡単なスケッチから1秒で本物の顔を生成できる

人工知能技術の発展に伴い、その用途は豊富かつ多様化しており、画像との組み合わせにおいては、AI顔認識...

2024 年のテクノロジー トレンド - 企業は今から準備を始める必要があります。

2023 年の主流のテクノロジートレンドが人工知能、より具体的には生成 AI に重点を置くことは間...

電力業界における人工知能開発の現状

今日は、人類が初めて電気を家庭や企業に供給するようになってから 140 年目の記念日です。電力産業は...

多くのビッグデータサイエンティストが仕事を辞めた?理由を説明しましょう。

はい、私はデータ サイエンティストです。はい、あなたはそれを正しく読みました。しかし、誰かがそれを言...

企業は人工知能の可能性に目がくらんでいるのでしょうか?

多くの企業が AI イニシアチブの導入に意欲的に取り組んでいる一方で、AI が自社のビジネスにどのよ...

アルゴリズムのインテリジェントなアップグレードにより、将来のデジタルライフはより明るくなります

[[120716]]研究者たちは現在、検索結果の改善、自動運転車、スマート携帯電話のアップグレード、...

脚本を書いて、AIが動画を自動編集:編集者の7時間かけて作成した動画を13分で完成

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

人工知能(AI)について知っておくべきことすべて

人工知能の進歩は前例のない機会をもたらすと同時に、経済的、政治的、社会的混乱ももたらします。専門家は...

...

Zhihu の Bridge Platform は、ビジネス機能を強化するコンテンツ運用プラットフォームをどのように構築するのでしょうか?

1. キーワードZhihu、Bridge、コンテンツ プール、コンテンツ管理プラットフォーム、コン...

フィードフォワードネットワーク + 線形相互作用層 = 残差 MLP、Facebook の純粋な MLP 画像分類アーキテクチャが市場に参入

[[398872]]最近では、多層パーセプトロン (MLP) が CV 分野の重要な研究テーマとなっ...

ジェミニはソラの動画がAI生成だと一目でわかるのか?数百万のトークンのコンテキスト機能がGPT-4を圧倒

Google Gemini 1.5 が、その見出しをさらった「犯人」であるSoraと出会ったら何が起...