CVPR 自動運転チャレンジで優勝したのはどのようなソリューションでしょうか?

道路は複雑で、車両の種類も多様で、歩行者も密集しています。これが都市部の道路交通の現状であり、自動運転の分野が直面する真の課題でもあります。この課題を解決するには、3 次元環境を感知して理解することが重要です。

従来の 3D オブジェクト検出タスクでは、前景オブジェクトは通常、3D 境界ボックスで表されます。しかし、この方法にはいくつかの欠点があります。一方では、現実世界の物体の形状は非常に複雑で、単純な 3 次元ボックスでは表現できません。他方では、この方法では背景要素の認識が無視される傾向があります。包括的な L4/L5 自動運転を実現するには、従来の 3D 認識方法では不十分です。

最近、エンドツーエンドの自動運転ワークショップとビジョン中心の自動運転ワークショップが、CVPR 2023 で 3D 占有予測トラックを含む自動運転チャレンジを開催しました。

図1 CVPR2023自動運転チャレンジ

3 次元占有予測は、自動運転の分野における新たなタスクであり、車両の運転シナリオのきめ細かいモデリングを必要とし、自動運転の一般的な認識機能を実現するために非常に重要です。このコンペティションでは、3次元空間をボクセル化し、3次元占有タスクに基づいて、3次元空間内のボクセルの占有状態と意味情報を推定するという2つの新しいタスクを組み合わせた、nuScenesデータセットに基づく大規模な占有予測評価ベンチマークを提供します。全体的なタスクは、マルチビュー画像を与えられた 3 次元空間で高密度の予測を行うことを目的としています。

このコンテストは、3次元占有センシングの分野における初のトップクラスの国際的権威あるイベントであり、業界や学界から幅広い注目を集めています。コンテストには、Xiaomi Auto、Huawei、42dot、Hikvisionなどの業界チームや、北京大学、浙江大学、中国科学院などの研究機関の学術チームなど、合計149チームが参加しました。

最終的に、NVIDIA と南京大学のチームが激しい競争を勝ち抜き、3D 占有率予測タスクの優勝と最優秀イノベーション賞という 2 つの重要な賞を受賞しました。優勝チームの勝利プランを見てみましょう。

チャンピオンプログラム

データの利用に制限があるこれまでのコンテストとは異なり、この自動運転コンテストでは、参加者が追加のオープンソースデータやモデルを使用して、データ駆動型アルゴリズムを探索できます。そのため、今回のコンテストでは、NVIDIA と南京大学の研究者が効率的なモデル構造を設計しただけでなく、大規模モデルのトレーニングも検討し、モデルパラメータを 10 億のオーダーにまで拡張しました。これは、従来一般的に使用されていた 3D 認識モデルの 10 倍以上に相当します。

高度なモデル構造設計と大規模モデルの強力な表現機能により、チームが提案したソリューション FB-OCC は、単一モデルで 50% mIoU を超える優れたパフォーマンスを実現し、最終的に 54.19% mIoU という最高スコアを達成しました。

ネットワークアーキテクチャ

FB-OCC の主な革新は、前方投影と後方投影を組み合わせた 3 次元空間モデリング手法の使用です。

図 2 に示すように、前方投影プロセス中に、LSS 投影パラダイムを参照して、FB-OCC は各ピクセルの深度分布に基づいてシーンに対応する 3D ボクセル表現を生成します。一方、LSS パラダイムによって生成される特徴はスパースかつ非均一になる傾向があるため、FB-OCC では、スパースなシーンの特徴を最適化するためにバックプロジェクションメカニズムを導入しています。

図2 ネットワークアーキテクチャ図

さらに、計算負荷を考慮して、FB-OCC は方向投影プロセス中にシーンの特徴を鳥瞰図 (BEV) 表現に圧縮し、最終的に 3D ボクセル表現と鳥瞰図表現を組み合わせます。結合された 3D ボクセル特徴は、特徴受容野を強化するために追加のボクセルエンコーダーを通過します。

大規模モデル探索

モデルパラメータの数を増やすことは、モデルの精度を向上させる最も便利な方法ですが、3次元視覚知覚の分野では、既存の主流の知覚モデルのパラメータが依然として1億のオーダーであるのに対し、大規模モデルは過剰適合になりやすいことが研究者によって発見されました。

このコンペティションでは、FB-OCCモデルは10億のパラメータを持つInternImageバックボーンネットワークの使用を試みました。モデルパラメータの総数は、既存の一般的なモデルの10倍以上です。大規模モデルのトレーニングには通常、それに対応するビッグデータが必要ですが、自動運転データの収集と注釈付けにはコストがかかることから、オープンソースの 3D 認識データセットでは 10 億のパラメータを持つモデルをサポートするには不十分です。

この問題点に対処するために、FB-OCC は複数ラウンドの事前トレーニングメカニズムを使用します。利用可能な 2 次元知覚データセットは 3 次元知覚データよりもはるかに豊富であるため、FB-OCC はまず大規模なオープンソースデータセット Objects365 で一般的なオブジェクト検出の事前トレーニングを実行します。次に、図 3 に示すように、FB-OCC は深度と意味の共同事前トレーニングを導入して、2D 知覚と 3D 知覚の間に橋を架けます。

図3. 深度と意味の統合事前トレーニング

FB-OCC は、セマンティックセグメンテーションラベルを生成するために、ボックスプロンプトとポイントプロンプトを使用してさまざまなカテゴリのセマンティクスを生成する、自動注釈付け用の Meta の SAM モデルも使用します。複数回の事前トレーニングを経て、大規模モデルは占有認識タスクにおける深刻な過剰適合の問題を回避できるようになります。

実験結果

研究チームは実験でFB-OCCの優れた性能を実証しました。表 1 に示すように、ResNet-50 バックボーンネットワークと 256x704 解像度の入力画像を使用すると、FB-OCC は時間的融合、ディープスーパービジョン、その他のテクノロジの助けを借りて、モデルパフォーマンスを初期の 23.12% mIoU から 42.06% mIoU に向上させます。

表1 小規模モデルのアブレーション実験結果

より高い精度を実現するために、FB-OCC ではより大きなパラメータを持つモデルを使用します。表 2 に示すように、モデルスケールが 400M の場合、FB-OCC は単一モデルで 50% 以上の mIoU 効果を実現します。 InternImage バックボーンネットワークの助けにより、10 億のパラメータを持つモデルはさらに 52.79% という優れた結果を達成しました。

表2 異なるモデルスケールの影響

最終的に、複数の FB-OCC モデルの統合結果がテストセットで最高の精度 (54.19%) を達成し、コンテストで優勝し、最優秀イノベーション賞を受賞しました。 FB-OCC は、自動運転における複雑な 3 次元占有予測問題に新しいアイデアをもたらします。

<<: AI時代が到来。アンドリュー・ン氏はすべての子供に人工知能について教えるべきだと訴える

>>: すべてのオープンソースモデルを超え、クロードとバードを破り、プログラミングタスク専用の大規模モデルが登場