アクセシブルな旅行はより安全です! ByteDanceの研究成果がCVPR2022 AVAコンペティションで優勝

アクセシブルな旅行はより安全です! ByteDanceの研究成果がCVPR2022 AVAコンペティションで優勝

最近、CVPR2022の各競技の結果が次々と発表されました。ByteDanceの知能創造AIプラットフォームの「Byte-IC-AutoML」チームは、独自に開発したParallel Pre-trained Transformers(PPT)フレームワークにより、合成データに基づくインスタンスセグメンテーションチャレンジ(Accessibility Vision and Autonomy Challenge、以下AVA)で優秀な成績を収め、競技の唯一のトラックで優勝しました。

論文アドレス: https://arxiv.org/abs/2206.10845

今年のAVAコンテストはボストン大学とカーネギーメロン大学が共同で主催します。

このコンテストでは、レンダリング エンジンを通じて合成インスタンス セグメンテーション データセットを取得します。このデータセットには、障害のある歩行者と対話する自律システムのデータ例が含まれています。このコンペの目標は、アクセシビリティ関連の人物とオブジェクトのオブジェクト検出とインスタンスセグメンテーションのベンチマークと方法を提供することです

データセットの視覚化


競争難易度分析

  1. ドメイン一般化問題: このコンペティションのデータ セットはすべてレンダリング エンジンによって合成された画像であり、データ ドメインと自然画像の間には大きな違いがあります。
  2. ロングテール/少数サンプルの問題: データにはロングテール分布があり、たとえば「松葉杖」や「車椅子」のカテゴリはデータセット内に少なく、セグメンテーション効果も悪くなります。
  3. セグメンテーションの堅牢性の問題: 一部のカテゴリのセグメンテーション効果は非常に低く、インスタンスセグメンテーションmAPはオブジェクト検出セグメンテーションmAPよりも30%低い

技術的ソリューションの詳細

Byte-IC-AutoML チームは、これを実現するために、Parallel Pre-trained Transformers (PPT) フレームワークを提案しました。このフレームワークは、主に次の 3 つのモジュールで構成されています: 1) 並列大規模事前トレーニング済みトランスフォーマー、2) バランス コピー アンド ペースト データ拡張、3) ピクセル レベルの非最大値抑制とモデル融合。

Transformerの大規模な並列事前トレーニング

最近の事前トレーニングに関する多くの記事では、大規模なデータセットで事前トレーニングされたモデルが、さまざまな下流のシナリオにうまく一般化できることが示されています。そのため、チームはCOCOおよびBigDetectionデータセットを使用してモデルを事前トレーニングしました。これにより、自然データと合成データ間のドメイン バイアスが大幅に軽減され、下流の合成データ シナリオでより少ないサンプルで迅速にトレーニングできるようになります。モデルレベルでは、Vision Transformers には CNN のような帰納的バイアスがなく、事前トレーニングのメリットを享受できることを考慮して、チームはUniFormerCBNetV2 を使用しました。 UniFormer は畳み込みと自己注意を統合し、ローカル冗長性とグローバル依存性という 2 つの主要な問題を解決し、効率的な特徴学習を実現します。 CBNetV2 アーキテクチャは、複数の同一バックボーン グループを連結し、複合的に接続して高性能な検出器を構築します。モデルのバックボーン特徴抽出器は Swin Transformer です。複数の大規模な事前学習済みTransformerを並列に配置し、出力結果を統合して学習し、最終結果を出力します。

検証データセットにおけるさまざまな方法のmAP

コピー&ペーストによるデータ拡張のバランス

コピー アンド ペースト手法は、特にロングテール分布を持つデータセットの場合、オブジェクトをランダムに貼り付けることによってインスタンス セグメンテーション モデルに優れた結果をもたらします。しかし、この方法ではすべてのカテゴリのサンプルが均等に増加し、カテゴリ分布のロングテール問題を根本的に緩和することはできません。そこで、チームはバランスコピーアンドペーストデータ強化法を提案しました。 Balance Copy-Paste は、有効なカテゴリ数に応じてカテゴリを適応的にサンプリングします。これにより、全体的なサンプル品質が向上し、サンプル数が少ないことやロングテール分布の問題が軽減され、最終的にはインスタンス セグメンテーションにおけるモデルの mAP が大幅に向上します。

Balance Copy-Pasteデータ拡張技術による改善

ピクセルレベルの非最大値抑制とモデル融合

検証セットでのモデル核融合アブレーション実験

テストセットでのモデル核融合アブレーション実験

現在、都市と交通のデータセットは、通常の車両と歩行者のみを含む、より一般的なシーンです。データセットには、障害者や運動障害のある人、および補助装置のカテゴリがありません。既存のデータセットを使用して取得された検出モデルでは、これらの人や物体を検出できません。

ByteDanceのByte-IC-AutoMLチームのこの技術ソリューションは、現在の自動運転や街頭シーンの理解に幅広く応用されています。これらの合成データから得られたモデルは、「車椅子」、「車椅子の人」、「松葉杖をついた人」などの珍しいカテゴリを認識できるため、人や物体をより細かく分類できるだけでなく、シーンの誤判断や誤解を避けることができます。さらに、この合成データ手法により、現実世界では比較的まれなカテゴリのデータを構築することができ、より一般化され、より完全なターゲット検出モデルをトレーニングすることができます。

Smart Creation は、ByteDance のマルチメディア革新技術研究機関であり、総合的なサービスプロバイダーです。コンピュータービジョン、グラフィックス、音声、撮影・編集、特殊効果、クライアント、AIプラットフォーム、サーバーエンジニアリングなどの技術分野をカバーし、部門内で最先端のアルゴリズム、エンジニアリングシステム、製品のクローズドループを実現し、社内の事業ラインと外部の協力顧客に、業界最先端のコンテンツ理解、コンテンツ作成、インタラクティブ体験と消費機能、およびさまざまな形式での業界ソリューションを提供することを目指しています。チームの技術力は、Volcano Engineを通じて外の世界に公開されています。

Volcano EngineはByteDance傘下のクラウドサービスプラットフォームです。ByteDanceが急速な発展の中で蓄積してきた成長手法、技術力、ツールを外部企業に公開し、クラウドインフラ、動画・コンテンツ配信、ビッグデータ、人工知能、開発・運用・保守サービスを提供し、企業がデジタルアップグレードで持続的な成長を遂げられるよう支援します。



<<:  大学入試結果が続々発表。ボランティア応募で人工知能が注目の選択肢に

>>:  データサイエンスについて知っておくべきこと: 10 の重要な概念 + 22 のグラフ

ブログ    
ブログ    

推薦する

人工知能が自立して考えることができるようになると、機械生命体になるのでしょうか?必ずしも

人類が人工知能の時代に突入したことは否定できません。人工知能技術が急速に発展するにつれ、私たちの周り...

ChatGPT を使用して Web アプリケーションを構築する方法は?

翻訳者 |ブガッティレビュー | Chonglou ChatGPTの最大のセールスポイントの 1 つ...

...

人工知能技術は交通にどのように応用できるのでしょうか?

都市交通の分野では、AI信号制御、インテリジェントな街路交通監視、スマートバス停、スマート高速道路な...

銀行における会話型 AI – 企業が犯しがちな 3 つの間違い

金融サービス業界は、特定の金融プロセスに不可欠なレガシー機器やシステムを使用しているため、他の業界に...

このAIはマスクをハゲにし、テスラの設計を手伝った

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

2021 年のデジタル トランスフォーメーションの 10 大トレンド

2020 年に私たちがどうなるかは誰も予測できませんでした。過去 6 か月だけでも、過去 10 年間...

Facebook は 10 億枚のソーシャル ソフトウェア写真を使用して新しい AI アルゴリズムをトレーニングします

Facebook の研究者は最近、インターネット上のランダムなラベルなし画像のセットから学習できる新...

...

Meta AI が 3 つのテキストレス NLP 論文を連続して公開: 音声生成に対する究極の答えか?

日常のコミュニケーションでは、対話の効果を高めるために、口調、感情表現、間、アクセント、リズムなどの...

旅行業界における機械学習と AI: 5 つの重要な業界ユースケース

この利便性は、近年旅行、観光、ホスピタリティ業界が積極的に導入している機械学習と人工知能の技術がなけ...

CIIE 2019 サノフィと朱江知能が共同で医療のデジタル未来を創造

第2回中国国際輸入博覧会が11月10日に成功裏に終了した。医療機器と医薬健康展示エリアでは、世界有数...

Facebookが開発した高速データ圧縮アルゴリズムZstdの使い方

[51CTO.com クイック翻訳] Zstandard (Zstd とも呼ばれる) は、Faceb...

人工知能を正しく実装するにはどうすればいいでしょうか?

[[264479]]人工知能 (AI) が私たちの日常の仕事や生活にますます普及し、企業がさまざま...