自動運転車は見たことのない物体を避けることができないのか？問題はトレーニングパイプラインにある

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

人間は、これまで一度も見たことがないにもかかわらず、新しいと認識できる新しい種類の道具、食べ物、動物に遭遇することがよくあります。

人間とは異なり、現在の最先端の検出およびセグメンテーション方法は、閉じた世界の設定で設計されているため、新しいオブジェクトを認識することが困難です。既知の種類 (ラベル付き) のオブジェクトを特定し、未知の種類 (ラベルなし) のオブジェクトを背景として扱うようにトレーニングされています。この結果、モデルは新しいオブジェクトを正常に特定できず、一般的なオブジェクトのプロパティを学習できなくなります。

最近、ボストン大学、カリフォルニア大学バークレー校、MIT-IBM Watson AI Lab の研究チームによる研究では、新しいタイプのオブジェクトを検出してセグメント化する簡単な方法が提案されました。

オリジナルリンク: https://arxiv.org/pdf/2112.01698v1.pdf

この課題に対処するために、研究チームは、あらゆる画像内のすべてのオブジェクトを徹底的にラベル付けしたデータセットを作成しました。ただし、このようなデータセットを作成するには非常にコストがかかります。下の図に示すように、実際には、オブジェクト検出とインスタンスセグメンテーション用の多くの公開データセットでは、画像内のすべてのオブジェクトに完全な注釈が付けられていません。

図 1. 標準的な物体検出器のトレーニングにおける問題。この例は COCO からのものです。色付きのボックスは注釈ボックスで、白い破線のボックスは潜在的な背景領域です。多くの白い破線領域は、実際にはオブジェクトの位置を示していますが、従来のオブジェクト検出器のトレーニングでは背景と見なされるため、新しいオブジェクトのターゲットプロパティが抑制されます。

1 問題の背景

一般的なターゲットプロパティを学習しないと、多くのアプリケーションシナリオでさまざまな問題が発生します。たとえば、ロボット工学や自動運転のシナリオにおける具現化された人工知能は、トレーニング中に目に見えない物体を見つける必要があり、自動運転システムは交通事故を避けるために車両の前方にある新しい物体を検出する必要があります。

さらに、ゼロショット検出と少数ショット検出では、トレーニング中にラベル付けされなかったオブジェクトを特定する必要があります。オープンワールドインスタンスセグメンテーションは、新しいオブジェクトを特定してセグメント化することを目的としていますが、最先端のモデルはパフォーマンスがよくありません。

研究チームは、現在の最先端モデルのパフォーマンスが低い理由は、マークされた前景オブジェクトとあまり重ならない領域がすべて背景として扱われるトレーニングパイプラインにあることを発見しました。図 1 に示すように、背景には見えているもののラベルが付いていないオブジェクトがありますが、モデルのトレーニングパイプラインによってこれらのオブジェクトが検出されず、モデルが一般的なターゲットプロパティを学習することもできません。

この問題を解決するために、Kimらは、候補領域（領域提案）を前景と背景に分割するのではなく、候補領域の位置特定品質を学習することを提案しました。彼らのアプローチは、実際のランドマークに近いオブジェクト提案をサンプリングし、対応する位置特定品質を推定することを学習します。この方法はいくつかの問題を軽減しますが、正/負のサンプリングの重複しきい値を慎重に設定する必要があり、潜在的なオブジェクトのターゲット属性を抑制する可能性があります。

2つの方法

オープンセットのインスタンスセグメンテーションを改善するために、研究チームはシンプルで強力な学習フレームワークと、 「Learning to Detect Every Thing」(LDET)と呼ばれる新しいデータ拡張方法を提案しました。潜在オブジェクトのターゲットプロパティが抑制される問題を解消するために、研究チームはマスクマーカーを使用して前景オブジェクトをコピーし、背景画像に貼り付けました。切り取られたパッチを調整することで前景画像を合成します。切り取られたパッチを小さく保つことで、合成された画像に隠れたオブジェクトが含まれる可能性が低くなります。

ただし、背景は合成画像から作成されるため、実際の画像とは大きく異なって見える場合があります。たとえば、背景が低周波コンテンツのみで構成されている場合があります。したがって、そのような画像でトレーニングされた検出器のパフォーマンスがあまり良くないことがほとんどです。

この制限を克服するために、研究チームはトレーニングを 2 つの部分に分けました。

1) 合成画像を使用して、背景と前景の領域の分類と位置特定ヘッドをトレーニングします。2) 実際の画像を使用してマスクヘッドを学習します。

図 2. 私たちの拡張戦略は、背景としての小さな領域の割合を増やすことで、潜在的なオブジェクトのない画像を作成します。

図 3. 元の入力 (左) と合成画像 (右)。マスクされた領域は色でマークされ、小さな領域が背景として使用され、オブジェクトが背景に隠れるのを防ぎます。場合によっては、背景パッチが前景オブジェクト (左の列の 2 行目) を見つけることがあります。これはまれなケースであり、パッチが大幅に拡大されていることがわかります。

分類ヘッドをトレーニングする場合、画像を合成するときに潜在的なオブジェクトが削除されるため、潜在的なオブジェクトを背景として扱う可能性は小さくなります。さらに、マスクヘッダーは実際の画像内のインスタンスをセグメント化するようにトレーニングされるため、バックボーンシステムは実際の画像内の前景領域と背景領域を分離できる一般的な表現を学習します。

これは小さな変更のように思えるかもしれませんが、LDET はオープンワールドインスタンスのセグメンテーションと検出において非常に優れたパフォーマンスを発揮します。

COCO では、VOC カテゴリでトレーニングされた LDET は、非 VOC カテゴリで評価された場合に平均リコールが14.1ポイント向上します。驚くべきことに、LDET は追加のラベル付けを必要とせずに新しいオブジェクトの検出において大幅な改善を示しています。たとえば、COCO の VOC カテゴリ (20 カテゴリ) のみでトレーニングされた LDET は、UVO での平均リコールで評価した場合、すべての COCO カテゴリ (80 カテゴリ) でトレーニングされた Mask R-CNN よりも優れています。図 2 に示すように、LDET は正確なオブジェクト提案を生成し、シーン内の多くのオブジェクトをカバーすることもできます。

図 4. オープンワールドでのインスタンスセグメンテーションでは、Mask R-CNN (上) は当社の方法 (下) よりも少ないオブジェクトを検出します。このタスクでは、トレーニングの種類に関係なく、モデルは画像内のすべてのオブジェクトを特定してセグメント化する必要があります。図の検出器は両方とも COCO でトレーニングされ、UVO でテストされています。新しいデータ拡張方法とトレーニングスキームの助けを借りて、当社の検出器は COCO でラベル付けされていない多くのオブジェクトを正確に特定します。

図 5. トレーニングプロセス。元の入力画像と合成画像が与えられると、検出器は元の画像で計算されたマスク損失と分類、および合成画像の回帰損失に基づいてトレーニングされます。

この論文の貢献は次のように要約されます。

私たちは、オープンワールドインスタンスセグメンテーションのための新しいデータ拡張と分離されたトレーニングで構成されるシンプルなフレームワークLDET を提案します。
オープンワールドインスタンスセグメンテーションで優れたパフォーマンスを達成するには、データ拡張と分離トレーニングが重要であることを実証します。
LDET は、COCO のカテゴリ間設定、COCO-to-UVO および Cityscape-to-Mapillary のデータセット間設定など、すべての設定において最先端の方法よりも優れています。

3 実験結果

研究チームは、オープンワールドインスタンスのセグメンテーションのために、クロスカテゴリおよびクロスデータセットで LDET を評価しました。クロスカテゴリ設定は COCO データセットに基づいており、ラベルは既知のカテゴリと未知のカテゴリに分割され、モデルは既知のカテゴリでトレーニングされ、検出/セグメンテーションのパフォーマンスは未知のカテゴリで評価されます。

モデルは新しい環境にあり、新しいインスタンスに遭遇する可能性があるため、データセット間設定では、モデルが新しいデータセットに一般化できるかどうかも評価されます。この目的のために、COCO または Cityscapes がトレーニングソースとして使用され、UVO と Mappilary Vista がそれぞれテストデータセットとして使用されます。この研究では、平均精度 (AP) と平均再現率 (AR) がパフォーマンス評価基準として使用されます。特に記載がない限り、評価は非採点方式で行われます。 AR と AP は COCO 評価プロトコルに従って計算され、AP または AR の検出値は最大 100 個あります。

表1. COCOにおけるVOC→非VOC一般化の結果。表の最後の行の青い部分は、Mask R-CNN の改良版です。 LDET はすべてのベースラインを上回り、Mask R-CNN よりも大幅な改善を示しています。

図 6. COCO データセットにおける VOC から非 VOC への視覚化。上: マスク R-CNN、下: LDET。トレーニングカテゴリには、キリン、トイレ、ペン、凧、フロートは含まれないことに注意してください。 LDET は、Mask R-CNN よりも多くの新しいオブジェクトをより適切に検出できます。

表 2. VOC → 非 VOC データとトレーニング方法のアブレーション研究。最後の行は、この論文で提案されたフレームワークです。

表 3. クラスに依存しないトレーニングのアブレーション研究。クラスに依存しないトレーニングにより、LDET と Mask R-CNN のパフォーマンスがわずかに向上します。

図 7. ベースラインの Mask R-CNN は、ラベル付けされたインスタンスへの過剰適合の影響を受けます。したがって、トレーニングが進むにつれて、新しいオブジェクトを検出するパフォーマンスは低下します。対照的に、この論文の方法のパフォーマンスは基本的にトレーニングによって向上します。

表 4. COCO でテストされた教師なし手法と DeepMask との比較。 DeepMask はバックボーンとして VGG を使用することに注意してください。 LDET と DeepMask は VOC-COCO でトレーニングされています。

表 5. 背景領域のサイズの変更。 2-m は、入力画像の幅と高さ 2-m で背景領域を切り取ることを意味します。より小さな領域から背景をサンプリングすると、AR が増加し、AP が減少する傾向があります。

表6. ResNet50とResNet101の比較。 ResNet101 は ResNet50 よりもパフォーマンスが優れている傾向があり、これは LDET でより顕著です。

表 7. 領域提案ネットワークと関心領域ヘッドの比較。境界ボックスの AP と AR。

図 8. COCO 実験におけるターゲット属性マップ (RPN スコア) の視覚化。 LDET はさまざまなカテゴリのオブジェクト性をキャプチャしますが、Mask R-CNN は多くのオブジェクトを抑制する傾向があります。

表8. COCO→UVO一般化の結果。上: VOC-COCO でトレーニングされたモデル、下: COCO でトレーニングされたモデル。ベースラインと比較すると、LDET はすべての条件でより高い AP と AR を示しました。

図 9. COCO でトレーニングされたモデル結果の視覚化。上: マスク R-CNN、下: LDET。左端の 2 つの画像は UVO からのものであり、他の 2 つは COCO 検証画像からのものです。

表 9. Cityscapes → Mappilary Vista の概要結果。 LDET は自動運転データセットに効果的です。 AR0.5 は AR、IoU しきい値 = 0.5 を意味します。

<<: 写真やビデオをロスレスで拡大しますか?これら2つのAIツールは持つ価値がある

>>: デジタルマーケティングにおけるAI革命

自動運転車は見たことのない物体を避けることができないのか？問題はトレーニングパイプラインにある

人工知能のセキュリティ：将来の戦争のリスクと課題

ネットワーク管理における機械学習の応用は何ですか?

JD.com は今後 10 年間で従業員の 50% を解雇するでしょうか?ジャック・マー氏も人工知能が仕事を奪うことについて言及している

機械学習を使用したデータマッピング

超低消費電力センサーソリューションがスマートビルディングを実現する方法

Baidu AIは素晴らしいキャンパスライフに新たなタッチを加え、新学期をより技術的に

SAP、データスフィアプラットフォームを強化する新たな生成AI機能を発表

中国 NeurIPS の著者の 54% が米国へ：ケンブリッジ AI パノラマレポートが発表

推薦する

GitHub: プログラマーはAIプログラミングを積極的に使用しており、JavaScript言語は依然として最も人気がある

人工知能の出現は教育にどのような影響を与えるのでしょうか?

こんにちは。タクシーに乗って空へ行きたいです。右へ飛んでください。

IoT と AI を組み合わせたユースケースにはどのようなものがありますか?

AIは英語のエッセイを添削できますか？ IELTS、CET-4、CET-6の採点、コメント、エラー修正が必要です

ガートナーは、信頼、成長、変化を通じてイノベーションを推進する新興テクノロジーをリストアップ

30年の沈黙と60年の経験を経て、「人工知能」の過去と現在とは？

世界のトラフィック量上位50のAIウェブサイトが発表：ChatGPTなどの会話型製品が目立ち、ユーザーは主にライトな体験を利用

AIの5つの本当の危険性

転換点までのカウントダウン：AI サーバーが市場を完全に支配するにはどれくらいの時間がかかるのでしょうか?

プログラミングアルゴリズムと人生の選択