自動運転車は見たことのない物体を避けることができないのか?問題はトレーニングパイプラインにある

自動運転車は見たことのない物体を避けることができないのか?問題はトレーニングパイプラインにある

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

人間は、これまで一度も見たことがないにもかかわらず、新しいと認識できる新しい種類の道具、食べ物、動物に遭遇することがよくあります。

人間とは異なり、現在の最先端の検出およびセグメンテーション方法は、閉じた世界の設定で設計されているため、新しいオブジェクトを認識することが困難です。既知の種類 (ラベル付き) のオブジェクトを特定し、未知の種類 (ラベルなし) のオブジェクトを背景として扱うようにトレーニングされています。この結果、モデルは新しいオブジェクトを正常に特定できず、一般的なオブジェクトのプロパティを学習できなくなります。

最近、ボストン大学、カリフォルニア大学バークレー校、MIT-IBM Watson AI Lab の研究チームによる研​​究では、新しいタイプのオブジェクトを検出してセグメント化する簡単な方法が提案されました。

オリジナルリンク: https://arxiv.org/pdf/2112.01698v1.pdf

この課題に対処するために、研究チームは、あらゆる画像内のすべてのオブジェクトを徹底的にラベル付けしたデータセットを作成しました。ただし、このようなデータセットを作成するには非常にコストがかかります。下の図に示すように、実際には、オブジェクト検出とインスタンスセグメンテーション用の多くの公開データセットでは、画像内のすべてのオブジェクトに完全な注釈が付けられていません。

図 1. 標準的な物体検出器のトレーニングにおける問題。この例は COCO からのものです。色付きのボックスは注釈ボックスで、白い破線のボックスは潜在的な背景領域です。多くの白い破線領域は、実際にはオブジェクトの位置を示していますが、従来のオブジェクト検出器のトレーニングでは背景と見なされるため、新しいオブジェクトのターゲット プロパティが抑制されます。

1 問題の背景

一般的なターゲット プロパティを学習しないと、多くのアプリケーション シナリオでさまざまな問題が発生します。たとえば、ロボット工学や自動運転のシナリオにおける具現化された人工知能は、トレーニング中に目に見えない物体を見つける必要があり、自動運転システムは交通事故を避けるために車両の前方にある新しい物体を検出する必要があります。

さらに、ゼロショット検出と少数ショット検出では、トレーニング中にラベル付けされなかったオブジェクトを特定する必要があります。オープンワールドインスタンスセグメンテーションは、新しいオブジェクトを特定してセグメント化することを目的としていますが、最先端のモデルはパフォーマンスがよくありません。

研究チームは、現在の最先端モデルのパフォーマンスが低い理由は、マークされた前景オブジェクトとあまり重ならない領域がすべて背景として扱われるトレーニング パイプラインにあることを発見しました。図 1 に示すように、背景には見えているもののラベルが付いていないオブジェクトがありますが、モデルのトレーニング パイプラインによってこれらのオブジェクトが検出されず、モデルが一般的なターゲット プロパティを学習することもできません。

この問題を解決するために、Kimらは、候補領域(領域提案)を前景と背景に分割するのではなく、候補領域の位置特定品質を学習することを提案しました。彼らのアプローチは、実際のランドマークに近いオブジェクト提案をサンプリングし、対応する位置特定品質を推定することを学習します。この方法はいくつかの問題を軽減しますが、正/負のサンプリングの重複しきい値を慎重に設定する必要があり、潜在的なオブジェクトのターゲット属性を抑制する可能性があります。

2つの方法

オープンセットのインスタンスセグメンテーションを改善するために、研究チームはシンプルで強力な学習フレームワークと、 「Learning to Detect Every Thing」(LDET)と呼ばれる新しいデータ拡張方法を提案しました。潜在オブジェクトのターゲット プロパティが抑制される問題を解消するために、研究チームはマスク マーカーを使用して前景オブジェクトをコピーし、背景画像に貼り付けました。切り取られたパッチを調整することで前景画像を合成します。切り取られたパッチを小さく保つことで、合成された画像に隠れたオブジェクトが含まれる可能性が低くなります。

ただし、背景は合成画像から作成されるため、実際の画像とは大きく異なって見える場合があります。たとえば、背景が低周波コンテンツのみで構成されている場合があります。したがって、そのような画像でトレーニングされた検出器のパフォーマンスがあまり良くないことがほとんどです。

この制限を克服するために、研究チームはトレーニングを 2 つの部分に分けました。

1) 合成画像を使用して、背景と前景の領域の分類と位置特定ヘッドをトレーニングします。2) 実際の画像を使用してマスクヘッドを学習します。

図 2. 私たちの拡張戦略は、背景としての小さな領域の割合を増やすことで、潜在的なオブジェクトのない画像を作成します。

図 3. 元の入力 (左) と合成画像 (右)。マスクされた領域は色でマークされ、小さな領域が背景として使用され、オブジェクトが背景に隠れるのを防ぎます。場合によっては、背景パッチが前景オブジェクト (左の列の 2 行目) を見つけることがあります。これはまれなケースであり、パッチが大幅に拡大されていることがわかります。

分類ヘッドをトレーニングする場合、画像を合成するときに潜在的なオブジェクトが削除されるため、潜在的なオブジェクトを背景として扱う可能性は小さくなります。さらに、マスク ヘッダーは実際の画像内のインスタンスをセグメント化するようにトレーニングされるため、バックボーン システムは実際の画像内の前景領域と背景領域を分離できる一般的な表現を学習します。

これは小さな変更のように思えるかもしれませんが、LDET はオープンワールド インスタンスのセグメンテーションと検出において非常に優れたパフォーマンスを発揮します。

COCO では、VOC カテゴリでトレーニングされた LDET は、非 VOC カテゴリで評価された場合に平均リコールが14.1ポイント向上します。驚くべきことに、LDET は追加のラベル付けを必要とせずに新しいオブジェクトの検出において大幅な改善を示しています。たとえば、COCO の VOC カテゴリ (20 カテゴリ) のみでトレーニングされた LDET は、UVO での平均リコールで評価した場合、すべての COCO カテゴリ (80 カテゴリ) でトレーニングされた Mask R-CNN よりも優れています。図 2 に示すように、LDET は正確なオブジェクト提案を生成し、シーン内の多くのオブジェクトをカバーすることもできます。

図 4. オープンワールドでのインスタンスセグメンテーションでは、Mask R-CNN (上) は当社の方法 (下) よりも少ないオブジェクトを検出します。このタスクでは、トレーニングの種類に関係なく、モデルは画像内のすべてのオブジェクトを特定してセグメント化する必要があります。図の検出器は両方とも COCO でトレーニングされ、UVO でテストされています。新しいデータ拡張方法とトレーニング スキームの助けを借りて、当社の検出器は COCO でラベル付けされていない多くのオブジェクトを正確に特定します。

図 5. トレーニング プロセス。元の入力画像と合成画像が与えられると、検出器は元の画像で計算されたマスク損失と分類、および合成画像の回帰損失に基づいてトレーニングされます。

この論文の貢献は次のように要約されます。

  • 私たちは、オープンワールドインスタンスセグメンテーションのための新しいデータ拡張と分離されたトレーニングで構成されるシンプルなフレームワークLDET を提案します。
  • オープンワールドインスタンスセグメンテーションで優れたパフォーマンスを達成するには、データ拡張と分離トレーニングが重要であることを実証します。
  • LDET は、COCO のカテゴリ間設定、COCO-to-UVO および Cityscape-to-Mapillary のデータセット間設定など、すべての設定において最先端の方法よりも優れています。

3 実験結果

研究チームは、オープンワールドインスタンスのセグメンテーションのために、クロスカテゴリおよびクロスデータセットで LDET を評価しました。クロスカテゴリ設定は COCO データセットに基づいており、ラベルは既知のカテゴリと未知のカテゴリに分割され、モデルは既知のカテゴリでトレーニングされ、検出/セグメンテーションのパフォーマンスは未知のカテゴリで評価されます。

モデルは新しい環境にあり、新しいインスタンスに遭遇する可能性があるため、データセット間設定では、モデルが新しいデータセットに一般化できるかどうかも評価されます。この目的のために、COCO または Cityscapes がトレーニング ソースとして使用され、UVO と Mappilary Vista がそれぞれテスト データセットとして使用されます。この研究では、平均精度 (AP) と平均再現率 (AR) がパフォーマンス評価基準として使用されます。特に記載がない限り、評価は非採点方式で行われます。 AR と AP は COCO 評価プロトコルに従って計算され、AP または AR の検出値は最大 100 個あります。

表1. COCOにおけるVOC→非VOC一般化の結果。表の最後の行の青い部分は、Mask R-CNN の改良版です。 LDET はすべてのベースラインを上回り、Mask R-CNN よりも大幅な改善を示しています。

図 6. COCO データセットにおける VOC から非 VOC への視覚化。上: マスク R-CNN、下: LDET。トレーニング カテゴリには、キリン、トイレ、ペン、凧、フロートは含まれないことに注意してください。 LDET は、Mask R-CNN よりも多くの新しいオブジェクトをより適切に検出できます。

表 2. VOC → 非 VOC データとトレーニング方法のアブレーション研究。最後の行は、この論文で提案されたフレームワークです。

表 3. クラスに依存しないトレーニングのアブレーション研究。クラスに依存しないトレーニングにより、LDET と Mask R-CNN のパフォーマンスがわずかに向上します。

図 7. ベースラインの Mask R-CNN は、ラベル付けされたインスタンスへの過剰適合の影響を受けます。したがって、トレーニングが進むにつれて、新しいオブジェクトを検出するパフォーマンスは低下します。対照的に、この論文の方法のパフォーマンスは基本的にトレーニングによって向上します。

表 4. COCO でテストされた教師なし手法と DeepMask との比較。 DeepMask はバックボーンとして VGG を使用することに注意してください。 LDET と DeepMask は VOC-COCO でトレーニングされています。

表 5. 背景領域のサイズの変更。 2-m は、入力画像の幅と高さ 2-m で背景領域を切り取ることを意味します。より小さな領域から背景をサンプリングすると、AR が増加し、AP が減少する傾向があります。

表6. ResNet50とResNet101の比較。 ResNet101 は ResNet50 よりもパフォーマンスが優れている傾向があり、これは LDET でより顕著です。

表 7. 領域提案ネットワークと関心領域ヘッドの比較。境界ボックスの AP と AR。

図 8. COCO 実験におけるターゲット属性マップ (RPN スコア) の視覚化。 LDET はさまざまなカテゴリのオブジェクト性をキャプチャしますが、Mask R-CNN は多くのオブジェクトを抑制する傾向があります。

表8. COCO→UVO一般化の結果。上: VOC-COCO でトレーニングされたモデル、下: COCO でトレーニングされたモデル。ベースラインと比較すると、LDET はすべての条件でより高い AP と AR を示しました。

図 9. COCO でトレーニングされたモデル結果の視覚化。上: マスク R-CNN、下: LDET。左端の 2 つの画像は UVO からのものであり、他の 2 つは COCO 検証画像からのものです。

表 9. Cityscapes → Mappilary Vista の概要結果。 LDET は自動運転データセットに効果的です。 AR0.5 は AR、IoU しきい値 = 0.5 を意味します。

<<:  写真やビデオをロスレスで拡大しますか?これら2つのAIツールは持つ価値がある

>>:  デジタルマーケティングにおけるAI革命

ブログ    
ブログ    

推薦する

人工知能の出現は教育にどのような影響を与えるのでしょうか?

近年、科学技術における人工知能の急速な発展により、人工知能は私たちの日常生活にいくつかの新たなハイラ...

...

こんにちは。タクシーに乗って空へ行きたいです。右へ飛んでください。

編集者注:この記事はWeChatの公開アカウント「Kuangwan」(ID:kuangwanplay...

IoT と AI を組み合わせたユースケースにはどのようなものがありますか?

モノのインターネットは現代のビジネスと経済全体を急速に変革しています。この革新的なテクノロジーにより...

...

...

AIは英語のエッセイを添削できますか? IELTS、CET-4、CET-6の採点、コメント、エラー修正が必要です

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ガートナーは、信頼、成長、変化を通じてイノベーションを推進する新興テクノロジーをリストアップ

[[419256]] [51CTO.com クイック翻訳]信頼の設計、成長の加速、変化の形成は、ガー...

...

30年の沈黙と60年の経験を経て、「人工知能」の過去と現在とは?

30年以上沈黙していた「人工知能」という言葉は、ここ2年で非常に人気が高まり、テクノロジー企業の主...

世界のトラフィック量上位50のAIウェブサイトが発表:ChatGPTなどの会話型製品が目立ち、ユーザーは主にライトな体験を利用

米国のベンチャーキャピタル企業a16zは10月9日、Cエンドユーザーに公開されている現在市場に出回っ...

AIの5つの本当の危険性

偽造品、アルゴリズムの偏り、その他の問題が私たちの日常生活に及ぼす影響過去数年間、人工知能は私たちの...

転換点までのカウントダウン:AI サーバーが市場を完全に支配するにはどれくらいの時間がかかるのでしょうか?

ハイパースケーラーとクラウド プロバイダーがインフラストラクチャの計画を検討する場合、まず全体的な動...

プログラミングアルゴリズムと人生の選択

毎年、就職活動の時期になると、どうやって内定を選んだらいいのか、テンセントに行くべきか豆板に行くべき...