Transformerを廃止すれば、完全な畳み込みネットワークでもE2E検出を実現できる。

Transformerを廃止すれば、完全な畳み込みネットワークでもE2E検出を実現できる。

研究者は最近、ターゲット検出のための Transformer の使用を熱心に研究していますが、この論文では、完全な畳み込みネットワークを使用しても、優れたエンドツーエンドのターゲット検出を実現できるという新しい視点を提案しています。

オブジェクト検出は、各画像に事前定義されたクラス ラベルを使用して境界ボックスを予測する、コンピューター ビジョンの基本的な研究トピックです。主流の検出器のほとんどは、アンカーベースのラベル割り当てや非最大抑制 (NMS) などの手動設計を使用しています。最近、多くの研究者が、距離を考慮した分布ベースのラベル分類を通じて、事前定義されたアンカー ボックス セットを排除する方法を提案しています。これらの方法は目覚ましい進歩と優れたパフォーマンスを達成していますが、手作業による NMS 後処理を破棄すると、完全なエンドツーエンドのトレーニングが妨げられる可能性があります。

これらの問題に基づいて、研究者は、重複排除効果を改善できる Learnable NMS、Soft NMS、CenterNet を次々と提案してきましたが、依然として効果的なエンドツーエンドのトレーニング戦略を提供することはできません。その後、FacebookのAI研究者が提案したDETRは、ターゲット検出タスクでTransformerを使用し、Faster R-CNNに匹敵する結果を達成しました。しかし、DETR のトレーニング時間は非常に長く、小さなオブジェクトに対するパフォーマンスは比較的低くなります。

そのため、本論文では、Megvii Technology と西安交通大学の研究者が、「完全畳み込みネットワークは、エンドツーエンドで優れた物体検出結果を達成できるのか?」という新たな疑問を提起しました。この質問は、ラベル割り当てとネットワーク アーキテクチャという 2 つの側面から回答および検証されます。

論文リンク: https://arxiv.org/pdf/2012.03544.pdf

プロジェクト コード: https://github.com/Megvii-BaseDetection/DeFCN (内部コード移行 + 審査中、後日リリース)

具体的には、研究者らは FCOS に基づいて、完全な畳み込み構造を使用して、NMS 後処理なしで高密度予測の E2E を初めて実現しました。研究者らはまず、一般的な高密度予測手法(RetinaNet、FCOS、ATSSなど)を分析し、1対多のラベル割り当てがNMSに依存する鍵であると考えました。 DETR に触発されて、研究者は予測を考慮した 1 対 1 の割り当て方法を設計しました。

さらに、研究者らは、局所領域の特徴の表現能力を高めるために 3D Max フィルタリングを提案し、収束を加速するために 1 対多の補助損失を使用することを提案しました。提案手法は、基本的にモデル構造を変更せず、より長いトレーニング時間を必要とせず、既存の高密度予測手法に基づいてスムーズに移行することができます。 NMS がない場合、私たちの方法は COCO データセットで NMS を使用した FCOS と同等のパフォーマンスを達成します。密集したシーンを表す CrowdHuman データセットでは、私たちの方法の再現率は NMS に依存する方法の理論上の上限を超えています。

全体的な方法のフローを次の図に示します。

1対多と1対1

アンカーフリー方式の登場以来、ネットワーク内の最後のヒューリスティックリンクとしての NMS は、E2E 高密度予測を実現する上で最大の障害となってきました。しかし実際には、RPN、SSD、RetinaNet などから始めて、誰もが次のようなプロセスに従っていることがわかります。まず、各ターゲットに対して複数の予測を生成し (1 対多)、次に複数の予測を重複排除します (多対 1)。そのため、前ステップのラベル割り当てを変更しない場合は、重複排除処理を保持する必要があります。重複排除方式がNMSでない場合も、NMSの代替(RelationNet、CenterNetのmax poolingなど)になります。

1対1の割り当てを直接実行する方法はありますか?実は、そうです。昔はMultiBoxという手法があり、各ターゲットと各予測に対して二部マッチングを行っていました。DETRは実際にこの手法のネットワークをTransformerに置き換えました。よく知られている方法としてYOLOがあります。YOLOも各ターゲットに対して1つのグリッドのみをマッチングしますが[1]、マッチングには中心点を使用し、無視領域があります。

予測を考慮した1対1

そこで次の疑問は、高密度予測に 1 対 1 のラベル割り当てのみに依存して、NMS を完全に除去できるかどうかです。研究者らはまずFCOSの中心性ブランチを削除し、ネットワーク構造とトレーニング方法を統一し、Focal Loss + GIoU Lossを使用して以下の分析実験を実施しました。

研究者らは、RetinaNet(アンカーボックスベース)とFCOS(中心点ベース)をそれぞれ模倣した、手作業による1対1の割り当て方法を2つ設計し、変更を可能な限り最小限に抑え、NMSの有無によるmAPギャップを4ポイント以内に狭めることができることを発見しました。

しかし、研究者たちは、手動で設計されたラベル割り当てルールが 1 対 1 のパフォーマンスに大きく影響すると考えています。たとえば、中心ルールは偏心したオブジェクトには適しておらず、この場合、1 対 1 ルールは 1 対多ルールよりも堅牢性が低くなります。したがって、ルールは予測を考慮したものでなければならないと考えられています。研究者らはまず、損失を二部マッチングのコストとして直接使用するDETRのアイデアを試し[2]、絶対的なパフォーマンスとNMSの使用とNMSの使用の違いの両方がさらに改善されることを発見しました。

しかし、損失とメトリックはしばしば矛盾しており、最適化の問題(重み付けなど)に対して何らかの妥協が必要になることが多々あることがわかっています。言い換えれば、損失は必ずしも二部マッチングにとって最善のコストではありません。そこで研究者たちは非常に単純なコストを提案しました。

少し複雑に見えますが、実際には、ネットワーク出力のprobを使用して分類を表し、ネットワーク出力のIoUとgtを使用して回帰を表し、加重幾何平均を実行し、gtボックス内と同様の空間事前分布を追加します。加重幾何平均と空間事前分布は後で除去されます。

これは研究者らが提案したPOTO戦略であり、NMSなしでパフォーマンスをさらに向上させ、損失が必ずしも最善のコストではないことを間接的に検証します[3]。ただし、表 1 からわかるように、POTO のパフォーマンスは、1 対多 + NMS の組み合わせにはまだ匹敵しません。研究者たちは、問題は次の 2 つの側面にあると考えています。

1対1では、ネットワークによって出力される特徴が非常に鮮明である必要があり、CNNに厳しい要件が課せられます(これはTransformerの利点でもあります)。

1 対多により、監視が強化され、収束が速くなります。

したがって、上記の問題を軽減するために、3D Max フィルタリングと 1 対多の補助損失が使用されます。

3D Max フィルタリング

図 3 に示すように、このモジュールは畳み込み、補間、および最大プーリング 3D のみを使用します。非常に高速で、CUDA カーネルを記述する必要がありません。

1対多の補助損失

監督が十分に強力ではなく、収束が遅いという 2 番目の点に対して、研究者は依然として 1 対多の割り当てを使用して監督の補助損失を設計しています。この損失には分類損失のみが含まれ、回帰損失は含まれません。課題自体については特に言うことはありませんが、付録の実験でもさまざまなアプローチが機能することがわかります。ここで、補助損失の働きの鍵となる図 2 の乗算に注目していただきたいと思います。 1 対多の補助損失は乗算の前に追加され、1 対 1 の通常の損失は乗算の後に追加されます。 1*0=0 かつ 1*1=1 なので、1 対 1 の割り当てにおける正のサンプルが 1 対多の割り当てにおいても正のサンプルであることを大まかに確認するだけで済みます。

実験

主な実験結果は表 1 に示されていますが、さらにいくつかのアブレーション実験もあります。

以下にいくつかのハイライトを紹介します:

αが低いほど分類の重みが大きくなり、NMSと非NMSの差は小さくなりますが、絶対的なパフォーマンスも低下します[4]。αが高すぎるのも良くないので、以降のすべての実験ではα=0.8を使用します。

αが妥当な場合、空間事前分布は不要ですが、マッチング中に不良領域を除外し、絶対的なパフォーマンスを向上させるのに役立ちます。研究者は、COCO実験では中心サンプリング半径= 1.5を使用し、CrowdHuman実験ではgtボックス内を使用しました[5]。

加重幾何平均(Mul)[6]は加重算術平均(Add)[7]よりも優れています。

NMS を削除したことによる最大のメリットは、実は COCO ではうまく反映されていない群衆シーンです。そこで私はCrowdHumanで次のような別の実験を行いました。

CrowdHuman の ground-truth は、NMS しきい値 = 0.6 の場合に 95.1% のリコールしか持たないことに注意してください。これは、NMS メソッドの理論上の上限でもあります。しかし、本論文の手法ではNMSを使用しないため、この上限を簡単に超えてしまいます。

研究者らは他の実験や分析も行いました。原文をお読みください。

視覚化

上記の改善により、研究者らは 1 対 1 のパフォーマンスを 1 対多 + NMS 方式に匹敵するレベルまで向上させることに成功しました。さらに、スコアマップが視覚化されており、FCNが非常に鋭い表現を学習できることがわかり、これも研究者を驚かせた点です。

結果グラフのより明らかな改善は、複数のピークがある場合に現れます。たとえば、2 つのオブジェクトに一定の重なりがある場合 (ただし、特に重なっているわけではない)、1 対多 + NMS 方式では、各オブジェクトのボックスに加えて、2 つのオブジェクト間にボックスが生成されることがよくあります。このボックスと最初の 2 つのボックス間の IoU は、NMS しきい値に達するほど高くはありませんが、信頼度は比較的高くなります。この種の典型的なマルチピークの問題は、POTO では大幅に軽減されます。

その他

潜在意識では密予測の二部マッチングは非常に遅くなるはずなので、トレーニング時間をより心配する人もいるかもしれません。ただし、scipy の linear_sum_assignment の最適化により、実際のトレーニング時間は約 10% しか短縮されませんでした。

それでも時間に敏感な場合は、二部マッチングの代わりにtopk(k = 1)を使用できます。密な予測では、top1は実際には二部マッチングの近似解です[8]。同様に、k>1 の場合は、1 対多への新しいアプローチに対応します。研究者もこれについていくつかの研究を行っており、後で公開される可能性があります。

参照する

興味のある方は、YOLO から NMS を削除してみると、30mAP に近づくことができます。

なお、ここではDETRのCE+GIoU+L1の組み合わせは使用せず、損失そのもの(Focal+GIoU)が直接使用されます。研究者たちは、これは損失をコストとして利用するというDETRの本来の意図に沿ったものであると考えています。

実は、ここに皆さんのためのアイデアがあります。コストを微分化する必要がないので、AP をコストとして直接計算することもできます。

これは、検出タスクにおいて分類と回帰の間の矛盾が重要であることを間接的に証明しています。

理由は簡単です。CrowdHuman には深刻な遮蔽の問題があり、中央の領域が完全に遮蔽されることがよくあります。

実際、加重幾何平均の負の対数は CE+IoU 損失ですが、加重算術平均には明らかな物理的な意味はありません。

NoisyAnchor は、assign で同様の式を使用しますが、アンカー IoU を使用します。

より具体的には、top1 (つまり argmin) は、ハンガリー アルゴリズムが最初の反復のみを実行した結果です。密な予測では競合がほとんどないため、1 回の反復が最適な一致に近くなり、ハンガリー アルゴリズムが実際にはここで非常に高速に実行されるのはこのためです。

<<:  モザイクを使用するのは安全ですか? AIがモザイクを除去し、導入から3日間で約7,000個の星を獲得

>>:  清華大学のJiTuアップデート:微分可能レンダリングをサポートし、マルチタスク速度はPyTorchを上回る

ブログ    
ブログ    

推薦する

無料の Python 機械学習コース 5: 多クラス分類ロジスティック回帰

ロジスティック回帰の2つの方法:勾配降下法と最適化関数ロジスティック回帰は非常に人気のある機械学習手...

人工知能はブロックチェーンにどのような影響を与えるのでしょうか?

人工知能 (AI) の開発には、機械による継続的な学習が伴います。コンピュータが「スマート」になるた...

人工知能を無料で学べるトップ 10 ウェブサイト

多くの人が人工知能に非常に興味を持っていますが、どこから始めればよいか分かりません。次に紹介する 1...

Huaweiの「ブラックテクノロジー」がついに公開。サイバーバース以外にも重要なニュースがある

8月11日はHuawei Developer Conferenceの3日目であり、カンファレンスの議...

機械学習: 具体的なカテゴリーは何ですか?プロジェクトのプロセスはどのようなものですか?

機械学習と人工知能は近年最もホットなキーワードの 1 つであるはずです。今日は機械学習の基礎知識をい...

AI による自動ラベル付けの普及により、データラベル作成者の職は失われるのでしょうか?

データ注釈業界では、「知能と同じくらい人工知能も存在する」という有名な格言があります。ラベル付けが必...

新しい研究:ハトは人工知能と同様の方法で問題を解決する

オハイオ州立大学とアイオワ大学の研究者による研究で、ハトは問題を解決する際に人工知能に似た「力ずく」...

テスラは最初にこの問題の矢面に立たされ、自動運転の安全性の問題が再び話題となっている。

今日、自動運転は自動車産業の発展と変革の重要な方向性の一つとなっています。自動運転技術が成熟するにつ...

2019 Baidu AI 開発者会議で AI レポートカードが披露される

7月3日、北京で百度AI開発者会議「Baidu Create2019」が開催された。この会議は「産業...

ファーウェイと4つの主要パートナーが共同でAscend AIの大規模モデルトレーニングおよびプッシュ統合ソリューションをリリース

Ascend人工知能産業サミットフォーラムが上海で開催されました。フォーラムでは、ビッグモデルの共同...

パンデミックの間、AI はどのようにして工場の安全な運営を維持するのに役立つのでしょうか?

[[377897]]新型コロナウイルスの感染拡大が世界中で続く中、多くの企業が業務をリモートワーク...

...

DAMOアカデミーのAI研究により、初めて大規模な膵臓がんの早期スクリーニングが可能に

私たちの日常生活では、携帯電話のロック解除から検索エンジンを使った地図ナビゲーションまで、人工知能と...

...

アップルはiOS 18でクラウドやデバイスを含む生成AI機能を導入したと言われている。

海通国際証券のアナリスト、ジェフ・プー氏は本日、 Appleが早ければ2024年末にもiPhoneと...