CVPR 2017 論文の解釈: フィーチャーピラミッドネットワーク FPN

CVPR 2017 論文の解釈: フィーチャーピラミッドネットワーク FPN

論文: 物体検出のための特徴ピラミッドネットワーク

論文アドレス: https://arxiv.org/abs/1612.03144

今回紹介するのはFacebookのFeature Pyramid Networks(FPN)です。 FPN は主に物体検出におけるマルチスケールの問題を解決します。ネットワーク接続を変更するだけで、元のモデルの計算の複雑さを基本的に増やすことなく、小さな物体の検出のパフォーマンスを大幅に向上させます。私たちはこの論文を、論文の背景、論文のアイデア、結果、結論という観点から議論します。

物体検出では、計算負荷が制限されている場合、ネットワークの深さ(受容野に相当)とストライドは通常矛盾します。一般的に使用されるネットワーク構造に対応するストライドは一般的に大きい(32など)のに対し、画像内の小さな物体はストライドのサイズよりも小さい場合もあり、その結果、小さな物体の検出性能が急激に低下します。この問題を解決するための従来のアプローチには、図1(a)に示すように、(1)画像ピラミッドとも呼ばれるマルチスケールトレーニングとテストが含まれます。現在、ImageNet および COCO 検出タスクで良好な結果を達成したほぼすべての方法は、画像ピラミッド法を使用しています。ただし、この方法は、時間がかかり、計算量が多いため、実際に適用するのは困難です。 (2)特徴の層別化、すなわち各層は対応するスケール解像度の検出結果を予測する。図1(c)に示すように。 SSD 検出フレームワークも同様の考え方を採用しています。このアプローチの問題点は、異なるレイヤーに同じ意味情報を学習させることです。畳み込みニューラル ネットワークの場合、異なる深さは異なるレベルの意味的特徴に対応します。浅いネットワークは解像度が高く、より詳細な特徴を学習しますが、深いネットワークは解像度が低く、より多くの意味的特徴を学習します。

したがって、マルチスケールのオブジェクト検出が直面する主な課題は次のとおりです。

  1. 強力な意味情報を持つマルチスケールの特徴表現を学習するにはどうすればよいでしょうか?
  2. オブジェクト検出における複数のサブ問題を解決するための一般的な特徴表現を設計するにはどうすればよいでしょうか?オブジェクトの提案、ボックスのローカリゼーション、インスタンスのセグメンテーションなど。
  3. マルチスケール特徴表現を効率的に計算するにはどうすればよいでしょうか?

これらの問題に対処するために、本論文では、図 1(d) に示すように、特徴ピラミッド ネットワーク (FPN) を提案します。このネットワークは、元の単一のネットワークを直接変更します。各解像度の特徴マップは、要素ごとの追加のために、次の解像度で 2 倍にスケーリングされた特徴マップを導入します。このような接続を通じて、各レイヤーでの予測に使用される特徴マップは、異なる解像度と意味強度の特徴を融合し、異なる解像度の融合された特徴マップは、対応する解像度サイズのオブジェクトを検出するために使用されます。これにより、各レイヤーに適切な解像度と強力なセマンティック機能が備わります。同時に、この方法では元のネットワークに基づいて追加のクロスレイヤー接続を追加するだけなので、実際のアプリケーションでは追加の時間と計算はほとんど発生しません。次に著者らは、FPN を Faster RCNN に適用した場合のパフォーマンスを実験し、COCO 上で最先端の単一モデル精度を達成しました。

具体的には、FPN はそれぞれ RPN ステップと Fast RCNN ステップで役割を果たします。 RPN と Fast RCNN はそれぞれリコール率と陽性検出率に重点を置いています。ここで比較する指標は、平均リコール (AR) と平均精度 (AP) です。異なるスケールのオブジェクトの検出を比較し、小さい、中くらいの、大きいオブジェクトはそれぞれ s、m、l で表されます。

RPNでは、オリジナルの特徴マップ上に異なるスケールと比率のアンカーを直接設定するオリジナル論文とは異なり、この論文のスケール情報は対応する特徴マップに対応しており(領域はそれぞれ32^2、64^2、128^2、256^2、512^2に設定されています)、比率はオリジナルの方法と同様に{1:2、1:1、、2:1}に設定されています。 RPN と同様に、FPN は分類と回帰予測のために、各特徴マップ レイヤーに 3*3 畳み込みと 2 つの隣接する 1*1 畳み込みを追加します。 RPN では、実験により、FPN の異なるレイヤーで特徴マップの畳み込みパラメータが共有されているかどうかを比較し、共有しても良好なパフォーマンスが得られることがわかりました。これは、特徴ピラミッドによって異なるレイヤーが同じレベルの意味的特徴を学習できることを示しています。 RPN ネットワークの実験結果は次のとおりです。

ここで、FPN のリコール率は、conv4 および conv5 から最初に取得された RPN ネットワーク (a)(b) と比較して大幅に向上しており、特に中型および小型のオブジェクト (c) では顕著です。さらに、著者らは変数比較実験を行った。例えば、水平接続(d)、つまり特徴階層化ネットワークのみを保持すると、パフォーマンスは元のRPNとほぼ同じになる。その理由は、異なる層間の意味的特徴がかなり異なるためである。さらに、水平接続を切断し、トップダウンの拡大特徴マップのみを予測結果に保持する実験 (e) と、最終的な特徴マップ レイヤーのみを使用する実験 (f) を行いました。どちらも、小型物体検出 AR の完全な FPN ネットワークよりも約 10 ポイント低い結果となりました。これは、ピラミッドの特徴表現と横方向の接続の両方が重要な役割を果たしていることを示しています。

Fast RCNN を実験する場合、FPN + RPN によって抽出された提案結果を固定する必要があります。 Fast RCNN では、FPN は主に、ROI プーリングのために抽出する特徴マップのレイヤーを選択するために使用されます。特徴ピラミッドの結果は画像ピラミッドの結果に対応すると想定されます。異なる特徴マップ セットを {P2、P3、P4、P5} として定義します。ネットワークに入力された元の画像の ROI w*h の場合、選択された特徴マップは Pk です (224 は ImageNet 入力画像のサイズです)。

RPN 実験と同様に、元のネットワークと異なる FPN 構造を持つ Fast RCNN 実験を比較しました。実験結果は次のとおりです。

実験では、FPN スクリーニング ROI 領域によって Fast RCNN の小さな物体の検出精度も大幅に向上することが示されています。同時に、FPN のすべてのステップが重要です。

***、FPN を Faster RCNN 全体と比較した実験結果は次のとおりです。

他の単一モデル方式と比較すると、結果は次のようになります。

***FPN をベースに、RPN と Fast RCNN の機能を共有しています。オリジナルの Faster CNN と同様に、精度がわずかに向上しています。

FPN + Faster RCNN メソッドは、最終的に COCO データセットで最高の単一モデル精度を達成しました。

要約すると、本論文では独創的な特徴ピラミッド接続法を提案しており、これは実験的に物体検出に非常に効果的であることが検証されており、小さな物体検出のパフォーマンスを大幅に向上させています。同時に、元の画像ピラミッドマルチスケール検出アルゴリズムと比較して、速度も大幅に向上しています。

CVPR オンサイト QA:

1. アップサンプリング後に異なる深度の特徴マップを直接追加できるのはなぜですか?

A: その理由は、エンドツーエンドのトレーニングを行ったためだと著者は説明しています。異なるレイヤーのパラメータは固定されておらず、異なるレイヤーが同時にエンドツーエンドのトレーニングのために監視されているため、加法的なトレーニングにより、浅い情報と深い情報をより効果的に統合できます。

2. ディープ フィーチャ アップサンプル (ボトムアップ ピラミッド) を削除する場合と比較して、FPN によって小さなオブジェクトの検出が大幅に改善されるのはなぜですか? (RPN ステップ AR は 30.5 から 44.9、Fast RCNN ステップ AP は 24.9 から 33.9)

A: この質問に対する答えはポスターに記載されています。

小さな物体の場合、一方では、小さな領域の情報にもっと注意を払うために高解像度の特徴マップが必要です。他方では、写真のショルダーバッグのように、ショルダーバッグの存在と位置をより正確に判断するためには、より多くのグローバル情報が必要です。

3. 時間を考慮しない場合、画像ピラミッドの方が機能ピラミッドよりもパフォーマンスが向上する可能性はありますか?

A: 著者はトレーニングを微調整すれば可能だと考えていますが、画像ピラミッドの主な問題は時間とスペースがかかりすぎることです。一方、特徴ピラミッドは追加の計算をほとんど行わずにマルチスケール検出の問題を解決できます。

この記事は Machine Intelligence から転載したもので、著者は Momenta のシニア R&D エンジニアである Li Jun です。

<<:  人工知能オンライン機能システムのデータアクセス技術

>>:  ハンシのシリーズB資金調達は、「安全とインテリジェンス」ブランドをアピールすることで注目を集めている

ブログ    
ブログ    

推薦する

...

...

...

海外の子どもたちはみんなプログラミングを学んでいますが、彼らが学んでいるのはプログラミングではなく、プログラミング的思考なのです!

人工知能が話題になるにつれ、コーディングも親たちの注目の的になっています。実は、子どもにプログラミン...

...

遠隔医療市場は2020年に65%近く成長すると予測

フロスト・アンド・サリバンの新しい遠隔医療市場予測によると、COVID-19パンデミックの影響で、遠...

...

ラオ・ファン氏が投資に参加し、MITの中国人女性科学者が2億ドルの資金を調達! 10,000台のH100が1000億以上のパラメータでAIエージェントをトレーニング

今、シリコンバレーに新たな AI ユニコーンが誕生しました!この中国人女性科学者が設立した会社はIm...

...

...

顧客サービスの応答時間を短縮して潜在顧客の喪失を回避する方法

急速に変化する今日の世界では、誰も待たされることを好みません。私たちはリクエストに迅速に対応してもら...

AI エージェントが GPT-4 と連携して人間のディレクターを排除します。 「サウスパーク」はスタンフォード大学のウエストワールドを模倣して撮影された

AIエージェントがまた衝撃的なニュースをもたらしました。AIエージェントが直接監督に昇進し、「サウス...

...

機械学習開発者が知っておくべき 5 つのディープラーニング フレームワーク

ディープラーニングには大量の計算が必要です。通常、多数のノードを持つニューラル ネットワークで構成さ...