すべてのトップオブジェクト検出アルゴリズムを統合: FAIRオープンソースDetectron

昨日、Facebook AI Research (FAIR) は、業界で最も先進的な物体検出プラットフォームである Detectron をオープンソース化しました。このプロジェクトは2016年7月に開始され、Caffe2上に構築されていると報告されています。現在、Mask R-CNN（He Kaimingの研究、ICCV 2017 ***論文）やFocal Loss for Dense Object Detection（ICCV 2017 ***学生論文）など、多数の機械学習アルゴリズムをサポートしています。 Facebook 社によると、このツールキットは社内の多くのチームでさまざまな用途に使用されている。トレーニングが完了すると、これらのコンピュータービジョンモデルはクラウドやモバイルデバイスに展開できる。

プロジェクトアドレス: https://github.com/facebookresearch/Detectron

ディテクトロン

Detectron は、Mask R-CNN を含む高度なオブジェクト検出アルゴリズムを実装するための Facebook AI Research のソフトウェアシステムです。このシステムは、Python とディープラーニングフレームワーク Caffe 2 に基づいて構築されています。

FAIR Labs では、Detectron は現在、以下を含む多くの研究プロジェクトの実施をサポートしています。

物体検出のための特徴ピラミッドネットワーク

(https://arxiv.org/abs/1612.03144)

マスクR-CNN

(https://arxiv.org/abs/1703.06870)

人間と物体の相互作用の検出と認識

(https://arxiv.org/abs/1704.07333)

高密度物体検出のための焦点損失

(https://arxiv.org/abs/1708.02002)

非局所ニューラルネットワーク

(https://arxiv.org/abs/1711.07971)

あらゆるものをセグメント化することを学ぶ

(https://arxiv.org/abs/1711.10370)

データ蒸留: 全教師あり学習に向けて

(https://arxiv.org/abs/1712.04440)

マスクR-CNN出力の例

導入

Detectron は、物体検出研究のための高品質で高性能なコードベースを提供することを目的としており、その柔軟な機能により、新しい研究の迅速な実装と検証をサポートします。 Detectron には現在、次のオブジェクト検出アルゴリズムの実装が含まれています。

マスク R-CNN (https://arxiv.org/abs/1703.06870) — ICCV 2017 の Marr 賞
RetinaNet (https://arxiv.org/abs/1708.02002) — ICCV 2017 最優秀学生論文賞
より高速な R-CNN (https://arxiv.org/abs/1506.01497)
RPN (https://arxiv.org/abs/1506.01497)
高速 R-CNN (https://arxiv.org/abs/1504.08083)
R-FCN (https://arxiv.org/abs/1605.06409)

これらのオブジェクト検出アルゴリズムは、主に次の畳み込みネットワークアーキテクチャを使用します。

ResNeXt{50,101,152} (https://arxiv.org/abs/1611.05431)
ResNet{50,101,152} (https://arxiv.org/abs/1512.03385)
特徴ピラミッドネットワーク (https://arxiv.org/abs/1612.03144) (ResNet/ResNeXt を使用)
VGG16 (https://arxiv.org/abs/1409.1556)

これらのターゲット検出アルゴリズムの中で、私たちがよく知っているのは、Faster R-CNN の拡張である Mask R-CNN です。つまり、バウンディングボックスの認識に使用されるブランチに並列ブランチが追加され、ターゲットマスクを予測します。この方法は、画像内のオブジェクトを効果的に検出すると同時に、各インスタンスに対して高品質のセグメンテーションマスクを生成することができます。 RetinaNet では、研究者らが新しい Focal Loss 法を提案し、スパースで難しいサンプルでのトレーニングに重点を置き、トレーニングプロセス中に発生する可能性のある多数のマイナス要因を回避しました。論文の研究者らは、Focal Loss でトレーニングすると、RetinaNet は以前の 1 ステップ検出器の速度に到達できると同時に、業界最高の 2 ステップ検出器よりも精度が高くなると述べています。 ICCV 2017 で大きな成功を収めたこれら 2 つのオブジェクト検出アルゴリズムに加えて、Fast R-CNN や R-FCN などの他のオブジェクト検出アルゴリズムも優れた古典的なオブジェクト検出ソリューションです。

畳み込みネットワークアーキテクチャでは、主に複数の層の特徴を統合し、CNN の特徴抽出方法を改善する特徴ピラミッドネットワーク (FPN) に注目する価値があります。 CNN の固有のマルチスケール、マルチレベルのピラミッド構造を利用して特徴ピラミッドネットワークを構築し、トップダウンの Skip Connector を使用してあらゆるスケールで高レベルのセマンティック特徴マップを構築します。

上記の検出アルゴリズムと CNN アーキテクチャは、ターゲット検出タスクにおいて非常に優れた結果を達成しており、基本的にこの分野で最高レベルを示しています。 Detectron には、これらのアルゴリズムとアーキテクチャのベースライン結果とトレーニング済みモデルの大規模なセットが含まれており、直接ダウンロードできます。たとえば、次の図は、RetinaNet のベースライン結果と対応するモデルのダウンロードアドレスを示しています。また、トレーニングと推論中に役立つデータも提供します。

大まかに数えてみると、このプロジェクトにはさまざまな設定の事前トレーニング済みモデルが 70 個以上あります。したがって、Detectron は基本的に、最も多くのオブジェクト検出アルゴリズムを備えた最も包括的なコードライブラリです。さらに、このプロジェクトでは、Caffe 2 および COCO データセットを含むインストール手順も提供されます。コードベースでは Python 2 が使用されていることに注意してください。これには、NVIDIA GPU、Linux システム、およびその他の標準的な Python 数値計算パッケージも必要です。

モデルライブラリとベースライン結果:

https://github.com/facebookresearch/Detectron/blob/master/MODEL_ZOO.md

インストール手順:

https://github.com/facebookresearch/Detectron/blob/master/INSTALL.md

***、Detectron は、調査ツールの使用方法を示すドキュメントも提供しています。たとえば、画像ファイルディレクトリで推論を実行する場合は、infer.simple.py ツールを直接使用できます。次の例では、エンドツーエンドでトレーニングされた Mask R-CNN モデル (基本畳み込みアーキテクチャとして ResNet-101-FPN を使用) を使用して推論を実行します。

python2 tools/infer_simple.py --cfg configs/12_2017_baselines/e2e_mask_rcnn_R-101-FPN_2x.yaml --output-dir /tmp/detectron-visualizations --image-ext jpg --wts https://s3-us-west-2.amazonaws.com/detectron/35861858/12_2017_baselines/e2e_mask_rcnn_R-101-FPN_2x.yaml.02_32_51.SgT4y1cO/output/train/coco_2014_train:coco_2014_valminusminival/generalized_rcnn/model_final.pkl デモ

より詳細な使用方法のドキュメントについては、https://github.com/facebookresearch/Detectron/blob/master/GETTING_STARTED.md を参照してください。

参考文献

データ蒸留: 全方位教師あり学習に向けて。Ilija Radosavovic、Piotr Dollár、Ross Girshick、Georgia Gkioxari、Kaiming He。技術レポート、arXiv、2017 年 12 月。
あらゆるものをセグメント化する方法を学ぶ。Ronghang Hu、Piotr Dollár、Kaiming He、Trevor Darrell、Ross Girshick。技術レポート、arXiv、2017 年 11 月。
非局所ニューラルネットワーク。Xiaolong Wang、Ross Girshick、Abhinav Gupta、Kaiming He。技術レポート、arXiv、2017 年 11 月。
Mask R-CNN。Kaiming He、Georgia Gkioxari、Piotr Dollár、および Ross Girshick。IEEE 国際コンピュータービジョン会議 (ICCV)、2017 年。
高密度オブジェクト検出のための焦点損失。Tsung-Yi Lin、Priya Goyal、Ross Girshick、Kaiming He、Piotr Dollár。IEEE 国際コンピュータービジョン会議 (ICCV)、2017 年。
正確で大規模なミニバッチ SGD: 1 時間で ImageNet をトレーニング。Priya Goyal、Piotr Dollár、Ross Girshick、Pieter Noordhuis、Lukasz Wesolowski、Aapo Kyrola、Andrew Tulloch、Yangqing Jia、Kaiming He。技術レポート、arXiv、2017 年 6 月。
人間と物体のインタラクションの検出と認識。Georgia Gkioxari、Ross Girshick、Piotr Dollár、Kaiming He。技術レポート、arXiv、2017 年 4 月。
物体検出のための特徴ピラミッドネットワーク。Tsung-Yi Lin、Piotr Dollár、Ross Girshick、Kaiming He、Bharath Hariharan、Serge Belongie。IEEE コンピュータービジョンおよびパターン認識会議 (CVPR)、2017 年。
ディープニューラルネットワークの集約残差変換。Saining Xie、Ross Girshick、Piotr Dollár、Zhuowen Tu、Kaiming He。IEEE コンピュータービジョンおよびパターン認識会議 (CVPR)、2017 年。
R-FCN: 領域ベースの完全畳み込みネットワークによる物体検出。Jifeng Dai、Yi Li、Kaiming He、Jian Sun。ニューラル情報処理システムに関する会議 (NIPS)、2016 年。
画像認識のためのディープ残差学習。Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun。IEEE コンピュータービジョンおよびパターン認識会議 (CVPR)、2016 年。
より高速な R-CNN: 領域提案ネットワークを使用したリアルタイムのオブジェクト検出に向けて Shaoqing Ren、Kaiming He、Ross Girshick、Jian Sun。ニューラル情報処理システムに関する会議 (NIPS)、2015 年。
高速 R-CNN。Ross Girshick。IEEE 国際コンピュータビジョン会議 (ICCV)、2015 年。