すべてのトップオブジェクト検出アルゴリズムを統合: FAIRオープンソースDetectron

すべてのトップオブジェクト検出アルゴリズムを統合: FAIRオープンソースDetectron

昨日、Facebook AI Research (FAIR) は、業界で最も先進的な物体検出プラットフォームである Detectron をオープンソース化しました。このプロジェクトは2016年7月に開始され、Caffe2上に構築されていると報告されています。現在、Mask R-CNN(He Kaimingの研究、ICCV 2017 ***論文)やFocal Loss for Dense Object Detection(ICCV 2017 ***学生論文)など、多数の機械学習アルゴリズムをサポートしています。 Facebook 社によると、このツールキットは社内の多くのチームでさまざまな用途に使用されている。トレーニングが完了すると、これらのコンピューター ビジョン モデルはクラウドやモバイル デバイスに展開できる。

プロジェクトアドレス: https://github.com/facebookresearch/Detectron

ディテクトロン

Detectron は、Mask R-CNN を含む高度なオブジェクト検出アルゴリズムを実装するための Facebook AI Research のソフトウェア システムです。このシステムは、Python とディープラーニング フレームワーク Caffe 2 に基づいて構築されています。

FAIR Labs では、Detectron は現在、以下を含む多くの研究プロジェクトの実施をサポートしています。

物体検出のための特徴ピラミッドネットワーク

(https://arxiv.org/abs/1612.03144)

マスクR-CNN

(https://arxiv.org/abs/1703.06870)

人間と物体の相互作用の検出と認識

(https://arxiv.org/abs/1704.07333)

高密度物体検出のための焦点損失

(https://arxiv.org/abs/1708.02002)

非局所ニューラルネットワーク

(https://arxiv.org/abs/1711.07971)

あらゆるものをセグメント化することを学ぶ

(https://arxiv.org/abs/1711.10370)

データ蒸留: 全教師あり学習に向けて

(https://arxiv.org/abs/1712.04440)

マスクR-CNN出力の例

導入

Detectron は、物体検出研究のための高品質で高性能なコード ベースを提供することを目的としており、その柔軟な機能により、新しい研究の迅速な実装と検証をサポートします。 Detectron には現在、次のオブジェクト検出アルゴリズムの実装が含まれています。

  • マスク R-CNN (https://arxiv.org/abs/1703.06870) — ICCV 2017 の Marr 賞

  • RetinaNet (https://arxiv.org/abs/1708.02002) — ICCV 2017 最優秀学生論文賞

  • より高速な R-CNN (https://arxiv.org/abs/1506.01497)

  • RPN (https://arxiv.org/abs/1506.01497)

  • 高速 R-CNN (https://arxiv.org/abs/1504.08083)

  • R-FCN (https://arxiv.org/abs/1605.06409)

これらのオブジェクト検出アルゴリズムは、主に次の畳み込みネットワーク アーキテクチャを使用します。

  • ResNeXt{50,101,152} (https://arxiv.org/abs/1611.05431)

  • ResNet{50,101,152} (https://arxiv.org/abs/1512.03385)

  • 特徴ピラミッドネットワーク (https://arxiv.org/abs/1612.03144) (ResNet/ResNeXt を使用)

  • VGG16 (https://arxiv.org/abs/1409.1556)

これらのターゲット検出アルゴリズムの中で、私たちがよく知っているのは、Faster R-CNN の拡張である Mask R-CNN です。つまり、バウンディング ボックスの認識に使用されるブランチに並列ブランチが追加され、ターゲット マスクを予測します。この方法は、画像内のオブジェクトを効果的に検出すると同時に、各インスタンスに対して高品質のセグメンテーション マスクを生成することができます。 RetinaNet では、研究者らが新しい Focal Loss 法を提案し、スパースで難しいサンプルでのトレーニングに重点を置き、トレーニング プロセス中に発生する可能性のある多数のマイナス要因を回避しました。論文の研究者らは、Focal Loss でトレーニングすると、RetinaNet は以前の 1 ステップ検出器の速度に到達できると同時に、業界最高の 2 ステップ検出器よりも精度が高くなると述べています。 ICCV 2017 で大きな成功を収めたこれら 2 つのオブジェクト検出アルゴリズムに加えて、Fast R-CNN や R-FCN などの他のオブジェクト検出アルゴリズムも優れた古典的なオブジェクト検出ソリューションです。

畳み込みネットワークアーキテクチャでは、主に複数の層の特徴を統合し、CNN の特徴抽出方法を改善する特徴ピラミッドネットワーク (FPN) に注目する価値があります。 CNN の固有のマルチスケール、マルチレベルのピラミッド構造を利用して特徴ピラミッド ネットワークを構築し、トップダウンの Skip Connector を使用してあらゆるスケールで高レベルのセマンティック特徴マップを構築します。

上記の検出アルゴリズムと CNN アーキテクチャは、ターゲット検出タスクにおいて非常に優れた結果を達成しており、基本的にこの分野で最高レベルを示しています。 Detectron には、これらのアルゴリズムとアーキテクチャのベースライン結果とトレーニング済みモデルの大規模なセットが含まれており、直接ダウンロードできます。たとえば、次の図は、RetinaNet のベースライン結果と対応するモデルのダウンロード アドレスを示しています。また、トレーニングと推論中に役立つデータも提供します。

大まかに数えてみると、このプロジェクトにはさまざまな設定の事前トレーニング済みモデルが 70 個以上あります。したがって、Detectron は基本的に、最も多くのオブジェクト検出アルゴリズムを備えた最も包括的なコード ライブラリです。さらに、このプロジェクトでは、Caffe 2 および COCO データセットを含むインストール手順も提供されます。コード ベースでは Python 2 が使用されていることに注意してください。これには、NVIDIA GPU、Linux システム、およびその他の標準的な Python 数値計算パッケージも必要です。

  • モデルライブラリとベースライン結果:

https://github.com/facebookresearch/Detectron/blob/master/MODEL_ZOO.md

  • インストール手順:

https://github.com/facebookresearch/Detectron/blob/master/INSTALL.md

***、Detectron は、調査ツールの使用方法を示すドキュメントも提供しています。たとえば、画像ファイル ディレクトリで推論を実行する場合は、infer.simple.py ツールを直接使用できます。次の例では、エンドツーエンドでトレーニングされた Mask R-CNN モデル (基本畳み込みアーキテクチャとして ResNet-101-FPN を使用) を使用して推論を実行します。

python2 tools/infer_simple.py --cfg configs/12_2017_baselines/e2e_mask_rcnn_R-101-FPN_2x.yaml --output-dir /tmp/detectron-visualizations --image-ext jpg --wts https://s3-us-west-2.amazonaws.com/detectron/35861858/12_2017_baselines/e2e_mask_rcnn_R-101-FPN_2x.yaml.02_32_51.SgT4y1cO/output/train/coco_2014_train:coco_2014_valminusminival/generalized_rcnn/model_final.pkl デモ

より詳細な使用方法のドキュメントについては、https://github.com/facebookresearch/Detectron/blob/master/GETTING_STARTED.md を参照してください。

参考文献

  • データ蒸留: 全方位教師あり学習に向けて。Ilija Radosavovic、Piotr Dollár、Ross Girshick、Georgia Gkioxari、Kaiming He。技術レポート、arXiv、2017 年 12 月。

  • あらゆるものをセグメント化する方法を学ぶ。Ronghang Hu、Piotr Dollár、Kaiming He、Trevor Darrell、Ross Girshick。技術レポート、arXiv、2017 年 11 月。

  • 非局所ニューラルネットワーク。Xiaolong Wang、Ross Girshick、Abhinav Gupta、Kaiming He。技術レポート、arXiv、2017 年 11 月。

  • Mask R-CNN。Kaiming He、Georgia Gkioxari、Piotr Dollár、および Ross Girshick。IEEE 国際コンピューター ビジョン会議 (ICCV)、2017 年。

  • 高密度オブジェクト検出のための焦点損失。Tsung-Yi Lin、Priya Goyal、Ross Girshick、Kaiming He、Piotr Dollár。IEEE 国際コンピューター ビジョン会議 (ICCV)、2017 年。

  • 正確で大規模なミニバッチ SGD: 1 時間で ImageNet をトレーニング。Priya Goyal、Piotr Dollár、Ross Girshick、Pieter Noordhuis、Lukasz Wesolowski、Aapo Kyrola、Andrew Tulloch、Yangqing Jia、Kaiming He。技術レポート、arXiv、2017 年 6 月。

  • 人間と物体のインタラクションの検出と認識。Georgia Gkioxari、Ross Girshick、Piotr Dollár、Kaiming He。技術レポート、arXiv、2017 年 4 月。

  • 物体検出のための特徴ピラミッド ネットワーク。Tsung-Yi Lin、Piotr Dollár、Ross Girshick、Kaiming He、Bharath Hariharan、Serge Belongie。IEEE コンピューター ビジョンおよびパターン認識会議 (CVPR)、2017 年。

  • ディープ ニューラル ネットワークの集約残差変換。Saining Xie、Ross Girshick、Piotr Dollár、Zhuowen Tu、Kaiming He。IEEE コンピューター ビジョンおよびパターン認識会議 (CVPR)、2017 年。

  • R-FCN: 領域ベースの完全畳み込みネットワークによる物体検出。Jifeng Dai、Yi Li、Kaiming He、Jian Sun。ニューラル情報処理システムに関する会議 (NIPS)、2016 年。

  • 画像認識のためのディープ残差学習。Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun。IEEE コンピューター ビジョンおよびパターン認識会議 (CVPR)、2016 年。

  • より高速な R-CNN: 領域提案ネットワークを使用したリアルタイムのオブジェクト検出に向けて Shaoqing Ren、Kaiming He、Ross Girshick、Jian Sun。ニューラル情報処理システムに関する会議 (NIPS)、2015 年。

  • 高速 R-CNN。Ross Girshick。IEEE 国際コンピュータビジョン会議 (ICCV)、2015 年。

<<:  2018 年のエンタープライズ AI の良い点と悪い点

>>:  Hiveテクノロジーイノベーションカンファレンスは、ドローン技術の進化とビジネスモデルの革命をリードします

ブログ    

推薦する

開発者にとって必須の 5 つの AI ツール、お見逃しなく!

今日のペースが速く、競争が激しい時代では、作業効率と製品品質の向上が特に重要になっています。ソフトウ...

...

ついに誰かが説明可能な機械学習を明らかにした

[[443127]]ビッグデータの時代において、機械学習は製品の売上向上や人間の意思決定の支援に大き...

...

AI投資は2025年までに2,320億ドルに達する

KPMGが最近発表したレポートによると、2025年までに人工知能(AI)、機械学習、ロボティック・プ...

ボストン・ダイナミクスがマスク氏を激しく批判、それは単なる自慢なのか、それとも現実なのか?テスラロボットに関する3つの大きな推測

テスラのロボットに関しては、まず主要なタイムラインを確認しましょう。実際、テスラのロボットの構想は1...

...

人工知能:しっかりと根を張ってこそ、どこでも繁栄できる

人工知能(AI)技術は静かに人間の生活を変えています。顔認証、顔スワイプ決済、新型コロナウイルス感染...

...

...

...

DeepMindのAIが核融合炉の制御を学習、Nature誌に発表

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

楊強:人工知能の次の技術的、商業的トレンドはどこにあるのでしょうか?

第四パラダイムの主任科学者であり、パラダイム大学の指導者である楊強教授は最近、第四パラダイム内で「人...

AI は従業員トレーニングにどのような革命をもたらすのでしょうか?

[[395608]]スキルギャップを埋めるプレッシャーの下、多くの組織が人工知能テクノロジーを導入...