オープンソース: ディープラーニングモデルと姿勢推定コードのオープンソースコードの推奨、人工知能チュートリアル

オープンソース: ディープラーニングモデルと姿勢推定コードのオープンソースコードの推奨、人工知能チュートリアル

オープンソース: ディープラーニング モデルとポーズ推定コードのオープンソース コードの推奨、人工知能チュートリアル (Fun AI によってコンパイル、ソースは modelzoo)。ポーズ推定のタスクは、RGB 画像またはビデオ内の人間のピクセルを人体の 3D 表面にマッピングすることを目的としています。ポーズ推定はマルチタスクタスクであり、オブジェクトの検出、ポーズ推定、セグメンテーションなど、いくつかの他の問題が関係します。姿勢推定のアプリケーションには、グラフィックス、拡張現実 (AR)、ヒューマン コンピュータ インタラクション (HCI) など、単純なランドマークの位置特定以上のものを必要とする問題が含まれます。姿勢推定には、3D ベースのオブジェクト認識の多くの側面も含まれます。この投稿では、姿勢推定のためのオープンソースのディープラーニング モデルとコードをいくつか紹介しました。共有する価値があると思われる実装を見逃していた場合は、下のコメント欄に残してください。

デンスポーズ

オープンソース: ディープラーニングモデルと姿勢推定コードのオープンソースコードの推奨、人工知能チュートリアル

GitHub | データセット

オープンソース: ディープラーニング モデルとポーズ推定コードのオープンソース コードの推奨、人工知能チュートリアル (Fun AI によってコンパイル、ソースは modelzoo)。この投稿は、先週初めに DensePose のコード、モデル、データセットをリリースした Facebook Research からインスピレーションを得たものです。 Facebook は、人間の姿勢を推定するための大規模なグラウンドトゥルースデータセットである DensePose-COCO を共有しました。このデータセットは、50,000 枚の COCO (Common Objects in Context) 画像に手動で注釈が付けられた画像と表面の対応関係で構成されています。これはディープラーニング研究者にとって非常に包括的なリソースです。ポーズ推定やパーツのセグメンテーションなどのタスクに適したデータソースを提供します。

DensePose の論文では、Mask-RCNN のバリエーションである DensePose-RCNN を提案し、人間の各領域内の部位固有の UV 座標を 1 秒あたり複数のフレームで密に回帰します。 DenseReg をベースにしています。モデルの目的は、各ピクセルの表面の位置と、それが属するパーツの対応する 2D パラメータを決定することです。

DensePose は、Feature Pyramid Network (FPN) 機能と ROI アライメント プーリングを備えた Mask-RCNN のアーキテクチャを採用しています。さらに、彼らは ROI プーリングに完全畳み込みネットワークを導入しました。より詳細な技術的詳細については、DensePose の論文を参照してください。

オープンポーズ

GitHub | データセット

オープンソース: ディープラーニング モデルとポーズ推定コードのオープンソース コードの推奨、人工知能チュートリアル (Fun AI によってコンパイル、ソースは modelzoo)。 OpenPose は、CMU 知覚コンピューティング ラボの身体、顔、手の評価のためのリアルタイムの複数人物キーポイント検出ライブラリです。 OpenPose は、2D および 3D の複数人物のキーポイント検出と、ドメイン固有のパラメータを推定するキャリブレーション ツールボックスを提供します。 OpenPose では、画像、ビデオ、Web カメラ、IP カメラなど、さまざまな入力が可能です。また、画像やキーポイント (PNG、JPG、AVI) などさまざまな形式で出力を生成し、キーポイントを読み取り可能な形式 (JSON、XML、YML) で保存したり、配列クラスとして保存したりすることもできます。入力および出力パラメータもさまざまなニーズに合わせて調整できます。

OpenPose は、CPU と GPU の両方で動作する C++ API を提供します (AMD グラフィック カードと互換性のあるバージョンも含む)。

リアルタイム複数人物姿勢推定

GitHub

オープンソース: ディープラーニング モデルとポーズ推定コードのオープンソース コードの推奨、人工知能チュートリアル (Fun AI によってコンパイル、ソースは modelzoo)。この実装は OpenPose と関連性が高く、さまざまなフレームワークで実装に関連したモデルが提供されています。この論文の著者らは、人物検出器を使用せずに複数人物の姿勢をリアルタイムで推定するボトムアップアプローチを提案しています。この方法では、部分類似性フィールド (PAF) と呼ばれる非パラメトリック表現を使用して、画像内の身体部位と個人を関連付けることを学習します。実装と理論に関する技術的な詳細については論文を参照してください。このアプローチの最も優れた点の 1 つは、すでにさまざまなフレームワークに実装されており、選択したフレームワークでコードとモデルをすぐに使用できることです。

  • OpenPose C++ ライブラリ
  • TensorFlow 実装
  • Keras 実装 1 と 2
  • PyTorchは1、2、3を実装している
  • MXNet 実装

アルファポーズ

[[234401]]

GitHub

オープンソース: ディープラーニング モデルとポーズ推定コードのオープンソース コードの推奨、人工知能チュートリアル (Fun AI によってコンパイル、ソースは modelzoo)。 Alpha Pose は、複数人の正確なポーズ推定ツールであり、初のオープンソース システムであると主張しています。 AlphaPose は、画像、ビデオ、または画像リストに対してポーズ推定とポーズ追跡を実行します。 PNG、JPEG、AVI 形式のキーポイント付き画像や、JSON 形式のキーポイント出力など、さまざまな出力を生成するため、アプリケーションに重点を置いたアプリケーションに最適なツールとなります。

現在、TensorFlow 実装と PyTorch 実装があります。 AlphaPose は、不正確な人間の境界ボックスが存在する場合でもポーズ推定を容易にするために、地域的な複数人物ポーズ推定 (RMPE) フレームワークを使用します。コンポーネントは 3 つあります: 対称空間トランスフォーマー ネットワーク (SSTN)、パラメトリック ポーズ非最大抑制 (NMS)、ポーズ ガイド付き提案ジェネレーター (PGPG)。より技術的な詳細については、論文を参照してください。

人間の姿勢推定

ウェブサイト | GitHub | データセット | ArtTrack 論文 | Darker 論文

オープンソース: ディープラーニング モデルとポーズ推定コードのオープンソース コードの推奨、人工知能チュートリアル (Fun AI によってコンパイル、ソースは modelzoo)。このリポジトリは、ArtTrack および DeeperCut の論文で紹介された人間の姿勢推定アルゴリズムの TensorFlow 実装を提供します。トレーニングされたモデルは、明示的な人間の姿勢の推定を評価するための豊富な画像コレクションである MPII 人間の姿勢データベースを活用します。このプロジェクトでは、現実世界の画像における複数の人物の姿勢推定を相関させるタスクを検討します。彼らのアプローチは、人物を検出してからその体の姿勢を推定する従来のアプローチとは異なり、検出と姿勢推定の両方のタスクに対処します。実装には CNN ベースのパーツ検出器と整数線形計画法が使用されます。より技術的な詳細については、ArtTrack および DeeperCut の論文を参照してください。

ディープポーズ

オープンソース: ディープラーニング モデルとポーズ推定コードのオープンソース コードの推奨、人工知能チュートリアル (Fun AI によってコンパイル、ソースは modelzoo)。 DeepPose は、2014 年に発表された比較的古い論文で、深層ニューラル ネットワーク (DNN) ベースの人間の姿勢推定法を提案しており、体の関節に対する DNN ベースの回帰問題として定式化されています。姿勢について総合的に考察し、シンプルでありながら強力な定式化を実現しています。 DeepPose の公式実装はオンラインでは入手できないようです。しかし、その結果を再現するための努力がなされてきました。

  • チェイナー実装
  • TensorFlow 実装

DeepPose は、人間の姿勢を推定する最初のディープラーニング アプリケーションであり、当初から最先端の結果を達成し、他の多くの新しい実装のベンチマークを提供している点で興味深いものです。

姿勢推定は、コンピューター ビジョン コミュニティでますます人気の高い問題です。 Facebook Research による DensePose-COCO などの新しいポーズ推定データセットのリリースにより、この分野での作業がさらに進むようになりました。私の意見では、姿勢推定を追求できる方向性は数多くあり、これらのリソースのリリースは間違いなくこの分野への新たな関心を喚起するでしょう。近いうちに多くの新しい革新的なアイデアや実装が見られることを期待しています。

<<:  AIスタートアップのRokidがKamino 18 AI音声チップをリリース、低電力ウェイクアップをサポート

>>:  速報 | SmartOneがAIショッピングガイドロボットを発表、マイクロソフトと戦略的提携を強化

ブログ    
ブログ    

推薦する

将来の旅行に関する最初の質問:自動運転による交通渋滞の解決策は本当に実現可能でしょうか?

交通渋滞問題は北京、上海、広州の都市脳血栓症となっている。我々の巧妙な統治の下では、都市部の道路渋滞...

畳み込みニューラルネットワークに関する15の質問:CNNと生物視覚システムの研究と探究

CNN 開発の初期には、脳のニューラル ネットワークから多くのインスピレーションを得ました。現在では...

...

多くの競争者が競い合う中、自動運転をめぐる戦いが始まる!

著者: 張傑[51CTO.comより引用] 2020年と比べると、2021年の自動運転業界にはよりエ...

MIT、指の爪ほどの大きさのドローンを作れるマイクロチップを設計

MITの研究者らが、指の爪ほどの小さなドローン用コンピューターチップを設計6月21日、Venture...

深層強化学習: 知能機械のトッププレイヤー

ラボガイドロボットがゲームの分野でもスーパーマスターになれると想像したことがありますか?あなたの夢を...

...

...

ナレッジグラフは銀行のビジネスモデルをどのように変えるのでしょうか?

金融部門は、個人の購入から大規模な取引まで、莫大な富につながる大量の貴重なデータを定期的に生成してお...

何か効率的な「錬金術」アーティファクトをお勧めいただけますか? Fudan fastNLPチームが内部パラメータ調整ツールfitlogをリリース

このパラメータ調整ツールは、実験結果の表形式表示、カスタムメモ、フロントエンド操作の記録の削除/非表...

このトリックにより、トランスフォーマーの推論速度が4.5倍になり、数十万ドルを節約できます。

[[443226]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...

2021 年の自然言語処理 (NLP) のトレンド トップ 10

2020 年は、ディープラーニングベースの自然言語処理 (NLP) 研究にとって忙しい年でした。最...

ゲーム開発における機械学習の活用

機械学習のメリット機械学習は多くの分野で驚異的な進歩を遂げてきました。応用分野の観点から見ると、機械...

マイクロソフトの人工知能音声技術は「複数の感情レベル」の調整をサポートし、「人間の声」の繊細な解釈を可能にする

IT Homeは4月12日、マイクロソフトが最近、最新の音声技術を発表したと報じた。この技術は「感情...

...