ウォータールー大学はヒートマップ回帰を放棄し、複数人の姿勢推定のための新しい方法を提案した。

ウォータールー大学はヒートマップ回帰を放棄し、複数人の姿勢推定のための新しい方法を提案した。

[[436983]]

キーポイント推定は、画像内の関心ポイントを特定するコンピューター ビジョン タスクです。コンピューター ビジョン作業で最も研究されているトピックの 1 つとして、キーポイント推定は、人間の姿勢推定、手の姿勢推定、動作認識、物体検出、複数人物追跡、動作分析などの関連アプリケーションで重要な役割を果たします。

キーポイントの位置を推定する最も一般的な方法は、対象フィールドのヒートマップを生成することです。ただし、重要なポイントを検出して特定するための標準的な方法としてのヒートマップ回帰には、次のような欠点もあります。

まず、このアプローチは量子化誤差の影響を受けます。キーポイント予測の精度は、ヒートマップの空間解像度によって本質的に制限されます。したがって、ヒートマップが大きいほど良いのですが、追加のアップサンプリング操作と高価な高解像度処理が必要になります。また、ヒートマップが大きい場合でも、キーポイント予測を最適化するために特別な後処理手順が必要になり、推論が遅くなります。

第二に、同じタイプ(カテゴリ)の 2 つのキーポイントが互いに近い場合、重なり合うヒートマップ信号が 1 つのキーポイントと誤認される可能性があります。

これに基づいて、ヒートマップを使用しない代替のキーポイント検出方法を研究する研究がいくつか開始されています。

最近、カナダのウォータールー大学の研究者らは、新しい単一段階の複数人物のキーポイントおよび姿勢検出方法 KAPAO を提案しました。リアルタイム コンピューティングに TITAN Xp GPU を使用すると、720p ビデオの推論速度は 1 秒あたり 35 フレームに達し、1080p ビデオは 1 秒あたり 20 フレームに達します。テスト時間拡張 (TTA) を使用しないため、KAPAO は DEKR や HigherHRNet などの従来の単一ステージ方式よりも高速かつ正確です。

[[436984]]

ウォータールー大学のこの研究では、研究者らがヒートマップを使用しない新しいキーポイント検出方法である KAPAO (Keypoints And Poses As Objects) を提案し、それを単一段階の複数人物の人間の姿勢推定に適用しました。単一のキーポイントと空間的に関連するキーポイントのセット (つまり、ポーズ) の両方が、アンカーベースの高密度検出フレームワーク内のオブジェクトとしてモデル化されます。キーポイントと姿勢をターゲットとする KAPAO メソッドは、キーポイント ターゲットと姿勢ターゲットを同時に検出し、単純なマッチング アルゴリズムを使用して結果を融合できます。本研究では、姿勢ターゲットを検出することにより、人物検出とキーポイント推定を統合し、効率的な単一段階の複数人物人物姿勢推定法を実現します。

  • 論文アドレス: https://arxiv.org/abs/2111.08557
  • GitHub アドレス: https://github.com/wmcnally/kapao
  • トライアルアドレス: https://huggingface.co/spaces/akhaliq/Kapao

KAPAOメソッド

KAPAO アプローチは、YOLO (You Only Look Once) 高密度検出フレームワークの最近の実装に基づいており、効率的なネットワーク設計が含まれています。さらに、KAPAO は大規模で高価なヒートマップを生成しないため、特に TTA を使用しない場合、精度と推論速度の点で以前のシングルステージ方式よりも優れています。

KAPAO メソッドの基本原理を下図に示します。

KAPAOは、マルチタスク損失関数Lでトレーニングされた高密度検出ネットワークNを使用して、RGB画像Iを出力グリッドにマッピングします。

予測されたポーズターゲットのコレクション

およびキーポイントターゲット

サンプルターゲット: 人間のポーズターゲット (青)、キーポイントターゲット (赤)、ターゲットなし (緑)、「?」値は損失計算には使用されません。

次の図は、TITAN Xp GPU 上でビデオ推論用に KAPAO-S をリアルタイムで実行した場合の効果を示しています。

KAPAO-S は、TITAN Xp GPU 上でリアルタイムに実行でき、ネイティブ フレーム レートの 25 フレーム/秒よりも高速ですが、顔のキー ポイントは図に表示されません。

実験結果

この研究では、KAPAO が従来の方法よりも大幅に高速かつ正確であり、ヒートマップの後処理が従来の方法に大きな影響を与えることが実験的に実証されました。さらに、テスト時間拡張 (TTA) のない実際の設定では、KAPAO は精度と速度の点で大幅に優れたパフォーマンスを発揮します。大規模モデル KAPAO-L は、TTA なしで Microsoft COCO Keypoints 検証セットで 70.6 AP を達成し、精度が 4.0 AP 低い単一ステージ モデルよりも 2.5 倍高速です。

図 1: TTA なしのシングルステージの複数人物の人間の姿勢推定 SOTA 手法 DEKR および HigherHRNet と KAPAO の精度と速度の比較。

この研究では、COCO テスト開発における KAPAO の精度を 1 段階および 2 段階の方法と比較し、結果を次の表に示します。

混雑したシーンでの KAPAO のパフォーマンスを調べるために、この研究では CrowdPose テスト セットでいくつかのモデルを比較しました。結果によると、KAPAO はオクルージョンがある場合でも優れたパフォーマンスを発揮し、すべての指標でこれまでのすべてのシングル ステージ メソッドを上回っていました。 APE、APM、APH を分析すると、混雑したシーンでの KAPAO の利点は明らかです。

具体的には、KAPAO のキーポイントターゲットと姿勢ターゲットの融合によってもたらされる精度の向上は、以下の表 4 に示されています。

TTA なしの KAPAO の利点を示すために、図 6 は COCO val2017 の各キーポイント タイプに対する KAPAO-S の融合率をプロットしています。

興味のある読者は、詳細については原文論文を読んでください。

<<:  何開明のMAEが人気になってから、ビジュアルトランスフォーマーを整理したいですか?この記事は100以上の

>>:  待望のWeb顔認識ログインのフルバージョンが登場しました。気に入っています

ブログ    
ブログ    

推薦する

アフリカはパンデミックの最中に包括的な接続性を構築しており、明確な投資方針を持っている

テクノロジーと通信の急速な進歩により、自動化革命の時代において、アフリカの大規模かつ急成長中の人口は...

...

人工知能はどのような通信分野に応用されていますか?

1. 異常なネットワークトラフィックの検出コンピュータネットワークは現代人の生活に欠かせないもので...

年齢を測るAI顔認識

Instagramは、顔をスキャンして年齢を推定できるサードパーティ企業Yotiが開発したAIツール...

...

メタバースは過大評価されてきたが、2050年までにAIによって現実のものとなる

メタバースの概念が誇張され、まるでそれが本当に存在するかのように人々が話していることは間違いありませ...

AIは実際にチップを生成できます! GPT-4はわずか19回の対話で130nmチップを構築し、チップ設計業界におけるHDLの大きな課題を克服しました。

GPT-4 はすでに人間がチップを作るのに役立っています!ニューヨーク大学タンドン工学部の研究者た...

ヴィンセントの3Dモデルが大躍進しました! MVDreamは、超リアルな3Dモデルを一文で生成します

すごいですね!数語を入力するだけで、美しく高品質な 3D モデルを作成できるようになりました。ちょう...

...

...

...

...

...

...

古い写真の修復、太陽系外惑星の発見... 素晴らしい機械学習プロジェクト 8 つをご紹介します

[[337579]]カジャル・ヤダブマシンハートが編集編集者: シャオ・ジョウ、ドゥ・ウェイ人工知能...