ウォータールー大学はヒートマップ回帰を放棄し、複数人の姿勢推定のための新しい方法を提案した。

[[436983]]

キーポイント推定は、画像内の関心ポイントを特定するコンピュータービジョンタスクです。コンピュータービジョン作業で最も研究されているトピックの 1 つとして、キーポイント推定は、人間の姿勢推定、手の姿勢推定、動作認識、物体検出、複数人物追跡、動作分析などの関連アプリケーションで重要な役割を果たします。

キーポイントの位置を推定する最も一般的な方法は、対象フィールドのヒートマップを生成することです。ただし、重要なポイントを検出して特定するための標準的な方法としてのヒートマップ回帰には、次のような欠点もあります。

まず、このアプローチは量子化誤差の影響を受けます。キーポイント予測の精度は、ヒートマップの空間解像度によって本質的に制限されます。したがって、ヒートマップが大きいほど良いのですが、追加のアップサンプリング操作と高価な高解像度処理が必要になります。また、ヒートマップが大きい場合でも、キーポイント予測を最適化するために特別な後処理手順が必要になり、推論が遅くなります。

第二に、同じタイプ（カテゴリ）の 2 つのキーポイントが互いに近い場合、重なり合うヒートマップ信号が 1 つのキーポイントと誤認される可能性があります。

これに基づいて、ヒートマップを使用しない代替のキーポイント検出方法を研究する研究がいくつか開始されています。

最近、カナダのウォータールー大学の研究者らは、新しい単一段階の複数人物のキーポイントおよび姿勢検出方法 KAPAO を提案しました。リアルタイムコンピューティングに TITAN Xp GPU を使用すると、720p ビデオの推論速度は 1 秒あたり 35 フレームに達し、1080p ビデオは 1 秒あたり 20 フレームに達します。テスト時間拡張 (TTA) を使用しないため、KAPAO は DEKR や HigherHRNet などの従来の単一ステージ方式よりも高速かつ正確です。

[[436984]]

ウォータールー大学のこの研究では、研究者らがヒートマップを使用しない新しいキーポイント検出方法である KAPAO (Keypoints And Poses As Objects) を提案し、それを単一段階の複数人物の人間の姿勢推定に適用しました。単一のキーポイントと空間的に関連するキーポイントのセット (つまり、ポーズ) の両方が、アンカーベースの高密度検出フレームワーク内のオブジェクトとしてモデル化されます。キーポイントと姿勢をターゲットとする KAPAO メソッドは、キーポイントターゲットと姿勢ターゲットを同時に検出し、単純なマッチングアルゴリズムを使用して結果を融合できます。本研究では、姿勢ターゲットを検出することにより、人物検出とキーポイント推定を統合し、効率的な単一段階の複数人物人物姿勢推定法を実現します。

論文アドレス: https://arxiv.org/abs/2111.08557
GitHub アドレス: https://github.com/wmcnally/kapao
トライアルアドレス: https://huggingface.co/spaces/akhaliq/Kapao

KAPAOメソッド

KAPAO アプローチは、YOLO (You Only Look Once) 高密度検出フレームワークの最近の実装に基づいており、効率的なネットワーク設計が含まれています。さらに、KAPAO は大規模で高価なヒートマップを生成しないため、特に TTA を使用しない場合、精度と推論速度の点で以前のシングルステージ方式よりも優れています。

KAPAO メソッドの基本原理を下図に示します。

KAPAOは、マルチタスク損失関数Lでトレーニングされた高密度検出ネットワークNを使用して、RGB画像Iを出力グリッドにマッピングします。

予測されたポーズターゲットのコレクション

およびキーポイントターゲット

。

サンプルターゲット: 人間のポーズターゲット (青)、キーポイントターゲット (赤)、ターゲットなし (緑)、「?」値は損失計算には使用されません。

次の図は、TITAN Xp GPU 上でビデオ推論用に KAPAO-S をリアルタイムで実行した場合の効果を示しています。

KAPAO-S は、TITAN Xp GPU 上でリアルタイムに実行でき、ネイティブフレームレートの 25 フレーム/秒よりも高速ですが、顔のキーポイントは図に表示されません。

実験結果

この研究では、KAPAO が従来の方法よりも大幅に高速かつ正確であり、ヒートマップの後処理が従来の方法に大きな影響を与えることが実験的に実証されました。さらに、テスト時間拡張 (TTA) のない実際の設定では、KAPAO は精度と速度の点で大幅に優れたパフォーマンスを発揮します。大規模モデル KAPAO-L は、TTA なしで Microsoft COCO Keypoints 検証セットで 70.6 AP を達成し、精度が 4.0 AP 低い単一ステージモデルよりも 2.5 倍高速です。

図 1: TTA なしのシングルステージの複数人物の人間の姿勢推定 SOTA 手法 DEKR および HigherHRNet と KAPAO の精度と速度の比較。

この研究では、COCO テスト開発における KAPAO の精度を 1 段階および 2 段階の方法と比較し、結果を次の表に示します。

混雑したシーンでの KAPAO のパフォーマンスを調べるために、この研究では CrowdPose テストセットでいくつかのモデルを比較しました。結果によると、KAPAO はオクルージョンがある場合でも優れたパフォーマンスを発揮し、すべての指標でこれまでのすべてのシングルステージメソッドを上回っていました。 APE、APM、APH を分析すると、混雑したシーンでの KAPAO の利点は明らかです。

具体的には、KAPAO のキーポイントターゲットと姿勢ターゲットの融合によってもたらされる精度の向上は、以下の表 4 に示されています。

TTA なしの KAPAO の利点を示すために、図 6 は COCO val2017 の各キーポイントタイプに対する KAPAO-S の融合率をプロットしています。

興味のある読者は、詳細については原文論文を読んでください。

>>: 待望のWeb顔認識ログインのフルバージョンが登場しました。気に入っています