ウォータールー大学はヒートマップ回帰を放棄し、複数人の姿勢推定のための新しい方法を提案した。

ウォータールー大学はヒートマップ回帰を放棄し、複数人の姿勢推定のための新しい方法を提案した。

[[436983]]

キーポイント推定は、画像内の関心ポイントを特定するコンピューター ビジョン タスクです。コンピューター ビジョン作業で最も研究されているトピックの 1 つとして、キーポイント推定は、人間の姿勢推定、手の姿勢推定、動作認識、物体検出、複数人物追跡、動作分析などの関連アプリケーションで重要な役割を果たします。

キーポイントの位置を推定する最も一般的な方法は、対象フィールドのヒートマップを生成することです。ただし、重要なポイントを検出して特定するための標準的な方法としてのヒートマップ回帰には、次のような欠点もあります。

まず、このアプローチは量子化誤差の影響を受けます。キーポイント予測の精度は、ヒートマップの空間解像度によって本質的に制限されます。したがって、ヒートマップが大きいほど良いのですが、追加のアップサンプリング操作と高価な高解像度処理が必要になります。また、ヒートマップが大きい場合でも、キーポイント予測を最適化するために特別な後処理手順が必要になり、推論が遅くなります。

第二に、同じタイプ(カテゴリ)の 2 つのキーポイントが互いに近い場合、重なり合うヒートマップ信号が 1 つのキーポイントと誤認される可能性があります。

これに基づいて、ヒートマップを使用しない代替のキーポイント検出方法を研究する研究がいくつか開始されています。

最近、カナダのウォータールー大学の研究者らは、新しい単一段階の複数人物のキーポイントおよび姿勢検出方法 KAPAO を提案しました。リアルタイム コンピューティングに TITAN Xp GPU を使用すると、720p ビデオの推論速度は 1 秒あたり 35 フレームに達し、1080p ビデオは 1 秒あたり 20 フレームに達します。テスト時間拡張 (TTA) を使用しないため、KAPAO は DEKR や HigherHRNet などの従来の単一ステージ方式よりも高速かつ正確です。

[[436984]]

ウォータールー大学のこの研究では、研究者らがヒートマップを使用しない新しいキーポイント検出方法である KAPAO (Keypoints And Poses As Objects) を提案し、それを単一段階の複数人物の人間の姿勢推定に適用しました。単一のキーポイントと空間的に関連するキーポイントのセット (つまり、ポーズ) の両方が、アンカーベースの高密度検出フレームワーク内のオブジェクトとしてモデル化されます。キーポイントと姿勢をターゲットとする KAPAO メソッドは、キーポイント ターゲットと姿勢ターゲットを同時に検出し、単純なマッチング アルゴリズムを使用して結果を融合できます。本研究では、姿勢ターゲットを検出することにより、人物検出とキーポイント推定を統合し、効率的な単一段階の複数人物人物姿勢推定法を実現します。

  • 論文アドレス: https://arxiv.org/abs/2111.08557
  • GitHub アドレス: https://github.com/wmcnally/kapao
  • トライアルアドレス: https://huggingface.co/spaces/akhaliq/Kapao

KAPAOメソッド

KAPAO アプローチは、YOLO (You Only Look Once) 高密度検出フレームワークの最近の実装に基づいており、効率的なネットワーク設計が含まれています。さらに、KAPAO は大規模で高価なヒートマップを生成しないため、特に TTA を使用しない場合、精度と推論速度の点で以前のシングルステージ方式よりも優れています。

KAPAO メソッドの基本原理を下図に示します。

KAPAOは、マルチタスク損失関数Lでトレーニングされた高密度検出ネットワークNを使用して、RGB画像Iを出力グリッドにマッピングします。

予測されたポーズターゲットのコレクション

およびキーポイントターゲット

サンプルターゲット: 人間のポーズターゲット (青)、キーポイントターゲット (赤)、ターゲットなし (緑)、「?」値は損失計算には使用されません。

次の図は、TITAN Xp GPU 上でビデオ推論用に KAPAO-S をリアルタイムで実行した場合の効果を示しています。

KAPAO-S は、TITAN Xp GPU 上でリアルタイムに実行でき、ネイティブ フレーム レートの 25 フレーム/秒よりも高速ですが、顔のキー ポイントは図に表示されません。

実験結果

この研究では、KAPAO が従来の方法よりも大幅に高速かつ正確であり、ヒートマップの後処理が従来の方法に大きな影響を与えることが実験的に実証されました。さらに、テスト時間拡張 (TTA) のない実際の設定では、KAPAO は精度と速度の点で大幅に優れたパフォーマンスを発揮します。大規模モデル KAPAO-L は、TTA なしで Microsoft COCO Keypoints 検証セットで 70.6 AP を達成し、精度が 4.0 AP 低い単一ステージ モデルよりも 2.5 倍高速です。

図 1: TTA なしのシングルステージの複数人物の人間の姿勢推定 SOTA 手法 DEKR および HigherHRNet と KAPAO の精度と速度の比較。

この研究では、COCO テスト開発における KAPAO の精度を 1 段階および 2 段階の方法と比較し、結果を次の表に示します。

混雑したシーンでの KAPAO のパフォーマンスを調べるために、この研究では CrowdPose テスト セットでいくつかのモデルを比較しました。結果によると、KAPAO はオクルージョンがある場合でも優れたパフォーマンスを発揮し、すべての指標でこれまでのすべてのシングル ステージ メソッドを上回っていました。 APE、APM、APH を分析すると、混雑したシーンでの KAPAO の利点は明らかです。

具体的には、KAPAO のキーポイントターゲットと姿勢ターゲットの融合によってもたらされる精度の向上は、以下の表 4 に示されています。

TTA なしの KAPAO の利点を示すために、図 6 は COCO val2017 の各キーポイント タイプに対する KAPAO-S の融合率をプロットしています。

興味のある読者は、詳細については原文論文を読んでください。

<<:  何開明のMAEが人気になってから、ビジュアルトランスフォーマーを整理したいですか?この記事は100以上の

>>:  待望のWeb顔認識ログインのフルバージョンが登場しました。気に入っています

ブログ    
ブログ    

推薦する

人工知能はサイバー犯罪をより容易かつ頻繁にしている、と研究が指摘

8月10日、サイバーセキュリティ企業SlashNextが発見した一連の証拠から、違法目的で開発された...

...

ChatGPTへのチップは本当に効果があります! 10元や10万元は大きな効果がありますが、1セントでは増えるどころか減るだけです。

ChatGPT にチップを渡す「ふり」をすると、ChatGPT の働きが悪くなることを知らない人が...

AI は教育にどのように役立つのでしょうか?

教育改革と人工知能の普及に伴い、キャンパスのインテリジェント構築もデジタルキャンパスからスマートキャ...

がん治療のブレークスルー:AIGCの医薬品開発における役割

AIGC には、がんの治療に役立つ可能性など、驚くべき用途を含め、多くの潜在的な用途があります。 M...

Google AIの最新3Dデータセット、15,000枚のアニメーション画像、ARがあなたの生活を支配します

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

...

清華大学の博士が「チップレット・アクチュアリー」サミットを提案!ムーアの法則に近づくほど、マルチチップ統合のコスト効率は向上する。

Chiplet は、製品の歩留まり、パッケージの歩留まり、さまざまなコストなどを考慮しながら、大規...

MIT、筋肉信号を使ってドローンを制御するシステムを開発

MITの研究者たちは、人間とロボットのシームレスなコラボレーションに近づく可能性のある新しいシステム...

...

毎日のアルゴリズム: 上位 K 個の高頻度要素

空でない整数の配列が与えられた場合、最も頻繁に出現する上位 k 個の要素を返します。例1:入力: n...