ウォータールー大学はヒートマップ回帰を放棄し、複数人の姿勢推定のための新しい方法を提案した。

ウォータールー大学はヒートマップ回帰を放棄し、複数人の姿勢推定のための新しい方法を提案した。

[[436983]]

キーポイント推定は、画像内の関心ポイントを特定するコンピューター ビジョン タスクです。コンピューター ビジョン作業で最も研究されているトピックの 1 つとして、キーポイント推定は、人間の姿勢推定、手の姿勢推定、動作認識、物体検出、複数人物追跡、動作分析などの関連アプリケーションで重要な役割を果たします。

キーポイントの位置を推定する最も一般的な方法は、対象フィールドのヒートマップを生成することです。ただし、重要なポイントを検出して特定するための標準的な方法としてのヒートマップ回帰には、次のような欠点もあります。

まず、このアプローチは量子化誤差の影響を受けます。キーポイント予測の精度は、ヒートマップの空間解像度によって本質的に制限されます。したがって、ヒートマップが大きいほど良いのですが、追加のアップサンプリング操作と高価な高解像度処理が必要になります。また、ヒートマップが大きい場合でも、キーポイント予測を最適化するために特別な後処理手順が必要になり、推論が遅くなります。

第二に、同じタイプ(カテゴリ)の 2 つのキーポイントが互いに近い場合、重なり合うヒートマップ信号が 1 つのキーポイントと誤認される可能性があります。

これに基づいて、ヒートマップを使用しない代替のキーポイント検出方法を研究する研究がいくつか開始されています。

最近、カナダのウォータールー大学の研究者らは、新しい単一段階の複数人物のキーポイントおよび姿勢検出方法 KAPAO を提案しました。リアルタイム コンピューティングに TITAN Xp GPU を使用すると、720p ビデオの推論速度は 1 秒あたり 35 フレームに達し、1080p ビデオは 1 秒あたり 20 フレームに達します。テスト時間拡張 (TTA) を使用しないため、KAPAO は DEKR や HigherHRNet などの従来の単一ステージ方式よりも高速かつ正確です。

[[436984]]

ウォータールー大学のこの研究では、研究者らがヒートマップを使用しない新しいキーポイント検出方法である KAPAO (Keypoints And Poses As Objects) を提案し、それを単一段階の複数人物の人間の姿勢推定に適用しました。単一のキーポイントと空間的に関連するキーポイントのセット (つまり、ポーズ) の両方が、アンカーベースの高密度検出フレームワーク内のオブジェクトとしてモデル化されます。キーポイントと姿勢をターゲットとする KAPAO メソッドは、キーポイント ターゲットと姿勢ターゲットを同時に検出し、単純なマッチング アルゴリズムを使用して結果を融合できます。本研究では、姿勢ターゲットを検出することにより、人物検出とキーポイント推定を統合し、効率的な単一段階の複数人物人物姿勢推定法を実現します。

  • 論文アドレス: https://arxiv.org/abs/2111.08557
  • GitHub アドレス: https://github.com/wmcnally/kapao
  • トライアルアドレス: https://huggingface.co/spaces/akhaliq/Kapao

KAPAOメソッド

KAPAO アプローチは、YOLO (You Only Look Once) 高密度検出フレームワークの最近の実装に基づいており、効率的なネットワーク設計が含まれています。さらに、KAPAO は大規模で高価なヒートマップを生成しないため、特に TTA を使用しない場合、精度と推論速度の点で以前のシングルステージ方式よりも優れています。

KAPAO メソッドの基本原理を下図に示します。

KAPAOは、マルチタスク損失関数Lでトレーニングされた高密度検出ネットワークNを使用して、RGB画像Iを出力グリッドにマッピングします。

予測されたポーズターゲットのコレクション

およびキーポイントターゲット

サンプルターゲット: 人間のポーズターゲット (青)、キーポイントターゲット (赤)、ターゲットなし (緑)、「?」値は損失計算には使用されません。

次の図は、TITAN Xp GPU 上でビデオ推論用に KAPAO-S をリアルタイムで実行した場合の効果を示しています。

KAPAO-S は、TITAN Xp GPU 上でリアルタイムに実行でき、ネイティブ フレーム レートの 25 フレーム/秒よりも高速ですが、顔のキー ポイントは図に表示されません。

実験結果

この研究では、KAPAO が従来の方法よりも大幅に高速かつ正確であり、ヒートマップの後処理が従来の方法に大きな影響を与えることが実験的に実証されました。さらに、テスト時間拡張 (TTA) のない実際の設定では、KAPAO は精度と速度の点で大幅に優れたパフォーマンスを発揮します。大規模モデル KAPAO-L は、TTA なしで Microsoft COCO Keypoints 検証セットで 70.6 AP を達成し、精度が 4.0 AP 低い単一ステージ モデルよりも 2.5 倍高速です。

図 1: TTA なしのシングルステージの複数人物の人間の姿勢推定 SOTA 手法 DEKR および HigherHRNet と KAPAO の精度と速度の比較。

この研究では、COCO テスト開発における KAPAO の精度を 1 段階および 2 段階の方法と比較し、結果を次の表に示します。

混雑したシーンでの KAPAO のパフォーマンスを調べるために、この研究では CrowdPose テスト セットでいくつかのモデルを比較しました。結果によると、KAPAO はオクルージョンがある場合でも優れたパフォーマンスを発揮し、すべての指標でこれまでのすべてのシングル ステージ メソッドを上回っていました。 APE、APM、APH を分析すると、混雑したシーンでの KAPAO の利点は明らかです。

具体的には、KAPAO のキーポイントターゲットと姿勢ターゲットの融合によってもたらされる精度の向上は、以下の表 4 に示されています。

TTA なしの KAPAO の利点を示すために、図 6 は COCO val2017 の各キーポイント タイプに対する KAPAO-S の融合率をプロットしています。

興味のある読者は、詳細については原文論文を読んでください。

<<:  何開明のMAEが人気になってから、ビジュアルトランスフォーマーを整理したいですか?この記事は100以上の

>>:  待望のWeb顔認識ログインのフルバージョンが登場しました。気に入っています

ブログ    
ブログ    

推薦する

適切な人工知能を選択するにはどうすればよいでしょうか?

採用プロセスで人工知能テクノロジーに切り替えるのは難しいかもしれませんが、これらのヒントに従って、会...

自動化でワークライフバランスを改善

多くの従業員にとって、仕事と生活のバランスを取ることは課題です。私たちは睡眠とほぼ同じくらいの時間を...

データガバナンスとビッグモデル統合の実践

コスト削減と効率向上の観点から、機械学習チームの構成を例に挙げ、Dipu TechnologyのDe...

AIoTとは何ですか?なぜそれが突然、インテリジェント製造の主流トレンドになったのでしょうか?

人工知能(AI)とモノのインターネット(IoT)の組み合わせにより、自律走行車やスマートウェアラブル...

CV の未来はこの 68 枚の写真にかかっているのでしょうか? Google BrainがImageNetを深く掘り下げる:トップモデルはすべて予測に失敗する

過去10年間、ImageNetは基本的にコンピュータービジョン分野の「バロメーター」となってきました...

世界情報会議が開幕、ロビン・リー、ジャック・マー、劉伝志ら著名人が集結

【51CTO天津6月29日】本日、「偉大な知能時代へ向かう」をテーマとする世界知能会議が天津梅江会議...

百度、中国初の「工業用」医療用モデル「霊益大モデル」を発売

百度は9月19日、国内初の「産業レベル」医療ビッグモデル「霊益ビッグモデル」を発表し、霊益ビッグモデ...

人工知能を活用した高齢者介護サービスについての考察

高齢者介護サービスも人工知能を積極的に取り入れる必要がある。両者を統合し、相互に補強し、高齢者の多様...

...

...

...

Microsoft は GPT-4V マニュアルを作成しました。166 ページに及ぶ完全かつ詳細な説明と、プロンプト ワードのデモ例が含まれています。

マルチモーダルキングボムモデルGPT-4V、 166ページの「取扱説明書」を公開!これは Micro...

...

人工知能によりデータの痕跡を監視できるようになりました。このとき、ユーザーのプライバシーとセキュリティをどのように維持できるのでしょうか?

近年、ソーシャル ネットワーキング プラットフォームのユーザー数は飛躍的に増加しています。これらのプ...

Ant Financialが機械学習ツールSQLFlowをオープンソース化、機械学習はSQLよりも簡単

5月6日、アント・ファイナンシャルの副CTOである胡曦氏はオープンソースの機械学習ツールSQLFlo...