[51CTO.com クイック翻訳]関連調査レポートによると、デジタルフィットネス市場の規模は2022年までに274億米ドルに達すると予想されています。フィットネス トレーナーに代わるテクノロジーがあると誰かが言ったら、それは 3D Human Pose Estimation テクノロジーを指しているに違いありません。デジタルフィットネスにおける比較的新しいが急速に成長している技術として、ユーザーが入力した身体運動ビデオを使用して、さまざまなスポーツパラメータ指標を自動的に分析できます。以下では、私自身の実装経験に基づいて、AI フィットネス分野向けの 3D 人間ポーズ推定アプリケーションを開発および実装する方法について説明します。 人間の姿勢推定とは何ですか?コンピュータビジョンをベースとした技術である人間の姿勢推定は、人体モデリングを通じてさまざまな人間の動きや姿勢を検出し、分析することができます。このタイプのテクノロジーには通常、次の 3 つの人間モデルが含まれます。
出典 – https://arxiv.org/pdf/2006.01423.pdf 以下では、主に 2D または 3D の視点から検出されたスケルトンベースのモデルについて説明します。そのうち、2D 姿勢推定の検出と分析は、RGB 画像内の人体の関節の X、Y 座標に基づいて行われ、3D 姿勢推定では、X、Y、Z 座標を検出して分析します。通常、フィットネス アプリケーションでは、スポーツ中の人間の姿勢をより正確に分析するために 3D 推定を使用するのが最適です。したがって、AI フィットネス コーチ アプリの基本的なプロセスは次のようになります。 1. 練習中のユーザーの動きをキャプチャする 2. スポーツパフォーマンスの正確性を分析する 3. ユーザーインターフェースにエラーを表示する 次に、3D 人間姿勢推定技術が人体の重要なポイントをどのように検出するかについて説明します。 上図に示すように、このプロセスではまず人体の関節を抽出し、次にディープラーニングアルゴリズムを通じて人体の姿勢を分析します。人間の姿勢推定システムがビデオ録画をデータ ソースとして使用する場合、より高い精度を実現するために、単一の安定した姿勢画像ではなく、実際の動きの一連のフレームからキー ポイント (つまり、関節の位置) を検出する必要があります。 3D 人間の姿勢推定システムを開発する方法は多数ありますが、最も一般的な方法は、特定の画像/フレームから 3D または 2D のキーポイントを抽出するためにディープラーニング モデルをトレーニングすることです。次のビデオを、時空間畳み込みを備えた畳み込みニューラル ネットワーク (CNN) を使用して分析します。 ソース – https://github.com/facebookresearch/VideoPose3D/blob/master/images/convolutions_anim.gif 既存のモデルを分析した結果、VideoPose3D がフィットネス アプリケーションに適した選択肢であることがわかりました。入力から事前トレーニング済みの 2D 検出器として COCO 2017 データセットを使用して、2D キーポイントのセットを検出できます。同時に、特定の関節の位置を正確に予測するために、異なる期間に撮影された複数のフレームからの視覚データを処理します。 AIフィットネスコーチアプリで人間の姿勢評価を使用する方法私たちの目標は、システムが特定の入力ビデオを検査して、一般的なモーションエラーがあるかどうかを検出できるようにすることだとします。つまり、アプリは入力ビデオを、同じ動きを披露するプロのアスリートの参照ビデオと比較する必要があります。次に、具体的な処理フローについて説明します。 1. アクションの開始と終了に合わせて入力ビデオをカットする開始点と終了点の注釈については、任意のしきい値を使用して、ボディ制御点の位置を自動的に検出できます。たとえば、スクワットのときに、腕の角度と手の高さの位置を検出し、任意のしきい値を使用して、キャプチャされた運動の開始点と終了点を比較できます (下の図を参照)。 ビデオソース – https://www.youtube.com/watch?v=M-qAx0yGK9w もちろん、別のアプローチを使用することもできます。つまり、ユーザーにアクションの開始と終了を意図的に示すように依頼することです。 2. ユーザーの体の2Dおよび3Dのキーポイントを検出する上記で検出された開始点と終了点に基づいて、アルゴリズムはそれらを 2D および 3D キー ポイントに自動的に変換します。 3. 練習段階の分解キーポイント(関節)の位置を抽出する際には、参照ビデオの位置と比較する必要があります。ユーザーの実際の移動速度は、参考動画のプロアスリートの移動速度とは異なるため、直接比較することはできません。 これらの違いに対処するには、演習を段階的に分割します。下の図に示すように、スクワット運動は、しゃがむ段階と立ち上がる段階の 2 つの主要な段階に分けられます。 出典 – stronglifts.com 次に、入力ビデオから検出されたキーポイントをフレームごとに分析し、モーション基準を使用して参照ビデオのキーポイントと 1 つずつ比較して、分解を完了します。 4. よくあるエラーを検索する3D キーポイントの検出と練習フェーズの分解が完了すると、入力ビデオ内の練習動作における一般的なミスを検出できます。下の図に示すように、ユーザーがしゃがむと、脚がまっすぐに伸びるのではなく、外側に曲がっていることが検出されます。また、膝は足よりも胴体に近くなる必要があります。 ビデオソース – https://www.youtube.com/watch?v=W73Mc0Gil9A&t=244s 5. 入力ビデオと参照ビデオをフレームごとに比較するユーザーの動きをより正確に修正するには、次の手順に従って、入力ビデオと参照ビデオをフレームごとに比較する必要があります。 1) 入力ビデオの進行に合わせて参照ビデオの速度を遅くしたり早送りしたりします。 2) ユーザーとプロアスリートの骨格モデルの回転角度が基準点と一致するように位置合わせします。 3) 参照ビデオと入力ビデオは異なる距離から撮影されている可能性があるため、2 セットのスケルトンを結合または正規化する必要があります。 4) フレームごとに重要なポイントを比較して、動きの不一致を検出します。 5) 上記のプロセスをさまざまな関節(足、膝、手、肘など)に対して繰り返します。 6. 結果を表示し、ユーザーへの提案を生成する分析サイクル全体が完了すると、ユーザーはさまざまな形式で表示される結果を取得する必要があります。たとえば、出力結果には、エラー メッセージを含むさまざまなインタラクティブな 3D 再構築が含まれるため、ユーザーは特定のアクションの詳細を拡大、縮小、巻き戻し、早送り、一時停止することができます。もちろん、出力結果には、繰り返し回数、単一サイクルの平均速度、期間など、特定のアクションに関する統計情報を収集して表示することもできます。 次の図は、ビデオベースの 3D 人間姿勢推定システムの出力の例です。 出典: stronglifts.com のメンズヘルスチャンネル 学んだ教訓まとめると、AI フィットネス コーチ アプリ開発の観点から、3D 人間姿勢推定システムの基本的な動作原理と操作手順について説明しました。もちろん、実際のプロジェクトの具体的な特性に応じて、ビジネス ニーズの変化に応じてプロセスが追加、削除、削減、または変更される可能性があります。私の経験の要約をいくつか紹介します。
注: この記事は https://mobidev.biz から引用したものです。 MobiDev は、技術研究とソフトウェア開発サービスの体験を提供する Web サイトです。 原題: 人間の姿勢推定技術 2021 ガイド、著者: Maksym Tatariants [51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください] |
<<: 音声認識市場は2025年までに267億9000万ドルに達する見込み
テクノロジートラベラー北京ニュース 1 月 3 日:ケネス・リブブレヒトは、この寒い冬に暖かく快適な...
1. 概要現在、機械学習はネットワーク トラフィック分析タスクで広く使用されています。特徴抽出、モデ...
近年、画像生成技術は多くの重要な進歩を遂げました。特に、DALLE2やStable Diffusio...
ビジネスが今やデータ主導型になっていることは誰もが知っています。データ収集の増加に伴い、分析はビジネ...
ご存知のとおり、自然言語処理 (NLP) とコンピューター ビジョン (CV) は、人工知能の 2 ...
7月18日のニュース、Businessinsiderによると、米国の若い労働者はキャリア危機に直面し...
ヘルスケアにおける人工知能 (AI) の利点を裏付ける統計、調査、業界の誇大宣伝は数多くあります。人...
人工知能は世界を変えており、グラフィックス コンピューティングも例外ではありません。 5 年前、NV...
7月10日、日経中国版ウェブサイトの報道によると、日本の警察庁は早ければ年内にもAIによる捜査活動を...
[[198103]] 1. オンライン機能システム主流のインターネット製品では、古典的な計算広告、検...