Google が ML ベースのハンドトラッキングアルゴリズムをオープンソース化: 携帯電話でのリアルタイム検出、複数のジェスチャーの同時キャプチャ

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

少し前に、Google Artificial Intelligence Lab は「リアルタイムハンドトラッキング」で新たな進歩を遂げ、この新技術を MediaPipe に適用したことを発表しました。これは AI コンピュータービジョンタスクにおける大きな進歩でもあります。この技術により、携帯電話でのリアルタイムキャプチャが可能になるだけでなく、複数の手の動きを同時に追跡することもできます。現在、Googleはこのプロジェクトをオープンソース化し、技術を紹介するブログを公開しています。Leifeng.com AI開発者は、その内容を次のようにまとめています。

[[274513]]

概要

手の形や動きを認識できることは、さまざまなテクノロジー分野やプラットフォームにわたってユーザーエクスペリエンスを向上させる上で重要な要素です。たとえば、手話の理解やジェスチャー制御が可能になるほか、拡張現実 (AR、https://ai.googleblog.com/search/label/Augmented%20Reality) でデジタルコンテンツや情報を物理世界に重ね合わせることも可能になります。この能力は私たちにとって自然なものですが、手はしばしばそれ自体または互いを遮蔽し（たとえば、指と手のひらの間や握手）、手の間に高いコントラストがないため、堅牢なリアルタイムの手の認識は、非常に困難なコンピュータービジョンタスクです。

私たちは、6 月に開催された CVPR 2019 カンファレンスでプレビューした、手の知覚に対する新しいアプローチを公開しました。この方法のデモンストレーションでは、オープンソースのクロスプラットフォームフレームワークである MediaPipe を使用して、ビデオやオーディオなどのさまざまな種類の知覚データを処理するためのフレームワークを構築します。

このアプローチでは、機械学習 (ML) を通じて単一のフレームから手の 21 個の 3D キーポイントを推測することで、忠実度の高い手と指の追跡を実現します。現在の最先端の方法は、推論に主に強力なデスクトップ環境に依存していますが、私たちのアプローチでは、モバイルフォンでこのリアルタイムのパフォーマンスを実現でき、複数の手の同時追跡にまで拡張できます。

この手の認識機能を幅広い研究開発コミュニティに提供することで、まったく新しいユースケースの創出に貢献し、新しいアプリケーションや新しい研究分野の出現を促進できることを願っています。

図 1. MediaPipe を介した携帯電話でのリアルタイム 3D ハンド認識。私たちの解決策は、機械学習を使用して、単一のビデオフレームから手の 21 個の 3D キーポイントを計算することです。深さは図のグレースケール色で表されます。

ハンドトラッキングとジェスチャー認識のための機械学習アーキテクチャ

当社のハンドトラッキングソリューションは、複数のモデルで構成される機械学習アーキテクチャを使用します。

手のひら検出器モデル（BlazePalm と呼ばれます）。画像全体を操作し、方向付けられた手の境界ボックスを返します。
ハンドロゴモデル。手のひら検出器によって定義された切り取られた画像領域に対して動作し、忠実度の高い 3D 手のキーポイントを返します。
以前に計算されたキーポイント構成を個別のジェスチャのセットに分類するジェスチャ認識機能。

このアーキテクチャは、最近リリースされた顔メッシュ ML モデル (https://sites.google.com/view/perception-cv4arvr/facemesh) に似ており、他のユーザーによってポーズ推定にも使用されています。正確に切り取られた手のひらの画像を手のランドマークモデルに取り込むと、追加のデータ (回転、平行移動、スケーリングなど) の必要性が大幅に減り、ネットワークはパフォーマンスの大部分を調整予測の精度に充てることができます。

図2 手知覚モデルの全体構成

BlazePalm: リアルタイムの手/手のひら検出

手の初期位置を検出するために、BlazePalm (https://arxiv.org/abs/1512.02325) と呼ばれるシングルショット検出器モデルを使用しました。このモデルは、BlazeFace (https://arxiv.org/abs/1907.05047) と同様にモバイルのリアルタイム検出に使用でき、MediaPipe でも使用できます。

手の検出は非常に複雑なタスクです。私たちのモデルはさまざまな手のサイズに適応する必要があるため、画像フレームに対してより広い範囲（約 20 倍）を持ち、遮蔽された手の状態と自己遮蔽された手の状態を検出できます。

人間の顔は通常コントラストが高く、たとえば目と口の領域は明確に区別されています。しかし、手にはそのような特徴がないため、視覚的な特徴のみから確実に検出することは困難です。ただし、腕、体、または人間の特徴などの追加情報を提供すると、正確な手の位置特定に役立ちます。したがって、当社のソリューションでは、さまざまな戦略を使用して上記の課題に対処します。

まず、手のひらや拳などの剛体の境界ボックスを推測する方が指の関節を検出するよりもはるかに簡単なので、手検出器ではなく手のひら検出器をトレーニングします。さらに、手のひらは小さな物体であるため、手の自己閉塞（握手など）の場合でも良好な結果を達成できる非最大抑制アルゴリズム（https://www.coursera.org/lecture/convolutional-neural-networks/non-max-suppression-dvrjH）を使用します。

一方、手のひらは、他のアスペクト比を無視して正方形の境界ボックス (ML 用語ではアンカー) を使用してモデル化することもできます。これにより、アンカーの数が 3 ～ 5 倍削減されます。次に、より大きなシーンのコンテキスト認識で使用されるエンコーダー/デコーダー特徴抽出器を、手などの小さなオブジェクトに適応させます (RetinaNet アプローチと同様、https://arxiv.org/abs/1612.03144)。最後に、高さの変化による多数のアンカーを優先するために、トレーニング中の焦点損失を最小限に抑えます。

上記の技術を使用することで、平均 95.7% の手のひら検出精度を達成しました。従来のクロスエントロピー損失を使用し、デコーダーを使用しない場合、検出精度のベースラインはわずか 86.22% です。

手のランドマークモデル

画像全体で手のひらを検出した後、後続の手のランドマークモデルは、回帰によって、つまり座標を直接予測することによって、検出された手の領域内の 21 個の 3D 手の関節座標のキーポイントを正確に特定します。このモデルは、部分的に見える手や自己遮蔽に対しても堅牢な、一貫した内部ジェスチャ表現を学習します。

リアルタイムデータを取得するために、下の図に示すように、30,000 枚の実際のハンドジェスチャ画像に 21 個の 3D 座標を手動で注釈付けしました (対応する座標が存在する場合、Z 値は画像の深度マップから取得されます)。考えられるジェスチャをより適切にカバーし、ジェスチャのジオメトリをさらに監視するために、さまざまな背景に高品質の合成ハンドモデルをレンダリングし、対応する 3D 座標にマッピングします。

図 3 最初の行の画像は、リアルタイム注釈を通じて追跡ネットワークに渡された位置合わせされた手を示しています。2 行目の画像は、リアルタイム注釈を使用してレンダリングされた合成手の画像を示しています。

ただし、純粋に合成されたデータをより広範囲のドメインに一般化することは困難です。この問題を克服するために、ハイブリッドトレーニングモデルを使用します。次の図は、高レベルのモデルトレーニング図を示しています。

図4. ハンドトラッキングネットワークのハイブリッドトレーニングモデル。切り取られた実際の写真とレンダリングされた合成画像が入力として使用され、21 個の 3D キーポイントを予測します。

次の図は、トレーニングデータの性質に基づいた回帰の精度をまとめたものです。合成データと実際のデータの両方を使用すると、モデルのパフォーマンスが大幅に向上します。

図5. 合成データと実データの使用がモデルのパフォーマンスに与える影響

ジェスチャー認識

予測された手の骨格の上に、ジェスチャーを推測するための簡単なアルゴリズムを適用します。まず、各指が曲がっているか、直立しているかなどの状態は、関節の角度の累積によって決まります。したがって、一連の指の状態を一連の定義済みジェスチャにマッピングします。このシンプルでありながら効果的な技術により、検出品質を犠牲にすることなく、基本的な静的な手のジェスチャーを推定できます。既存のアーキテクチャは、アメリカ、ヨーロッパ、中国などの複数の文化のジェスチャーカウントをサポートするほか、「親指を立てる」、「握りこぶし」、「OK」、「ロックンロール」、「スパイダーマン」などのさまざまなジェスチャーサインをサポートします。

図6 異なるジェスチャー認識結果

MediaPipe経由で実装

MediaPipe を使用すると、この認識アーキテクチャを、Calculators と呼ばれるモジュールコンポーネントの有向グラフ (https://en.wikipedia.org/wiki/Directed_graph) としてモデル化できます。 Mediapipe には、さまざまなデバイスやプラットフォーム上でのモデル推論、メディア処理アルゴリズム、データ変換などのタスクを解決するために使用できるスケーラブルな計算機のセットが付属しています。切り抜き、レンダリング、ニューラルネットワーク計算などの個々の計算は、GPU 上で独立して実行できます。たとえば、ほとんどの最新の携帯電話では TFLite GPU 推論を使用しています。

ハンドトラッキング用の MediaPipe アーキテクチャの図を以下に示します。グラフは 2 つのサブグラフで構成されます。1 つは手の検出用、もう 1 つは手のキーポイント (ランドマーク) の計算用です。 MediaPipe が提供する重要な最適化は、必要な場合にのみ手のひら検出器を実行する (したがって、実行頻度は非常に低い) ため、計算時間が大幅に節約されることです。

現在のフレームで計算された手のキーポイントから後続のビデオフレームの手の位置を推測することで手の追跡を実装し、すべてのフレームで手のひら検出器を実行する必要性を排除します。堅牢性のために、ハンドトラッカーモデルは、入力クロップ内に手が存在し、適切に配置されているという信頼性をキャプチャする追加のスカラーを出力します。信頼度が特定のしきい値を下回った場合にのみ、手検出モデルがフレーム全体に再適用されます。

図 7 手のランドマークモデルの出力 (REJECT_HAND_FLAG) は、手の検出モデルがいつトリガーされるかを制御します。この動作は、MediaPipe の強力な同期ビルディングブロックによって実現され、機械学習アーキテクチャに高いパフォーマンスと最適なスループットをもたらします。

この非常に効率的な機械学習ソリューションは、さまざまなプラットフォームやフォームファクターでリアルタイムに実行されます。上記の簡略化された説明よりもはるかに複雑な内容になります。この目的のために、私たちは上記のハンドトラッキングとジェスチャ認識方法を、関連するエンドツーエンドの使用シナリオとソースコード（https://github.com/google/mediapipe/blob/master/mediapipe/docs/hand_tracking_mobile_gpu.md）とともにMediaPipeフレームワークでオープンソース化し、研究者や開発者に私たちのモデルに基づいた新しいアイデアを実験しプロトタイプ化するための完全なスタックを提供します。

今後の方向性

私たちは、この技術をさらに堅牢で安定したトラッキングに拡張し、確実に検出できるジェスチャの数を増やし、動的なジェスチャをリアルタイムでサポートする予定です。この技術を公開することで、幅広い研究者や開発者の間で新しいアイデアやアプリケーションが生まれると信じています。皆様の革新的なアイデアを楽しみにしています!

*メディアパイプ

MediaPipe は、機械学習パイプライン用のマルチモーダル (ビデオ、オーディオ、任意の時系列データなど) フレームワークを構築するためのクロスプラットフォームフレームワークです。 MediaPipe を使用すると、推論モデル (TensorFlow、TFLite など) やメディア処理関数などのモジュールコンポーネントのグラフとして認識パイプラインを構築できます。

MediaPipe オープンソースアドレス: https://github.com/google/mediapipe/