Google が AI ジェスチャー認識アルゴリズムをオープンソース化: 1 フレームの画像で 21 個の 3D ポイントを認識

リアルタイムの手の形状と動作の追跡ソリューションは、常に手話認識とジェスチャー制御システムの最も重要なコンポーネントであり、一部の拡張現実体験でも重要な役割を果たします。しかし、既存の技術では、遮蔽やコントラストパターンの欠如などの問題により、理想的な信頼性を提供できないことがよくあります。

この現実的な課題に直面して、Google の科学者たちは、手の認識のための新しいコンピュータービジョン手法を開発しました。舞台裏の原動力として、機械学習テクノロジーが強力なサポートを提供します。紹介によれば、このソリューションは、実機実験で 1 フレームの画像のみを使用して、手 (または複数の手) 上の 21 個の 3D ポイントを識別できるとのことです。現在市販されているジェスチャー認識技術と比較すると、Google の新技術は計算にデスクトップコンピューターに頼る必要がなく、携帯電話でリアルタイムの追跡を実行できるほか、複数の手を同時に追跡して遮蔽物を識別することもできます。

[[274440]]

Google は今年 6 月、2019 年のコンピュータービジョンおよびパターン認識カンファレンスでこのテクノロジーのプレビューバージョンを発表しました。 2か月後の8月20日（米国時間）、Googleは同技術をMediaPipeに統合することを正式に発表した。 MediaPipe は、さまざまなモダリティ (ビデオやオーディオなど) の知覚データを処理できるマルチモーダル応用機械学習パイプラインを構築するためのオープンソースのクロスプラットフォームフレームワークです。プロジェクトのソースコードとエンドツーエンドの使用シナリオは、GitHub で完全に公開されています。

「手の形や動きを感知する能力は、さまざまなテクノロジーのパフォーマンスやプラットフォームをまたいだユーザーエクスペリエンスを向上させる重要な要因となる可能性があります」と、研究エンジニアの Valentin Bazarevsky 氏と Fan Zhang 氏はブログ記事に書いています。「この手の感知能力をより広範な研究開発コミュニティに提供し、その力を活用して革新的なユースケースの出現を共同で促進し、新しいアプリケーションを刺激し、前例のない研究の道を切り開くことを望んでいます。」

Google のテクノロジーには、連続して動作する 3 セットの AI モデルが含まれていることがわかっています。手のひら検出モデル (BlazePalm) は、フレームを分析して手の動きの境界ボックスを返すために使用されます。手のランドマークモデル (Landmark) は、手のひら検出器によって定義された切り取られた画像領域を表示して 3D 位置を返すために使用されます。ジェスチャ認識モデルは、以前に計算された位置をジェスチャのセットに分類するために使用されます。

BlazePalm: 手の認識は思ったほど簡単ではありません。 GlazePalm は、手の閉塞という実際的な問題を解決できなければなりません。この目的のために、Google チームは BlazePalm と呼ばれる手のひら検出器をトレーニングしました。注意すべきは、これは手ではなく手のひらです。彼らは、拳のような物体の境界ボックスを描くことは、指を追跡するよりもはるかに簡単だと考えています。具体的には、BlazePalm はさまざまな手のひらのサイズを認識でき、ズーム範囲が広く、手の遮蔽を認識し、腕、胴体、個人の特徴などの情報を識別して手の位置を正確に特定できます。さらに、この方法には、握手などの特殊なシナリオとの互換性が高いという大きな利点もあります。他のアスペクト比の条件を無視した正方形のフレームを使用して手のひらをシミュレートするため、必要な 3D ポイントの数が従来の 3 分の 1 から 5 分の 1 に削減されます。統計によると、トレーニング後、BlazePalm の手のひら認識精度は 95.7% に達します。

ランドマーク: 手のひらの検出後、手のランドマークモデルが引き継ぎ、検出された手の領域内で手から肘までの 21 個の 3D 位置決め座標を確立します。モデルのトレーニング中、研究者は実際のシーンの画像最大 30,000 枚に手動で注釈を付け、さまざまな背景に基づいて対応する座標をレンダリングしてマッピングし、最終的に高品質の合成手モデルを作成する必要があります。統計によると、トレーニング後、アルゴリズムの平均回帰誤差は 13.4% まで削減できます。

ジェスチャ認識モデル: パイプラインの最後のステップはジェスチャ認識です。これは、関節の回転角度を使用して各指の状態 (曲がっているかまっすぐかなど) を判別し、一連の指の状態を定義済みのジェスチャにマッピングして、基本的な静的ジェスチャを予測します。バザレフスキー氏とチャン氏は、このモデルは握りこぶしや「OK」「ロックンロール」「スパイダーマン」といった一般的なジェスチャーだけでなく、米国、欧州、中国など複数の文化圏の算数のジェスチャーも認識できると述べた。

さらに、これらのモデルは、画像の切り取りやレンダリングにグラフィックカードを使用するなど、対応する個別のタスクも実行できるため、コンピューティングリソースを節約できます。また、手のひら検出モデルは必要な場合にのみ実行されます。これは、ほとんどの期間において、後続のビデオフレーム内の手の位置は計算された手のキーポイントによってのみ推測できるため、手のひら検出器は必要なくなるためです。つまり、手検出モデルは、推論の信頼度が特定のしきい値を下回った場合にのみ再度作動します。

今後、バザレフスキー氏、チャン氏、および彼らのチームは、確実に検出できるジェスチャの数を増やし、リアルタイムの動的ジェスチャ認識のサポートを検討しながら、より強力で安定した追跡拡張機能を構築する予定です。「この技術のリリースは、研究者や開発者のコミュニティが新しいアイデアやアプリケーションを発見するのに役立つと信じている」と彼らは結論付けた。

<<: 2020年のIT開発トレンドは刺激的

>>: 機械学習で避けるべき3つの落とし穴