Google が AI ジェスチャー認識アルゴリズムをオープンソース化: 1 フレームの画像で 21 個の 3D ポイントを認識

Google が AI ジェスチャー認識アルゴリズムをオープンソース化: 1 フレームの画像で 21 個の 3D ポイントを認識

リアルタイムの手の形状と動作の追跡ソリューションは、常に手話認識とジェスチャー制御システムの最も重要なコンポーネントであり、一部の拡張現実体験でも重要な役割を果たします。しかし、既存の技術では、遮蔽やコントラストパターンの欠如などの問題により、理想的な信頼性を提供できないことがよくあります。

この現実的な課題に直面して、Google の科学者たちは、手の認識のための新しいコンピューター ビジョン手法を開発しました。舞台裏の原動力として、機械学習テクノロジーが強力なサポートを提供します。紹介によれば、このソリューションは、実機実験で 1 フレームの画像のみを使用して、手 (または複数の手) 上の 21 個の 3D ポイントを識別できるとのことです。現在市販されているジェスチャー認識技術と比較すると、Google の新技術は計算にデスクトップ コンピューターに頼る必要がなく、携帯電話でリアルタイムの追跡を実行できるほか、複数の手を同時に追跡して遮蔽物を識別することもできます。

[[274440]]

Google は今年 6 月、2019 年のコンピューター ビジョンおよびパターン認識カンファレンスでこのテクノロジーのプレビュー バージョンを発表しました。 2か月後の8月20日(米国時間)、Googleは同技術をMediaPipeに統合することを正式に発表した。 MediaPipe は、さまざまなモダリティ (ビデオやオーディオなど) の知覚データを処理できるマルチモーダル応用機械学習パイプラインを構築するためのオープンソースのクロスプラットフォーム フレームワークです。プロジェクトのソースコードとエンドツーエンドの使用シナリオは、GitHub で完全に公開されています。

「手の形や動きを感知する能力は、さまざまなテクノロジーのパフォーマンスやプラットフォームをまたいだユーザー エクスペリエンスを向上させる重要な要因となる可能性があります」と、研究エンジニアの Valentin Bazarevsky 氏と Fan Zhang 氏はブログ記事に書いています。「この手の感知能力をより広範な研究開発コミュニティに提供し、その力を活用して革新的なユース ケースの出現を共同で促進し、新しいアプリケーションを刺激し、前例のない研究の道を切り開くことを望んでいます。」

Google のテクノロジーには、連続して動作する 3 セットの AI モデルが含まれていることがわかっています。手のひら検出モデル (BlazePalm) は、フレームを分析して手の動きの境界ボックスを返すために使用されます。手のランドマーク モデル (Landmark) は、手のひら検出器によって定義された切り取られた画像領域を表示して 3D 位置を返すために使用されます。ジェスチャ認識モデルは、以前に計算された位置をジェスチャのセットに分類するために使用されます。

BlazePalm: 手の認識は思ったほど簡単ではありません。 GlazePalm は、手の閉塞という実際的な問題を解決できなければなりません。この目的のために、Google チームは BlazePalm と呼ばれる手のひら検出器をトレーニングしました。注意すべきは、これは手ではなく手のひらです。彼らは、拳のような物体の境界ボックスを描くことは、指を追跡するよりもはるかに簡単だと考えています。具体的には、BlazePalm はさまざまな手のひらのサイズを認識でき、ズーム範囲が広く、手の遮蔽を認識し、腕、胴体、個人の特徴などの情報を識別して手の位置を正確に特定できます。さらに、この方法には、握手などの特殊なシナリオとの互換性が高いという大きな利点もあります。他のアスペクト比の条件を無視した正方形のフレームを使用して手のひらをシミュレートするため、必要な 3D ポイントの数が従来の 3 分の 1 から 5 分の 1 に削減されます。統計によると、トレーニング後、BlazePalm の手のひら認識精度は 95.7% に達します。

ランドマーク: 手のひらの検出後、手のランドマーク モデルが引き継ぎ、検出された手の領域内で手から肘までの 21 個の 3D 位置決め座標を確立します。モデルのトレーニング中、研究者は実際のシーンの画像最大 30,000 枚に手動で注釈を付け、さまざまな背景に基づいて対応する座標をレンダリングしてマッピングし、最終的に高品質の合成手モデルを作成する必要があります。統計によると、トレーニング後、アルゴリズムの平均回帰誤差は 13.4% まで削減できます。

ジェスチャ認識モデル: パイプラインの最後のステップはジェスチャ認識です。これは、関節の回転角度を使用して各指の状態 (曲がっているかまっすぐかなど) を判別し、一連の指の状態を定義済みのジェスチャにマッピングして、基本的な静的ジェスチャを予測します。バザレフスキー氏とチャン氏は、このモデルは握りこぶしや「OK」「ロックンロール」「スパイダーマン」といった一般的なジェスチャーだけでなく、米国、欧州、中国など複数の文化圏の算数のジェスチャーも認識できると述べた。

さらに、これらのモデルは、画像の切り取りやレンダリングにグラフィック カードを使用するなど、対応する個別のタスクも実行できるため、コンピューティング リソースを節約できます。また、手のひら検出モデルは必要な場合にのみ実行されます。これは、ほとんどの期間において、後続のビデオ フレーム内の手の位置は計算された手のキー ポイントによってのみ推測できるため、手のひら検出器は必要なくなるためです。つまり、手検出モデルは、推論の信頼度が特定のしきい値を下回った場合にのみ再度作動します。

今後、バザレフスキー氏、チャン氏、および彼らのチームは、確実に検出できるジェスチャの数を増やし、リアルタイムの動的ジェスチャ認識のサポートを検討しながら、より強力で安定した追跡拡張機能を構築する予定です。 「この技術のリリースは、研究者や開発者のコ​​ミュニティが新しいアイデアやアプリケーションを発見するのに役立つと信じている」と彼らは結論付けた。

<<:  2020年のIT開発トレンドは刺激的

>>:  機械学習で避けるべき3つの落とし穴

ブログ    
ブログ    
ブログ    

推薦する

AI | 人工知能プロジェクトを成功させるための 8 つの重要な役割

企業が AI プロジェクトをさらに展開するにつれて、特定の役割がビジネスの成功に不可欠であることがわ...

転移学習におけるドメイン適応の理解と3つの手法の紹介

ドメイン適応はコンピューター ビジョンの領域であり、ソース データセットでニューラル ネットワークを...

人工知能の時代において、従来のメディアはどのようにしてニュースの取り組みを守ることができるのでしょうか?

海外メディアの報道によると、人工知能によるニュースのパーソナライゼーションの時代では、従来の報道機関...

LlamaIndex と ChatGPT を使用したコードレス検索拡張生成 (RAG)

翻訳者 | 李睿レビュー | Chonglou検索拡張生成 (RAG) は、大規模言語モデル (LL...

Claude3はマイクロソフトとOpenAIに警鐘を鳴らした

編纂者 | Yan Zheng制作:51CTO テクノロジースタック(WeChat ID:blog)...

人工知能に関する4つの大きな誤解

サンタフェ研究所の教授であり、『人工知能:考える人間のためのガイド』の著者でもあるメラニー・ミッチェ...

サム・アルトマンが2023年の年末総括を発表、17の大格言がネット全体に響き渡る!

2023年も終わりに近づいています。過去1年を振り返ると、ChatGPTの登場が世界的なAIブーム...

R言語におけるAprioriアルゴリズムの応用

[[193979]] I. コンセプト関連性分析は、大規模なデータセットに隠された意味のあるつながり...

人工知能とセキュリティ:繋がる双子

何十年もの間、セキュリティは重要であると考えられてきましたが、いわゆる「コアビジネス」機能に関与した...

最高人民検察院は、虚偽訴訟の監視に人工知能とビッグデータを活用することを検討している。

虚偽の訴訟は、他人の正当な権利と利益を侵害するだけでなく、社会の健全性を著しく損ない、司法の公平性、...

ByteDance、検索速度が8倍に高速化した最新の音楽検索システム「ByteCover2」をリリース

最近、ByteDance Volcano Voice Teamの最新の音楽検索システムであるByte...

...

生産性を高める 13 の AI ツール

良いツールは仕事の効率を2倍にしてくれます。そのため、私は実際の仕事で常にツールを最適化して、仕事を...

ヘルスケアにおける人工知能の新たなフロンティア

[[262099]]医療機関が AI の導入を競う中、プロセス中心のアプローチを AI 戦略に組み込...