Google が AI ジェスチャー認識アルゴリズムをオープンソース化: 1 フレームの画像で 21 個の 3D ポイントを認識

Google が AI ジェスチャー認識アルゴリズムをオープンソース化: 1 フレームの画像で 21 個の 3D ポイントを認識

リアルタイムの手の形状と動作の追跡ソリューションは、常に手話認識とジェスチャー制御システムの最も重要なコンポーネントであり、一部の拡張現実体験でも重要な役割を果たします。しかし、既存の技術では、遮蔽やコントラストパターンの欠如などの問題により、理想的な信頼性を提供できないことがよくあります。

この現実的な課題に直面して、Google の科学者たちは、手の認識のための新しいコンピューター ビジョン手法を開発しました。舞台裏の原動力として、機械学習テクノロジーが強力なサポートを提供します。紹介によれば、このソリューションは、実機実験で 1 フレームの画像のみを使用して、手 (または複数の手) 上の 21 個の 3D ポイントを識別できるとのことです。現在市販されているジェスチャー認識技術と比較すると、Google の新技術は計算にデスクトップ コンピューターに頼る必要がなく、携帯電話でリアルタイムの追跡を実行できるほか、複数の手を同時に追跡して遮蔽物を識別することもできます。

[[274440]]

Google は今年 6 月、2019 年のコンピューター ビジョンおよびパターン認識カンファレンスでこのテクノロジーのプレビュー バージョンを発表しました。 2か月後の8月20日(米国時間)、Googleは同技術をMediaPipeに統合することを正式に発表した。 MediaPipe は、さまざまなモダリティ (ビデオやオーディオなど) の知覚データを処理できるマルチモーダル応用機械学習パイプラインを構築するためのオープンソースのクロスプラットフォーム フレームワークです。プロジェクトのソースコードとエンドツーエンドの使用シナリオは、GitHub で完全に公開されています。

「手の形や動きを感知する能力は、さまざまなテクノロジーのパフォーマンスやプラットフォームをまたいだユーザー エクスペリエンスを向上させる重要な要因となる可能性があります」と、研究エンジニアの Valentin Bazarevsky 氏と Fan Zhang 氏はブログ記事に書いています。「この手の感知能力をより広範な研究開発コミュニティに提供し、その力を活用して革新的なユース ケースの出現を共同で促進し、新しいアプリケーションを刺激し、前例のない研究の道を切り開くことを望んでいます。」

Google のテクノロジーには、連続して動作する 3 セットの AI モデルが含まれていることがわかっています。手のひら検出モデル (BlazePalm) は、フレームを分析して手の動きの境界ボックスを返すために使用されます。手のランドマーク モデル (Landmark) は、手のひら検出器によって定義された切り取られた画像領域を表示して 3D 位置を返すために使用されます。ジェスチャ認識モデルは、以前に計算された位置をジェスチャのセットに分類するために使用されます。

BlazePalm: 手の認識は思ったほど簡単ではありません。 GlazePalm は、手の閉塞という実際的な問題を解決できなければなりません。この目的のために、Google チームは BlazePalm と呼ばれる手のひら検出器をトレーニングしました。注意すべきは、これは手ではなく手のひらです。彼らは、拳のような物体の境界ボックスを描くことは、指を追跡するよりもはるかに簡単だと考えています。具体的には、BlazePalm はさまざまな手のひらのサイズを認識でき、ズーム範囲が広く、手の遮蔽を認識し、腕、胴体、個人の特徴などの情報を識別して手の位置を正確に特定できます。さらに、この方法には、握手などの特殊なシナリオとの互換性が高いという大きな利点もあります。他のアスペクト比の条件を無視した正方形のフレームを使用して手のひらをシミュレートするため、必要な 3D ポイントの数が従来の 3 分の 1 から 5 分の 1 に削減されます。統計によると、トレーニング後、BlazePalm の手のひら認識精度は 95.7% に達します。

ランドマーク: 手のひらの検出後、手のランドマーク モデルが引き継ぎ、検出された手の領域内で手から肘までの 21 個の 3D 位置決め座標を確立します。モデルのトレーニング中、研究者は実際のシーンの画像最大 30,000 枚に手動で注釈を付け、さまざまな背景に基づいて対応する座標をレンダリングしてマッピングし、最終的に高品質の合成手モデルを作成する必要があります。統計によると、トレーニング後、アルゴリズムの平均回帰誤差は 13.4% まで削減できます。

ジェスチャ認識モデル: パイプラインの最後のステップはジェスチャ認識です。これは、関節の回転角度を使用して各指の状態 (曲がっているかまっすぐかなど) を判別し、一連の指の状態を定義済みのジェスチャにマッピングして、基本的な静的ジェスチャを予測します。バザレフスキー氏とチャン氏は、このモデルは握りこぶしや「OK」「ロックンロール」「スパイダーマン」といった一般的なジェスチャーだけでなく、米国、欧州、中国など複数の文化圏の算数のジェスチャーも認識できると述べた。

さらに、これらのモデルは、画像の切り取りやレンダリングにグラフィック カードを使用するなど、対応する個別のタスクも実行できるため、コンピューティング リソースを節約できます。また、手のひら検出モデルは必要な場合にのみ実行されます。これは、ほとんどの期間において、後続のビデオ フレーム内の手の位置は計算された手のキー ポイントによってのみ推測できるため、手のひら検出器は必要なくなるためです。つまり、手検出モデルは、推論の信頼度が特定のしきい値を下回った場合にのみ再度作動します。

今後、バザレフスキー氏、チャン氏、および彼らのチームは、確実に検出できるジェスチャの数を増やし、リアルタイムの動的ジェスチャ認識のサポートを検討しながら、より強力で安定した追跡拡張機能を構築する予定です。 「この技術のリリースは、研究者や開発者のコ​​ミュニティが新しいアイデアやアプリケーションを発見するのに役立つと信じている」と彼らは結論付けた。

<<:  2020年のIT開発トレンドは刺激的

>>:  機械学習で避けるべき3つの落とし穴

ブログ    
ブログ    
ブログ    

推薦する

SIEM&AIからSIEM@AIまで、AIが次世代のエンタープライズセキュリティの頭脳を構築

[51CTO.com からのオリジナル記事] SIEM はエンタープライズ セキュリティの中核ハブで...

...

...

データ時代の金採掘者になりましょう。Analysysアルゴリズムコンペティションがあなたの実力を披露するのを待っています。

もっと多くのアルゴリズムの才能とつながりたいですか?業界の最先端の技術を知りたいですか?インターネッ...

口コミの逆転、Pika 1.0の試用効果は多くの人々を納得させ、「最高のビデオジェネレーター」と呼んだ

先月末、Pika 1.0と呼ばれる動画生成AIモデルがソーシャルメディア上で話題になった。3Dアニメ...

パナソニック、AI企業ブルーヨンダーを60億ドル超で買収へ

海外メディアの報道によると、パナソニックは今年3月にアメリカのAIソフト開発会社ブルーヨンダーを70...

AIがデータセンターの設計をどう変えるか

AI システムへの世界的な支出は 2023 年から 2026 年の間に 2 倍になると予想されており...

2000年以降の大学生が伝染病と戦うロボットを設計

「私たちのロボット戦車は防疫ロボットに転用できるだろうか?」疫病流行の期間中、山東科技大学の学生たち...

「遅れた接客」と批判されたインテリジェント接客の現状とは?

AIや5Gなどの新技術がもたらす変化により、顧客サービスシナリオは多様な変化を遂げており、兆レベル...

速報です!李菲菲の一番弟子カルパシーが辞任、テスラの自動運転は危機に瀕しているのか?

たった今、テスラはまた別の技術専門家を失いました!テスラAIのシニアディレクターであり、自動運転ビジ...

OpenAI の COO が ChatGPT のリリース、開発者デー、そして Altman の考えについて語る

「アルトマン氏をご存知なら、彼は話題を素早く切り替えるのが好きなので、私たちが一つの話題に多くの時間...

ディープラーニングフレームワークの競争: TNN vs. MNN、NCNNは依然として定番

近年、「オープンソース」は開発者コミュニティにおける新たなトレンドとなっています。特にディープラーニ...

人工知能に基づく顔認識技術と評価システムの研究

[[428633]] 0 はじめに人工知能と光学画像デバイスの急速な発展に伴い、高度なハードウェア基...

AIイノベーションセンタートラックのリーディングカンパニー:智源匯が成都のスマート鉄道輸送の構築を支援

9月1日、成都地下鉄全線で「スマート旅客サービスプラットフォーム」がオンラインで開始されました。この...

ケンブリッジ 2020 人工知能パノラマレポート、将来予測される 8 つの AI トレンド

ケンブリッジ大学の「AIパノラマレポート」2020年版がこのほど正式に発表された。ケンブリッジ大学の...