快手が手の姿勢推定機能を発表、電光手の秘密を公式に公開

快手が手の姿勢推定機能を発表、電光手の秘密を公式に公開

アイアンマンは指と手のひらを回すだけで、あっという間に鎧の製作を完了した。この魔法のような技に、スクリーンの外のファンは一瞬でひざまずいた。アイアンマンの「純粋なジェスチャーセンシング」も、テクノロジー業界で頻繁に議論されるトピックとなっています。

では、普通の人でもこのようなクレイジーでクールで素晴らしい操作スキルを習得できるのでしょうか?

できる。快手が答えた。

快手が「見せびらかすツール」を発売:数秒で稲妻の手に変身

技術の発展に伴い、研究者は人間とコンピューターの相互作用のさまざまな方法をますます模索しており、その中でもリアルタイムの手の姿勢推定は科学者が注目している研究方向の 1 つです。簡単に言えば、手の姿勢の推定は、コンピューターが人間のボディランゲージを理解するための手段です。このテクノロジーにより、人間とコンピュータの相互作用は、マウスとキーボードで制御されるテキスト インターフェイスやユーザー グラフィック インターフェイスに限定されなくなりました。

最近、Kuaishouは業界で初めて手の姿勢推定機能をリリースしました。この機能は、一般の人々に「見せびらかすためのツール」を提供します。ほんの数回の操作で、クールな特殊効果を実現できます。

ユーザーが指示に従って対応するジェスチャーを行う限り、さまざまな興味深い特殊効果を追加できます。例えば、ユーザーは動画の中で本物の「ウルトラマン」のように行動し、ダイナミックな光波球を発射することができます。数秒で狼の爪や稲妻の手に変形することもできます。子供の頃に憧れたマーベルのキャラクターを、どんな大きな動きでも披露しても問題ありません。

ユーザーがこの製品を使用して写真を撮ると、アルゴリズムが自動的に手の形状カテゴリを識別し、手の重要なポイントの位置を推定します。キーポイントの位置や手の形の種類に応じて、さまざまな特殊効果を生み出したり、画像の内容と人間とコンピュータのインタラクションを実行したりできます。ユーザーは手の形によって対応する特殊効果をトリガーすることができ、また指の関節レベルでの正確な制御も実現できます。

この機能が導入された後、多くのユーザーがこの斬新な遊び方を試しました。

ジェスチャー認識の秘密を解き明かすと、Kuaishou はどのような問題を解決したのでしょうか?

ジェスチャー認識技術は、Kuaishouが2016年に設立したY-Labチームのジェスチャー研究開発チームによって開発されました。今年、ユーザーに斬新な体験をもたらす新たな技術をさらに開発するため、Kuaishou は高度な教育を受けた研究開発チームを結成しました。彼らの研究分野には、人工知能、機械学習、コンピューター ビジョン、コンピューター グラフィックス、拡張現実などが含まれます。 2018年、Kuaishouはテクノロジーと製品のより良い統合を図るため、Y-Labの名称をY-techに変更しました。

Y-techのジェスチャー研究開発チームの担当者によると、ジェスチャー認識技術とは、写真や動画に映った人間の手を検出し、検出された手の手の形やキーポイントの位置を予測する技術を指す。

一般的なジェスチャ認識技術には、手の形状認識、2 次元の手の姿勢推定、3 次元の手の姿勢推定などがあります。手の形状認識から3Dの手姿勢推定まで、認識する必要のある情報はますます増え、研究開発の難易度は飛躍的に高まります。上記で紹介した機能には、手の検出、手の形状認識、2 次元の手の姿勢推定などがあります。

現在、手の形状認識は業界では比較的成熟していますが、2次元の手の姿勢推定はまだあまり成熟していません。Kuaishouは業界で初めてこの技術をモバイル端末に適用する企業になると報じられています。 3次元の手の姿勢推定技術は比較的難しく、双眼鏡カメラや深度カメラなどの特殊なハードウェアを通じてのみ実現できます。

ジェスチャー認識の開発中、Y-tech チームはアルゴリズム戦略、ネットワーク構造設計、モデル最適化、基礎となる加速など、多くの技術とソリューションを蓄積しており、これらの経験は他のシナリオでも完全に再利用できます。

人工知能分野で広く使われている顔認識と比較すると、ジェスチャー認識技術にはいくつかの技術的な難しさがある。Y-techのジェスチャー研究開発責任者は「手は自由度が高く、自己遮蔽が深刻で、特徴が不明瞭であるため、顔よりも難しい」と語った。

Kuaishou を例にとると、この機能は現在、複数の手を同時に検出でき、最大 17 種類の手の形状認識をサポートし、手の 21 個の 2 次元キーポイントを識別できます。これらの機能を実現するために、R&D チームは多くの困難を克服しました。

• カメラに人間の手が占める割合は小さく、効率的な小さなターゲットの検出は現在業界では難しい問題となっています。

• 人間の手の重度の自己閉塞と関節運動の自由度が高い。

• ユーザーの携帯電話には単眼画像しかないため、純粋な視覚アルゴリズムの実装が必要です。

• ユーザーの携帯電話のカメラで撮影された写真の品質はさまざまであり、ユーザーは同じ手をさまざまな方法でポーズする場合があります。

担当者によると、チームはまず検出アルゴリズムの枠組みを改善し、小さなターゲットの検出能力を高め、人間の手の特性に基づく事前知識を統合することで、問題の複雑さを軽減し、予測結果の改善を実現したという。

携帯電話の計算能力はユーザーによって異なるため、同じソフトウェアをより多くのユーザーで使用する場合は、さまざまなモデルの条件を考慮する必要があります。Kuaishou AI Lab は、この問題を 2 つの方法で解決しました。

1. アルゴリズムレベルでは、研究開発担当者が効率的なニューラルネットワーク構造を設計し、異なるモデルに異なるアルゴリズム戦略を採用しました。

2. エンジニアリング実装の面では、Kuaishouが自社開発したYCNNは、さまざまな携帯電話のハードウェアアーキテクチャに高度に適応し、パフォーマンスを最適化しています。CPU、GPU、NPU、DSPなどの複数の動作モードを使用できるため、AIテクノロジーの動作がユーザーデバイスの計算能力によって制限されるという問題を解決します。

次のステップ:将来的には3Dの手の再構築を試みる予定

快手にとって、モバイルアプリケーションにジェスチャー認識機能を追加することは試みです。機能面では確かに改善すべき点が多くあります。R&Dチームによると、製品のアルゴリズムによるモーションブラーと手の重なりの処理はまだ不完全であり、これが次に解決しなければならない重要な問題です。今後、チームは端末上で3次元の手の再構築を実行し、より正確なモーション認識とインタラクションのための技術を準備する予定です。ショートビデオ分野での応用に加え、ゲーム、拡張現実、ライブストリーミング、教育などの分野でのジェスチャー認識技術の応用もトレンドとなり、これはKuaishouが模索している方向でもあります。

ジェスチャー認識技術が開発されて以来、多くの企業がさまざまな分野でそれを試してきました。将来、ジェスチャー認識の応用シナリオは非常に広範囲になるでしょう。小さな手の認識やモーションブラーなどの従来の問題に加えて、端末上の双眼カメラと深度カメラの情報をどのように組み合わせてジェスチャー認識効果を向上させるかも、業界の重要な課題になるでしょう。

<<:  人工知能とモノのインターネット:完璧な組み合わせ

>>:  AIoT = AI + IoT、舞台裏で誰が誰をもっと必要としているのでしょうか?

ブログ    
ブログ    

推薦する

...

【ディープラーニング】敵対的生成ネットワーク(GAN)を徹底解説!

1. 概要敵対的生成ネットワーク (GAN) は、コンピューターを通じてデータを生成するために使用...

リアルタイム、高精細、高忠実度:より強力なビデオ再構成アルゴリズム、大幅に向上したパフォーマンス

画像編集の分野がここ数年で飛躍的に成長したことは周知の事実です。しかし、ビデオ分野ではまだいくつかの...

ビッグデータと AI: 3 つの実際の使用例

ビッグデータと人工知能は、企業が新しい方法で顧客体験を向上させるのに役立ちます。 AIとビッグデータ...

AIで製造業を解放する: 企業がアプリケーションシナリオを発見し、課題に対処する方法

まとめ現在、さまざまな業界がデジタルビジネスシナリオを実装または強化するために機械学習機能を構築して...

AIは単なるコードかもしれないが、それは私たちのコードだ

AI に対する期待は高すぎるのでしょうか? また、企業とその経営陣は AI が提供する成果にどの程度...

AIモデリングはもはや困難ではない:Jiuzhang Yunji DataCanvasが2つのオープンソース成果をリリース

[51CTO.comより] 「ソフトウェアインフラは大幅なアップグレードを受け、AIの実装はソフトウ...

...

アリババの年次技術概要: 検索における人工知能の応用と実践

[51CTO.com からのオリジナル記事] ディープラーニングに代表される人工知能は、画像、音声、...

ロボット開発者イノベーションデー | Horizo​​n RDK と NodeHub の新製品

7月25日、「Horizo​​n 2023 Robotics Developer Innovatio...

...

...

ファーウェイ、AI人材育成と科学研究の革新を促進する2つのAscendプロジェクトを開始

ファーウェイは6月25日、成都で開催された2022 Ascend AI開発者イノベーションデーで、人...

「人間の顔」から「犬の顔」まで、AIはペット経済にも参入するのでしょうか?

[[334871]]原題:「人間の顔認識」から「犬の顔認識」まで、人工知能はペット経済にも参入する...

メタは自社の弁護士の警告を無視し、海賊版書籍を使用してAIモデルを訓練したと報じられている。

ロイター通信は12月13日、著作権侵害訴訟の新たな文書によると、メタ・プラットフォームズは何千冊もの...