Meta はヘッドマウントディスプレイを使用して全身のモーショントラッキングを実現します。脚の情報なしで正確な姿勢推定

Meta はヘッドマウントディスプレイを使用して全身のモーショントラッキングを実現します。脚の情報なしで正確な姿勢推定

ヘッドセットにより、Meta は新たな命を吹き込まれます!

SIGGRAPH 2023 カンファレンスで発表された最新の研究で、研究者らは次のことを示しました。

Quest センサーと周囲の物体や環境との相互作用だけで、人の全身の動きを捉えることができます。

複雑な環境とのやり取りも問題ありません。

入力は依然として同じで、座標フレームは 3 つだけです (カメラはありません)。

仮想キャラクターを追加すると、腕と脚の動きがすべて利用できるようになります (緑の点は環境の高さです)。

足の動きの効果を見て、ネットユーザーたちはすぐに衝撃を受けた。

この脚の見積もりには衝撃を受けました!

まだ終わってないよ!下半身に関する情報がなくても、箱の上を歩いたり、障害物を越えたり、人間の動きを正確に追跡したりすることもできます。

物理シミュレーションにより、後処理なしで、優れた効果を持つインタラクティブなシーンを生成することができます。

センサーでいいですよ!ハンドルを取り外した後、手の動きはランダムですが、歩く姿勢はまだ適切です。

これを読んでネットユーザーは衝撃を受けた。

ユーザーが自宅で簡単な機器を使用して、体と顔の表情を備えた完全なデジタルヒューマンアニメーションを作成できるように、Metahuman システムと組み合わせることを検討しましたか?

現在、既存のモーション トラッキング方法のほとんどは、足と地面の接触を除いて、環境との相互作用を回避しようとします。

では、この研究では、動作追跡に環境の相互作用をどのように利用するのでしょうか?

環境との相互作用を含むデータを使用してトレーニングする

私たちの日常生活において、環境との関わりは避けられません。

ソウル国立大学(SNU)とMeta Reality Labs Researchの研究者によるこの研究では、強化学習を使用して、センサーを物理シミュレーションと環境観察と組み合わせることで、制約の厳しい環境でもリアルな全身動作を再現できることを示しています。

これを実現するには、次の 3 つのアプローチを検討する必要があります。

インタラクションによるアクション、スパース センサー入力からの運動学的追跡、物理ベースのモーション追跡を合成します。

この論文で研究者が使用した戦略では、入力としてヘッドセットとコントローラーの姿勢のみが必要であり、下半身に関する情報はなく、仮想キャラクターを安定させるために人間の力に頼りません。

本研究の物理シミュレーションは、アクション姿勢を追跡するために必要なさまざまな制約を自動的に適用できるため、貫通や接触滑りなどの一般的な問題を起こさずに、高品質のインタラクティブなアクションが可能になります。

そして、深層強化学習 (Deep RL) を使用して、シミュレートされた仮想キャラクターとユーザー入力の差を減らすことでエラーを最小限に抑える制御ポリシーを学習します。

上の図に示すように、仮想シミュレーション キャラクターには 32 の自由度と 18 の関節があり、関節トルクによって駆動されます。環境オブジェクトも、いくつかの基本的な幾何学的形状を使用してシミュレーションおよび複製されます。

実際の人間が環境オブジェクトに接触すると、特定の時間と場所がマークされ、監視情報として使用されます。

これにより、シーンの観察がポリシーに組み込まれ、環境をモーション トラッキングに使用できるようになります。

例えば、椅子に座ると、椅子の反力が発生するので、足を上げることがわかります。地面にある箱を踏むと、箱からも反力が発生します。接触後の反力を通じて物体を操作することもできます。

環境との接触力を意図的に作り出すことで追跡が容易になります。しかし一方で、接触が追跡の妨げになる場合には、制御戦略によって環境との接触を避けることもできます。

たとえば、仮想ボックスは仮想シミュレーション環境に配置されます。制御ポリシーは、高さマップ (緑の点) を通じて周囲のシーンを観察し、人のセンサー データを追跡しながら足を上げて障害物を回避することを学習できます。

もちろん、この効果を達成するには、適切な環境観察表現、トレーニング中の接触報酬(足だけでなく他の体の部分も含む)、トレーニング中の物体位置のランダムな変化という 3 つの重要なポイントに注意する必要があります。

研究者たちは、報酬に触れなければ成功率が大幅に低下することに気づきました。シーンのランダム化を行わないと、パフォーマンスも大幅に低下します。

写真

座ったまま立ち上がれない

この研究で示されたモーショントラッキングはほとんどの場合うまく機能しましたが、トラッキングが失敗するケースもありました。

床から立ち上がるなどのタスクでは、人間の力が使用されないために、慎重に調整された接触を必要とするこの動作を制御戦略が学習することが難しいようです。

また、アバターがバランスを崩し、一度倒れてしまうと起き上がって追跡を続けることができない場合があります。

また、現在のシステムでは、インタラクションの種類ごとに個別のポリシーをトレーニングする必要があることにも留意する必要があります。

研究者らは次のように述べた。

より幅広いアクションのレパートリーをカバーする単一のトラッカーを学習できれば理想的です。これには、エキスパート混合モデルなどのより複雑なニューラル ネットワーク モデル、またはより長いトレーニング時間とより大きなデータセットが必要になる場合があります。

もう 1 つの有望な方向性は、動的に移動するオブジェクトを含む未知のシーンを含めるようにシステムを拡張することです。オンライン システム識別をシステムの一部として組み込むことができます。

<<:  AIとIoTが交通管理に及ぼす6つの影響

>>:  科学:ChatGPTは労働者と非労働者の間の格差を縮小する

ブログ    
ブログ    
ブログ    

推薦する

AIは学習しません!ネイチャー誌の最新研究が人工知能のブラックボックスを解読

人工知能(AI)は急速に進歩していますが、人間にとってその強力なモデルは「ブラックボックス」です。モ...

西夏文字の認識を例にとると、人工知能は歴史理解にどのように役立つか

以前、チャット中に友人が人工知能についての印象を「西洋的」「商業的」「未来志向」という 3 つの言葉...

...

Gym Anytradingに基づく強化学習の簡単な例

強化学習 (RL) は近年、アルゴリズム取引の分野で大きな注目を集めています。強化学習アルゴリズムは...

...

Transformer のコンテキスト学習機能はどこから来るのでしょうか?

トランスフォーマーはなぜ優れたパフォーマンスを発揮するのでしょうか?多くの大規模言語モデルにもたらさ...

有名人のリアルタイムディープフェイク!名前を入力して数秒で顔を変える

家に座って、数秒でマスクに変身しましょう。見てください、この男はコンピューターの前に座っています。最...

AIがIT業界とAV業界にもたらす変化

[51CTO.com クイック翻訳]人工知能が情報技術 (IT) 業界とオーディオビジュアル (AV...

描いた場所に画像が動きます! Gen-2の新機能「マジックブラシ馬良」が大ヒット、ネットユーザー:緊急、緊急、緊急

動画生成AIはここまで進化したのか? !写真をスワイプするだけで、選択したターゲットが動きます。明ら...

...

医学と人工知能が出会うとき、将来の医学の5つの主要なトレンドを知っておく必要があります

[[257227]] 2015年、映画『ベイマックス』は多くの人々の心を動かし、『ベイマックス』とい...

DeepMind: 畳み込みネットワークは ViT ほど優れていないと誰が言ったのですか?

ディープラーニングの初期の成功は、畳み込みニューラル ネットワーク (ConvNet) の開発による...

東方世界の楊暁:AR開発技術のポイントを探る

[51CTO.comからのオリジナル記事] 市場調査会社Digi-Capitalのデータによると、2...

新しい AI スキル: 芸術の分類と鑑賞

芸術作品の分類と分析は難しいことで知られており、ごく少数の専門家だけが発言権を持ち、この分野への人工...