登ったり、ジャンプしたり、狭い隙間を通り抜けたり:オープンソースの強化学習戦略により、ロボット犬がパルクールを行えるようになる

登ったり、ジャンプしたり、狭い隙間を通り抜けたり:オープンソースの強化学習戦略により、ロボット犬がパルクールを行えるようになる

パルクールはエクストリームスポーツであり、複雑な環境におけるさまざまな障害物を素早く克服する必要があるロボット、特に四足歩行ロボット犬にとっては大きな挑戦となります。いくつかの研究では、参照動物データや複雑な報酬の使用が試みられましたが、これらの方法によって生成されたパルクール スキルは、多様ではあるものの盲目的であるか、視覚ベースではあるもののシーン固有のものです。しかし、自律型パルクールでは、ロボットがさまざまなシナリオを認識して迅速に対応するために、多様な一般的な視覚ベースのスキルを学習する必要があります。

最近、ロボット犬がパルクールをする動画が話題になった。動画では、ロボット犬がさまざまなシナリオでさまざまな障害物を素早く克服している。例えば、鉄板の下の隙間を通り抜け、木箱を登り、さらに別の木箱に飛び移るといった一連の動作がスムーズかつ流れるように行われます。

この一連の動作は、ロボット犬が這う、登る、ジャンプするという 3 つの基本的なスキルを習得したことを示しています。

傾けて狭い隙間を通り抜けるというスキルも持っています。

ロボット犬が障害物を乗り越えられなかった場合、さらに数回試みます。

このロボット犬は、低価格のロボット向けに開発された「パルクール」スキル学習フレームワークに基づいています。このフレームワークは、上海知的財産研究所、スタンフォード大学、上海科技大学、CMU、清華大学の研究者によって共同で提案され、研究論文はCoRL 2023(口頭発表)に選出されました。この研究プロジェクトはオープンソース化されました。

論文アドレス: https://arxiv.org/abs/2309.05665

プロジェクトアドレス: https://github.com/ZiwenZhuang/parkour

方法の紹介

この研究では、参照モーションデータなしで単純な報酬を使用して複数のパルクールスキルを学習するための、エンドツーエンドのビジョンベースのパルクールポリシーを学習するための新しいオープンソースシステムを紹介します。

具体的には、この研究では、ロボットが高い障害物を登る、大きな隙間を飛び越える、低い障害物の下を這う、狭い隙間を通り抜ける、走るといった能力を習得できるようにし、これらのスキルを単一の視覚ベースのパルクール戦略に抽出し、自己中心的深度カメラを備えた四足歩行ロボットに転送することを目的とした強化学習法を提案しました。

低コストのロボットにうまく導入するために、本研究で提案されたパルクール戦略は、モーションキャプチャ、LIDAR、複数の深度カメラ、大規模なコンピューティングを使用せずに、オンボードコンピューティング (Nvidia Jetson)、オンボード深度カメラ (Intel Realsense)、オンボード電源のみを使用して導入されます。

パルクール戦略を訓練するために、この研究では次の 3 つの段階の作業を実施しました。

フェーズ 1: ソフト ダイナミクス制約を使用した強化学習の事前トレーニング。この研究では、自動化されたカリキュラムを使用してロボットに障害物を乗り越える方法を教え、ロボットが徐々に障害を克服する方法を学習するように促しました。

フェーズ 2: 厳格な動的制約による強化学習の微調整。この研究では、この段階ですべての動的制約を適用し、現実的なダイナミクスを使用して、事前トレーニング段階で学習したロボットの動作を微調整します。

ステージ3: 蒸留。研究では、個々のパルクール スキルを学習した後、DAgger を使用してそれらを視覚ベースのパルクール ポリシー (RNN によってパラメーター化) に抽出し、オンボードの知覚と計算のみを使用して脚付きロボットに展開できるようにしました。


実験と結果

トレーニングでは、以下の表 1 に示すように、各スキルに対応する障害物のサイズを設定しました。

この研究では、多数のシミュレーションと実際の実験が行われ、その結果、パルクール戦略によって、低コストの四足ロボットが適切なパルクールスキルを自律的に選択して実行し、オンボードコンピューティング、オンボード視覚センシング、オンボード電源のみを使用して、オープンワールドの困難な環境を横断できることが示されました。これには、高さ0.40m(ロボットの高さの1.53倍)の障害物を登る、0.60m(ロボットの長さの1.5倍)の大きな隙間を飛び越える、0.2m(ロボットの高さの0.76倍)の低い障害物の下を這う、傾いて0.28m(ロボットの幅よりも小さい)の細い隙間を通り抜ける、そして前進し続けることが含まれます。

さらに、この研究では提案された方法をいくつかのベースライン方法と比較し、シミュレーション環境でアブレーション実験を実施しました。結果を以下の表 2 に示します。

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<:  llama2.mojo は llama2.c より 20% 高速です。最も新しい言語 Mojo が開発者コミュニティを驚かせています

>>:  完全なマーケティング効果評価におけるベイズ構造モデルの応用

ブログ    
ブログ    
ブログ    

推薦する

...

セキュリティとインテリジェンス: 銀行における IoT の導入と応用

人工知能 (AI) 対応ソリューションの機能からスマート デバイスによるモビリティの向上まで、コネク...

百度、中国初の「工業用」医療用モデル「霊益大モデル」を発売

百度は9月19日、国内初の「産業レベル」医療ビッグモデル「霊益ビッグモデル」を発表し、霊益ビッグモデ...

衝撃の2017年!この10日間は中国の人工知能の時代

2017年にはすでに「残高不足」が発生。今年、中国の人工知能開発は多くの進歩を遂げ、実りある成果を達...

人工知能の7つの応用シナリオ

人工知能とは、人間の行動や思考をシミュレートし、トレーニングを通じて特定の問題を解決できる機械によっ...

Canalys:2027年までにPCの60%がAI機能に対応し、出荷台数は1億7500万台を超える見込み

9月26日、市場調査会社Canalysが発表した最新レポートによると、現在のAIの波の中で、企業や消...

コンテナで AI アプリケーションを実行する際に知っておくべき 6 つの原則

現在、IT 開発の 2 つの中核トレンドとして、AI/ML とコンテナが企業で広く利用されています。...

AIがKing of GloryやStarCraftをプレイしています...その背後にあるテクノロジーを理解していないのですか?ゲームAIのレビューはこちら

[[437808]]人間とコンピュータのゲームは長い歴史があり、人工知能の主要技術を検証するための主...

中国の人工知能産業における4つの大きなトレンド

人工知能は新たな産業変革の中核的な原動力であり、これまでの科学技術革命と産業変革によって蓄積された膨...

...

年末総括:2020 年の人工知能の注目イベント一覧

スマート製造ネットワークニュース:2020年、「人工知能」は産業発展における高頻度のホットワードとな...

図解 Raft コンセンサス アルゴリズム: リーダーを選出する方法

[[393927]] Raft は、リーダーを基準としてノード間のログの一貫性を実現するコンセンサス...

重みでターゲットを選択するための Java アルゴリズム

私は現在、軍事司令官システムに取り組んでいますが、これは多くのユースケースがあるかなり複雑なシステム...

ツイッターがマスク氏の買収を阻止:15%以上の株式を保有する者は割引価格で発行される

イーロン・マスクによるツイッター買収のドラマもついにこの回まで来た。ツイッターは現地時間4月15日、...

絶賛されていたGPT-3が充電開始します!ネットユーザー:値段が高す​​ぎる。もう行っちゃった。

少し前に絶賛されたGPT-3を覚えていますか?招待されたユーザーのみがテスト・使用できるもので、史上...