カリフォルニア大学バークレー校と他の研究チームは、岩の多い海岸や草原を横断しながら、変化する環境にリアルタイムで素早く適応する新しいロボット動作アルゴリズムを開発している。

脚付きロボットといえば、Synced はこれまでにも、走ったり、ジャンプしたり、縄跳びをしたり、障害物を乗り越えたりできる Spot ロボット犬、カメラや LIDAR なしで感覚で「オフロードを走行」できる ANYmal ロボット、宙返りができる MIT ロボットなど、かなりの数のロボットを紹介してきました。

これらの脚付きロボットは外部環境に適応する一定の能力を持っていますが、それだけでは十分ではありません。現実世界で脚付きロボットをうまく展開するには、多様な地形、さまざまな重量の荷物、さまざまな程度の摩耗など、目に見えない変化するシナリオにリアルタイムで適応する必要があります。

最近、カリフォルニア大学バークレー校、カーネギーメロン大学、FAIR の研究者らは、困難で未知の地形や環境への脚付きロボットのリアルタイムかつインテリジェントな適応において大きな進歩を遂げ、Rapid Motor Adaptation (RMA) アルゴリズムを導入しました。このアルゴリズムは、強化学習を使用してトレーニングされた基本ポリシーと、教師あり学習を使用してトレーニングされた適応モジュールの 2 つのサブポリシーで構成されており、どちらも完全にシミュレーションで学習されます。 RMA アルゴリズムのサポートにより、四足歩行ロボットはすべてのインテリジェントエージェントに共通する環境要因に適応する能力を備えています。

論文アドレス: https://ashish-kmr.github.io/rma-legged-robots/rma-locomotion-final.pdf
プロジェクトのホームページ: https://ashish-kmr.github.io/rma-legged-robots/

これまでの四足歩行ロボットは、適応するように設計された環境に合わせて完全に手作業でコーディングされていたか、手作業でのコーディングと学習技術を組み合わせて環境をナビゲートするように教えられていました。これらとは異なり、RMA は、世界を探索し、相互作用することで、脚付きロボットがゼロから環境に適応できるようにする、初めての完全な学習ベースのシステムです。

具体的には、RMA は、ドメイン知識 (ベンチマーク軌道や事前定義された足軌道ジェネレーターなど) を使用せずに完全にシミュレーションでトレーニングされ、微調整なしで Unitree の A1 ロボットに展開できます。

研究者らは、瓦礫、泥、凹凸のある芝生、コンクリート、石畳、石段、砂浜など、さまざまな地形ジェネレーターで RMA をトレーニングしました。結果は、RMA がさまざまな現実世界の環境とシミュレーション実験において他の脚型ロボットよりも優れたパフォーマンスを達成することを示しています。

岩の多い海岸をゆっくりと散歩します。

荒れた草の上を歩く:

油のついたプラスチックの上でも滑りません。

さらに、RMA の適応モジュールは非常に重要です。テストの結果、適応モジュールを備えた四足ロボットは 8 kg の重量を運ぶことができるが、適応モジュールのないロボットは運ぶことができないことがわかった。

適応モジュールを持たない四足歩行ロボットはスポンジボードの上を歩くことができません。

RMA 対応の四足歩行ロボットは、さまざまな重量を運ぶことができるだけでなく、予想される摩耗や、現実世界で発生する可能性のあるその他の予測できない変化にも適応できなければなりません。 RMA 対応の四足歩行ロボットの能力は遭遇する環境に完全に基づいているため、プログラマーが考慮していなかった状況にも適応できます。

複雑で変化する環境に適応できるこの四足歩行ロボットについて、ネットユーザーらは「テレビドラマ『ブラック・ミラー』に出てくるロボット犬しか思い浮かばない…」とコメントした。

ロボットはどうやってそれを実行するのでしょうか?

手作業でコーディングされた改良により、制御された環境でのロボットのパフォーマンスを向上させることができますが、ロボットを現実世界の変化に真に適応させる唯一の方法は、人間が学習するのと同じように、環境に真に適応するようにロボットに教えることです。

ロボットに変化する世界に適応する能力を与えるには、研究者は何百万回もの繰り返し実験を通じてロボットに教える必要があるが、これを行う最良の方法は、学習プロセス中にロボットが損傷したり摩耗したりする可能性のある現実世界ではなく、シミュレーション環境である。

RMA は、エンドツーエンドの学習を全体にわたって使用し、事前定義された脚の動きやその他の制御プリミティブに依存せずに、関節の位置を直接出力します。

しかし、これらのロボットはシミュレートされた環境でスキルを学習するため、実際の環境に導入すると多くの課題が生じます。シミュレートされた環境では、ロボットの物理的構造とモデルは、小さいながらも重要な点で異なることがよくあります。たとえば、制御信号を送信してからアクチュエータが動くまでにわずかな遅延が生じたり、足の摩耗により以前よりも滑りやすくなったり、関節の角度が 100 分の 1 度ずれたりすることがあります。

物理世界自体には、自由空間で移動する剛体をモデル化したシミュレーターでは正確に捉えることができない複雑さがあります。マットレスや泥溜まりなどの表面は接触すると変形します。シミュレーションではかなり標準化された環境は、特に屋内と屋外の両方の空間に存在する可能性のある膨大な数の地形を考慮すると、現実の世界でははるかに多様で複雑です。もちろん、現実世界の要因は決して静的なものではないので、脚付きロボットが習得できる現実世界の環境は大きく異なる可能性があります。

現実世界でのトレーニングをシミュレートして展開する

RMA は、基本戦略と適応モジュールという 2 つの異なるサブシステムを使用してこれらの課題を克服します。

基本ポリシーは、さまざまな環境からの情報 (摩擦の量、ペイロードの重量と形状など) を使用して、RL シミュレーションで学習されます。研究者らは、ロボットがさまざまな条件下で正しい制御を学習できるように、滑りやすい表面や斜面の勾配をシミュレートするさまざまな変数を設定し、これらの変数に関する情報を「外部変数」としてエンコードしました。

環境パラメータの範囲。

もちろん、この基本戦略だけでロボットを展開することはできません。なぜなら、現実世界でロボットがどのような外部要因に遭遇するかは分からないからです。そのため、研究者たちは、ロボットが周囲について独自に学習した情報、つまり最近の動きに頼っています。関節の実際の動きとコマンドから予想される動きの差は、これらの外部特性に依存することが分かっています。たとえば、足元に突然障害物がぶつかるとロボットは停止しますが、周囲の地面の高さに関する情報も表示されます。同様に、柔らかい表面では、ロボットの足は沈むにつれてさらに伸びますが、硬い表面ではロボットはすぐに停止します。

シミュレーションでロボットが遭遇する実際の外部要因がわかっているので、教師あり学習を使用して適応モジュールをトレーニングし、ロボットの最近の履歴状態から現在の動作を予測することができます。

新しい状況への適応はほぼ瞬時に行われます

この基本戦略と適応モジュールの組み合わせにより、ロボットはほんの一瞬で新しい状況に適応できます。

比較すると、従来の RL ベースの方法では、ロボットが新しい条件に適応できるようにトレーニングするのに数分かかり、場合によっては人間の介入が必要だったため、これらのロボットは現実世界では実用的ではありませんでした。

RMA 対応ロボットが展開されると、基本ポリシーと適応モジュールが非同期で連携して動作し (基本ポリシーは高速で実行され、適応モジュールは低速で実行されます)、ロボットは微調整なしで堅牢かつ適応的な動作を実行できるようになります。 2 つの戦略を非同期かつ大幅に異なる周波数で実行すると、小型のオンボードコンピューティングを使用した RMA の展開も容易になります。小さな基本ポリシーではロボットを高頻度で歩行させ続けることができ、大きな適応モジュールでは外部ベクトルを低頻度で送信できます。 2 つのポリシーを非同期で実行すると、予測できないハードウェアの速度とタイミングに対する堅牢性も向上します。

実験では、RMA 対応ロボットがいくつかの困難な環境をうまくナビゲートし、RMA を導入していないロボットよりも優れており、Unitree ロボットと同等かそれ以上であることが示されています。シミュレーションの調整や現実世界での微調整を必要とせず、同じ戦略を使用してすべての現実世界での展開を実行します。

すべてのテストを通じて、ロボットは砂、土、ハイキングコース、背の高い草、土の山を一度も故障することなく進むことができました。試験の 70% で、ロボットはハイキングコースに沿って階段を下りることに成功しました。訓練中に不安定な地面や沈みかけた地面、邪魔になる植生や段差を見たことがなかったにもかかわらず、試験の80パーセントでセメントの山や小石の山を乗り越えることに成功した。また、機体重量の100%に相当する12kgの積載物を積載して移動する場合も、高い成功率で高度を維持します。

RMA はロボット工学における画期的な進歩であり、新しい効率的で適応性の高い歩行ロボットを現実世界に導入できるようになる可能性があります。この研究はまた、AI の進歩がロボット工学の分野をどのように変革し、ロボットの能力を高め、その改善を新しい条件や用途に合わせて拡張可能にするかについても示しています。学習のみに依存する方法は、より安価で精度の低いハードウェアで動作する可能性を秘めており、将来のロボットのコストを大幅に削減できるでしょう。効率性の向上とコストの削減により、RMA 対応ロボットは、特に人間が行うには危険すぎる、または非現実的なエリアでの捜索救助活動のアシスタントとして機能するなど、将来さまざまな役割で使用できるようになる可能性があります。

RMA は、ロボット工学を超えて、動的なデータを活用して特定のアルゴリズムが動作しているコンテキストを理解することで、多くの困難な課題にリアルタイムで適応できる AI システムを構築する方法を示しています。

<<: AIが開発ツールを進化させる方法

>>: データが新たな石油なら、AIは新たな核兵器だ