CMU と ETH が画期的な成果を達成: 敏捷性が最大限に高められたロボット犬は、スピードと安全性を兼ね備え、超高速で障害物を乗り越えることができます。

高速ロボット動作の分野では、速度と安全性の両立が常に大きな課題となっています。しかし今、カーネギーメロン大学（CMU）とスイス連邦工科大学チューリッヒ校（ETH）の研究チームが画期的な成果を出した。彼らが開発した新しい四足歩行ロボットのアルゴリズムは、複雑な環境でも高速で移動できるだけでなく、障害物を巧みに回避することができ、まさに「敏捷性と安全性」を実現しています。

論文アドレス: https://arxiv.org/pdf/2401.17583.pdf

ABS のサポートにより、ロボット犬はさまざまなシナリオで驚異的な高速障害物回避能力を発揮しました。

障害物だらけの狭い廊下：

散らかった室内シーン:

芝生でも屋外でも、静的な障害物でも動的な障害物でも、ロボット犬は落ち着いて対処できます。

ベビーカーに遭遇すると、ロボット犬は機敏にそれを回避します。

警告標識、箱、椅子は問題ありません。

予期せぬマットや人間の足を回避することも簡単です。

ABS 画期的テクノロジー:

RL+ 学習モデルフリーの Reach-Avoid 値

ABS は、「アジャイルポリシー」と「リカバリポリシー」を含む 2 つのポリシー設定を採用しています。敏捷性戦略により、ロボットは障害物のある環境を素早く移動できます。一方、回復戦略は、到達回避値推定によって潜在的な危険（突然現れるベビーカーなど）が検出されると介入して、ロボットの安全を確保します。

イノベーション 1: アジャイルポリシーをトレーニングするには?

敏捷性戦略の革新的な点は、単に速度の指示を追跡するのではなく、位置追跡を使用してロボットの敏捷性を最大化する点です。この戦略は、ロボットが衝突することなく指定された目標に到達するための感覚運動スキルを開発するように訓練します。ベース上での高速化という報酬条件を追求することで、ロボットは衝突を回避しながら最大限の敏捷性を達成することを自然に学習します。この方法は、複雑な環境における従来の速度追跡戦略の潜在的な保守的な制限を克服し、障害物環境でのロボットの速度と安全性を効果的に向上させます。 Agile Policyは実機テストで最高速度3.1m/sを達成

イノベーション 2: 学習ポリシー条件付き到達回避価値

Reach-Avoid (RA) 値学習の革新性は、従来のモデルベースの到達可能性分析方法とは異なり、モデルフリーの強化学習戦略に適したモデルフリーの学習アプローチを採用していることです。このアプローチでは、グローバル RA 値を学習するのではなく、特定の戦略に依存させるため、アジャイル戦略の失敗をより適切に予測できます。観察セットを削減することで、RA バリューネットワークはセキュリティリスクを効果的に要約および予測できます。 RA 値は回復戦略を導くために使用され、ロボットが衝突を回避するために動きを最適化するのに役立ち、安全性を確保しながら敏捷性を向上させるという目標を達成します。

下の図は、特定の障害物セットに対して学習された RA (到達防御) 値を示しています。ロボットの速度が変化すると、RA 値の分布状況もそれに応じて変化します。 RA 値の符号は、アジャイル戦略の安全性を合理的に示します。つまり、このグラフは、ロボットが異なる速度で特定の障害物に直面した場合の安全リスクの度合いを、異なる RA 値を通じて示しています。 RA 値の高低の変化は、さまざまな状態でアジャイル戦略を実行するときにロボットが遭遇する可能性のある安全上のリスクを反映しています。

イノベーション3: 到達回避値と回復戦略でロボットを救う

回復戦略の革新的な点は、バックアップ保護戦略として、四足ロボットが直線速度と角速度のコマンドを迅速に追跡できることです。敏捷性ポリシーとは異なり、回復ポリシーの観測空間は、線形速度コマンドと角速度コマンドの追跡に重点を置いており、外部のセンサー情報は必要ありません。回復戦略のミッション報酬は、直線速度の追跡、角速度の追跡、生存の維持、および敏捷性戦略へのスムーズな切り替えを可能にする姿勢の維持に重点を置いています。このポリシーもシミュレーションでトレーニングされますが、回復ポリシーをトリガーする可能性のある状態により適合するように、特定のドメインのランダム化とカリキュラムが使用されます。このアプローチにより、四足歩行ロボットは高速移動中に起こり得る障害に迅速に対応できるようになります。

下の図は、2 つの特定の状況 (I と II) で回復戦略がトリガーされた場合の RA (リーチ防御) 値のランドスケープを視覚化したものです。これらの視覚化は、vx (x 軸に沿った速度) 対 ωz (z 軸周りの角速度) 平面、および vx 対 vy (y 軸に沿った速度) 平面で行われます。図は、探索前の初期回転状態（つまり、ロボットベースの現在の回転状態）と、探索を通じて得られたコマンドを示しています。簡単に言えば、これらのグラフは、特定の条件下での回復戦略検索を通じて得られた最適な動作指示と、これらの指示が RA 値にどのように影響するかを示しており、さまざまな動作状態におけるロボットの安全性を反映しています。

堅牢性テスト

著者は、ABS フレームワークの堅牢性を「12kg の負荷/バスケットボールの衝撃/キック/雪」の 4 つのシナリオでテストしましたが、ロボット犬はこれらすべてを簡単に処理しました。

研究チーム

この研究はCMUとETHの研究チームによって共同で実施された。チームメンバーには、Tairan He、Chong Zhang、Wenli Xiao、Guanqi He、Changliu Liu、Guanya Shiが含まれます。彼らの協力により、ロボット工学の分野で大きな進歩が達成されただけでなく、四足歩行ロボットの新たな応用可能性も開拓されました。この技術の成功は、高速移動と安全な障害物回避の分野における四足歩行ロボットの大きな可能性を証明しています。将来的には、この高速かつ安全な四足歩行ロボットが、捜索救助、探査、さらには家庭サービスにおいて重要な役割を果たすことが期待されています。

<<: LLM に代わる 2 億パラメータのタイミングモデル? Googleの画期的な研究は「初心者のミス」と批判される

>>: レア！ Apple のオープンソース写真編集ツール MGIE が iPhone に登場？