地図やGPSは信頼できないが、それは問題ではない：カリフォルニア大学バークレー校のロボットが未知の環境で3キロメートル以上を移動

ほとんどのロボットの移動方法は、ほとんどの人間の移動方法とは大きく異なります。ロボットは、環境を包括的に理解し、周囲のすべてのものを完全に幾何学的に再構築し、さらに自分自身の位置と向きを正確に理解しているときに、最高のパフォーマンスを発揮します。 LiDAR、既存の地図、強力なコンピューター、さらにはモーションキャプチャシステムなど、自律型ロボットの必要性は無限です。

しかし、明らかにこれらのことはあまり拡張性がなく、もちろんそれはおそらく研究に費用がかからないだけでしょう。

これを念頭に、カリフォルニア大学バークレー校の人工知能博士課程の学生である Dhruv Shah 氏と彼の指導者 Sergey Levine 氏は、最近の論文「ViKiNG: 地理的ヒントを使用した視覚ベースのキロメートル単位のナビゲーション」で、ロボットがナビゲートするための別の方法を研究しました。彼らは、ロボットのナビゲーションから高性能で電力を大量に消費するコンポーネントを排除し、単眼カメラ、いくつかのニューラルネットワーク、基本的な GPU システム、そして非常に基本的な人間が判読できる俯瞰図の形でのいくつかの簡単なヒントだけを必要とすることを提唱しています。

このような手がかりはそれほどインパクトがあるようには思えないかもしれませんが、非常に単純なロボットが見慣れない環境を効率的かつインテリジェントに移動して遠くの目的地に到達できるようになります。

論文アドレス: https://arxiv.org/pdf/2202.11271.pdf
プロジェクトのホームページ: https://sites.google.com/view/viking-release

具体的には、学習と計画を統合し、概略的な道路地図、衛星地図、GPS 座標などの補助情報を計画ヒューリスティックとして活用できる学習ベースのアプローチを提案します。 ViKiNG には、ロボットの現在のカメラベースの観測と潜在的なサブゴールを調べて、サブゴールに到達するのがどれだけ簡単かを推測するローカルトラバーサビリティモデルが組み込まれています。

さらに、ViKiNG には、トップダウンビューを調べて、さまざまなサブゴールから目的地までの距離を推定するヒューリスティックモデルが含まれています。 ViKiNG は明示的なジオメトリ再構築を実行せず、環境のトポロジ表現のみを活用します。

ViKiNG トレーニングデータセットでは 80 メートルを超える軌道を見たことがないにもかかわらず、これまで見たことのない環境で最大 3 キロメートル離れたターゲットまで移動し、画像ベースの学習コントローラーと目標指向ヒューリスティックを使用して複雑な動作を示すことができます。 ViKiNG は、基盤となるコントローラが最終的に独自の画像観測に基づいて決定を下すのに対し、地図は計画のためのヒューリスティックとしてのみ機能するため、信頼性の低い地図や GPS に対しても非常に堅牢です。

ViKiNG ロボットのナビゲーションは次のとおりです。

ViKiNGについて

その小さなロボットに見覚えがあるとしたら、それは数年前にレバインの生徒であるグレッグ・カーンから紹介されたからです。当時、このロボットは BADGR と名付けられ、その特別なスキルは、単純な画像と人生経験、あるいはロボットにとっての人生経験に基づいて、新しい環境をナビゲートすることを学習することでした。

ViKiNGの前身はBADGRでした。 BADGR は現在、ViKiNG (Vision-Based Kilometer-Level Navigation with Geographic Hints) に進化しました。 BADGR は狭い範囲を自由に移動できますが、その後継機である ViKiNG は長距離を移動してターゲットを見つけるように設計されており、実用化に向けた重要な一歩となります。

ナビゲーションとは、非常に広い意味では、自分がどこにいるのか、どこに行きたいのか、そしてどうやってそこに行きたいのかを理解することです。ロボットにとって、これは長期的な目標となります。特定の経路を数メートル維持するなど、一連の短期目標を達成することで、遠方の GPS 座標に到達できる場合もあります。十分な短期目標を達成すれば、長期目標も達成できるでしょう。しかし、ある種の中期目標もあり、これは最善の道筋は何かというより複雑で抽象的な決定を伴うため、特に難しいものです。言い換えれば、長期目標を達成するというミッションに最も適した短期目標の組み合わせは何かということです。

方法の概要。

ここでViKiNGが役に立ちます。衛星地図や道路地図を使用することで、ロボットは短期的な目標についてより情報に基づいた選択を行うことができ、目標を達成する可能性が大幅に高まります。道路地図があっても、ViKiNG は道路に限定されません。ViKiNG が持っている情報は道路に関する情報なので、道路に適している可能性があります。道路やその他の地形を含む衛星画像は、ロボットにさらに多くの情報を提供します。マップは指示ではなくヒントであるため、ViKiNG は予期していなかった障害物に適応することができます。もちろん、地図ではロボットに小規模な場所（短期的な目標が通過可能かどうか）を正確に伝えることはできませんが、ViKiNG は単眼カメラでそれを自力で処理できます。

ViKiNG のパフォーマンスは素晴らしいです。写真でわかるように、青い線は ViKiNG のナビゲーションパスであり、一般的にはターゲットまでの最適なルートです。研究者が ViKiNG に周囲の環境の地図を提供しなかったことは特筆に値します。ViKiNG は基本的な GPS を通じてこのタスクを完了します。さらに、写真、ターゲットの GPS 座標、単眼カメラ、地図も提供する必要があります。上の画像は、ViKiNG が自律的に移動できる短い経路をロボットが横断している様子を示しています。

論文の責任著者であり、カリフォルニア大学バークレー校の助教授で強化学習の専門家であるセルゲイ・レヴィン氏は、「この研究はプロセス全体が非常に単純なので興味深い」と述べた。大規模なソフトウェアスタックと相互作用するコンポーネントを使用する自動運転システムとは異なり、このシステムでは 2 つのニューラルネットワーク (1 つは一人称画像の処理用、もう 1 つはマップ画像の処理用) と計画アルゴリズムを使用して、ロボットの歩行経路を決定します。

今日のロボットナビゲーションシステムは大規模に展開するには複雑すぎるため、この研究は重要です。シンプルな学習ベースのシステムが、複雑な手作業で設計された方法に匹敵するか、それを上回る性能を発揮できれば、将来の機械ナビゲーションアプリケーションへの道が開かれる可能性があります。

<<: 人工知能が製造業のデジタル変革を推進

>>: たった 1 回のトレーニングで 4K から 16K まで対応できる、初のシングルサンプルの超高解像度画像合成フレームワークが登場