地図やGPSは信頼できないが、それは問題ではない:カリフォルニア大学バークレー校のロボットが未知の環境で3キロメートル以上を移動

地図やGPSは信頼できないが、それは問題ではない:カリフォルニア大学バークレー校のロボットが未知の環境で3キロメートル以上を移動

ほとんどのロボットの移動方法は、ほとんどの人間の移動方法とは大きく異なります。ロボットは、環境を包括的に理解し、周囲のすべてのものを完全に幾何学的に再構築し、さらに自分自身の位置と向きを正確に理解しているときに、最高のパフォーマンスを発揮します。 LiDAR、既存の地図、強力なコンピューター、さらにはモーション キャプチャ システムなど、自律型ロボットの必要性は無限です。

しかし、明らかにこれらのことはあまり拡張性がなく、もちろんそれはおそらく研究に費用がかからないだけでしょう。

これを念頭に、カリフォルニア大学バークレー校の人工知能博士課程の学生である Dhruv Shah 氏と彼の指導者 Sergey Levine 氏は、最近の論文「ViKiNG: 地理的ヒントを使用した視覚ベースのキロメートル単位のナビゲーション」で、ロボットがナビゲートするための別の方法を研究しました。彼らは、ロボットのナビゲーションから高性能で電力を大量に消費するコンポーネントを排除し、単眼カメラ、いくつかのニューラル ネットワーク、基本的な GPU システム、そして非常に基本的な人間が判読できる俯瞰図の形でのいくつかの簡単なヒントだけを必要とすることを提唱しています。

このような手がかりはそれほどインパクトがあるようには思えないかもしれませんが、非常に単純なロボットが見慣れない環境を効率的かつインテリジェントに移動して遠くの目的地に到達できるようになります。

  • 論文アドレス: https://arxiv.org/pdf/2202.11271.pdf
  • プロジェクトのホームページ: https://sites.google.com/view/viking-release

具体的には、学習と計画を統合し、概略的な道路地図、衛星地図、GPS 座標などの補助情報を計画ヒューリスティックとして活用できる学習ベースのアプローチを提案します。 ViKiNG には、ロボットの現在のカメラベースの観測と潜在的なサブゴールを調べて、サブゴールに到達するのがどれだけ簡単かを推測するローカル トラバーサビリティ モデルが組み込まれています。

さらに、ViKiNG には、トップダウンビューを調べて、さまざまなサブゴールから目的地までの距離を推定するヒューリスティック モデルが含まれています。 ViKiNG は明示的なジオメトリ再構築を実行せず、環境のトポロジ表現のみを活用します。

ViKiNG トレーニング データセットでは 80 メートルを超える軌道を見たことがないにもかかわらず、これまで見たことのない環境で最大 3 キロメートル離れたターゲットまで移動し、画像ベースの学習コントローラーと目標指向ヒューリスティックを使用して複雑な動作を示すことができます。 ViKiNG は、基盤となるコントローラが最終的に独自の画像観測に基づいて決定を下すのに対し、地図は計画のためのヒューリスティックとしてのみ機能するため、信頼性の低い地図や GPS に対しても非常に堅牢です。

ViKiNG ロボットのナビゲーションは次のとおりです。

ViKiNGについて

その小さなロボットに見覚えがあるとしたら、それは数年前にレバインの生徒であるグレッグ・カーンから紹介されたからです。当時、このロボットは BADGR と名付けられ、その特別なスキルは、単純な画像と人生経験、あるいはロボットにとっての人生経験に基づいて、新しい環境をナビゲートすることを学習することでした。

ViKiNGの前身はBADGRでした。 BADGR は現在、ViKiNG (Vision-Based Kilometer-Level Navigation with Geographic Hints) に進化しました。 BADGR は狭い範囲を自由に移動できますが、その後継機である ViKiNG は長距離を移動してターゲットを見つけるように設計されており、実用化に向けた重要な一歩となります。

ナビゲーションとは、非常に広い意味では、自分がどこにいるのか、どこに行きたいのか、そしてどうやってそこに行きたいのかを理解することです。ロボットにとって、これは長期的な目標となります。特定の経路を数メートル維持するなど、一連の短期目標を達成することで、遠方の GPS 座標に到達できる場合もあります。十分な短期目標を達成すれば、長期目標も達成できるでしょう。しかし、ある種の中期目標もあり、これは最善の道筋は何かというより複雑で抽象的な決定を伴うため、特に難しいものです。言い換えれば、長期目標を達成するというミッションに最も適した短期目標の組み合わせは何かということです。

方法の概要。

ここでViKiNGが役に立ちます。衛星地図や道路地図を使用することで、ロボットは短期的な目標についてより情報に基づいた選択を行うことができ、目標を達成する可能性が大幅に高まります。道路地図があっても、ViKiNG は道路に限定されません。ViKiNG が持っている情報は道路に関する情報なので、道路に適している可能性があります。道路やその他の地形を含む衛星画像は、ロボットにさらに多くの情報を提供します。マップは指示ではなくヒントであるため、ViKiNG は予期していなかった障害物に適応することができます。もちろん、地図ではロボットに小規模な場所(短期的な目標が通過可能かどうか)を正確に伝えることはできませんが、ViKiNG は単眼カメラでそれを自力で処理できます。

ViKiNG のパフォーマンスは素晴らしいです。写真でわかるように、青い線は ViKiNG のナビゲーション パスであり、一般的にはターゲットまでの最適なルートです。研究者が ViKiNG に周囲の環境の地図を提供しなかったことは特筆に値します。ViKiNG は基本的な GPS を通じてこのタスクを完了します。さらに、写真、ターゲットの GPS 座標、単眼カメラ、地図も提供する必要があります。上の画像は、ViKiNG が自律的に移動できる短い経路をロボットが横断している様子を示しています。

論文の責任著者であり、カリフォルニア大学バークレー校の助教授で強化学習の専門家であるセルゲイ・レヴィン氏は、「この研究はプロセス全体が非常に単純なので興味深い」と述べた。大規模なソフトウェア スタックと相互作用するコンポーネントを使用する自動運転システムとは異なり、このシステムでは 2 つのニューラル ネットワーク (1 つは一人称画像の処理用、もう 1 つはマップ画像の処理用) と計画アルゴリズムを使用して、ロボットの歩行経路を決定します。

今日のロボットナビゲーションシステムは大規模に展開するには複雑すぎるため、この研究は重要です。シンプルな学習ベースのシステムが、複雑な手作業で設計された方法に匹敵するか、それを上回る性能を発揮できれば、将来の機械ナビゲーション アプリケーションへの道が開かれる可能性があります。

<<:  人工知能が製造業のデジタル変革を推進

>>:  たった 1 回のトレーニングで 4K から 16K まで対応できる、初のシングルサンプルの超高解像度画像合成フレームワークが登場

ブログ    
ブログ    
ブログ    

推薦する

優れたオープンソース音声認識エンジン13選

自動音声認識 (ASR) は、人間とコンピュータの相互作用において重要な役割を果たし、転写、翻訳、デ...

...

世界はとても広い。AIがあなたと一緒に世界を旅します

[オリジナル記事は51CTO.comより] 私の周りには、「世界は広いから、外に出て旅をしたい」と言...

快手八卦についての噂: TensorFlow と PyTorch の並列ボトルネックを打破する分散トレーニング フレームワーク

最近、KuaishouとETH Zurichはオープンソースの分散トレーニングフレームワークBagu...

IDC、2021年の中国の人工知能市場に関する10の予測を発表

インターナショナル・データ・コーポレーション(IDC)は、「IDC FutureScape:世界の人...

DiDiのグローバルDi-Techアルゴリズムコンテストが終了し、中国のプレイヤーが10万ドルの優勝賞金を獲得した。

7月20日、滴滴出行の第一回グローバルDi-Techアルゴリズムコンテストが本日正式に終了しました...

Amap、ADAS警告ナビゲーション機能を発表:視覚AI技術を使用して車両と歩行者の衝突をインテリジェントに警告

11月18日、高徳地図の新バージョンは革新的なADAS警告ナビゲーション機能をリリースしました。視覚...

香港大学のチームがエンタングルメントエントロピーを測定する新しいアルゴリズムを開発、量子材料の実用化に一歩近づく

量子材料は人類の進歩を促進する上で重要な役割を果たします。科学技術分野では、特殊な特性を持つ新たな量...

コードで機械の心を構築するまで、どれくらい時間がかかるのでしょうか?

[[242009]]この記事の著者は、Microsoft Internet Engineering...

特大サイズのStable Diffusionが無料で付いてきます!文勝図の最強オープンモデル、プロンプトワードもシンプルに

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

LangChain と Redis が協力して何かを実現しています!財務文書分析の精度を向上させるツールを作成する

著者 | タニスタ編纂者:Xing Xuan制作:51CTO テクノロジースタック(WeChat I...

あなたの写真を「秘密裏に」使用した顔認識システムはいくつありますか?ツールを使って確認する時が来た

テクノロジー企業が「個人のプライバシーを侵害する」顔認識システムを開発する際、彼らはあなたが予想して...

自動運転にはバブルが必要

業界に「金儲けの見込み」があれば、必然的に「混乱」が起こります。 10年前はスマートフォンでしたが、...

AIが世界を侵略する中、プログラマーは2040年になってもコードを書き続けることができるでしょうか?

アルファ囲碁が中国の囲碁の天才柯潔に3連勝した後、ロボット脅威論がますます広まりました。電話接客、デ...

このレーシングAIはもはや短期的な楽しみを求めるのではなく、長期的な戦略を考慮することを学んだ。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...