ロボット導入の「秘密」:継続的な学習、知識の伝達、自律的な参加

ロボット導入の「秘密」:継続的な学習、知識の伝達、自律的な参加

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

2022年5月23日、ロボット分野における毎年恒例のトップ国際会議であるICRA 2022(IEEE International Conference on Robotics and Automation)が予定通り米国フィラデルフィアで開催されました。

今年はICRAの39年目です。 ICRA は、IEEE ロボティクスおよびオートメーション協会の主要会議であり、ロボット研究者が研究成果を発表し議論する主要な国際フォーラムです。

今年の ICRA では、Amazon の 3 人の主任ロボット研究者、Sidd Srinivasa、Tye Brady、および Philipp Michel が、現実世界で人間と対話するロボット システムを構築する際の課題について簡単に議論しました。

キャプション: 左から右へ: Amazon Robotics AI ディレクターの Sidd Srinivasa、Amazon Robotics のチーフテクノロジスト (グローバル) の Tye Brady、Amazon Scout の応用科学シニアマネージャーの Philipp MichelSidd

スリニバサ氏は世界的に有名なロボット工学の専門家であり、IEEEフェロー、ワシントン大学のボーイング特別教授でもある。また、アマゾンのロボット工学人工知能プロジェクトの責任者でもあり、アマゾンの物流センターの従業員を支援する自律型ロボットのアルゴリズムの管理、商品のピックアップや梱包ができるロボット、自律的に商品の積み下ろしや運搬ができるカート型ロボットの研究などを担当している。

Tye Brady は Amazon Robotics (Global) の主任技術者であり、MIT で航空宇宙工学の修士号を取得しています。 Philipp Michel 氏と Sidd Srinivasa 氏は、ともに CMU ロボティクス研究所の博士課程の卒業生であり、Amazon の Scout ロボット プロジェクトのシニア マネージャーです。

彼らは、ロボット導入の課題を解決するという問題について、独自の見解を述べました。 AI Technology Reviewは、原文の意味を変えずに以下のように要約しています。

Q: ロボット工学の分野でのあなたの研究では、さまざまな問題に取り組んでいます。これらの問題間の類似点は何ですか?

Sidd Srinivasa:ロボット工学研究における重要な困難は、私たちがオープンな世界に住んでいることです。私たちがこれから直面する「入力」が何であるかさえ分かりません。私たちのオペレーションセンターでは、2,000 万点以上のアイテムを扱っており、その数は毎日数百点ずつ増加しています。ほとんどの場合、当社のロボットは拾う品物が何であるかを知りませんが、慎重に拾い上げて、損傷を与えることなく素早く梱包する必要があります。

Philipp Michel: Scout にとっての難しさは、歩道で遭遇する物体と配達環境にあります。当社は、米国全土の 4 つの州に民間の配達装置を配備しています。気象条件、照明条件... ロボットが複雑な環境に適応できるように、多数の変数に対処する必要があることは最初からわかっていました。

Tye Brady:実行ロボットの開発において私たちが得た大きな利点の 1 つは、半構造化された環境で作業していたことです。私たちはロボット用の独自の交通ルールを開発することができ、環境を理解することは、私たちの科学者やエンジニアが、命令を完了するために移動、操作、分類、識別したい物体を深く理解するのに非常に役立ちます。つまり、私たちが追求するテクノロジーを現実世界で実現できるのです。

Philipp Michel:もう一つの共通点は、問題を解決するためにデータから学習することに大きく依存していることです。 Scout はミッションを遂行しながら現実世界のデータを受け取り、認識、位置特定、ナビゲーションのための機械学習ソリューションを繰り返し実行します。

Sidd Srinivasa: (データから学習して問題を解決する)という点には完全に同意します。機械学習と適応制御が超線形スケーリングの鍵になると信じています。数万台のロボットを導入する場合、それらを研究する数万人の科学者やエンジニアを雇うことはできず、超線形成長を達成するには現実世界のデータに頼る必要があります。

さらに、オープンワールドでは、いかにして「学び続ける」かを考えることも迫られると思います。機械学習モデルは、多くの場合、何らかの入力データ分布に基づいてトレーニングされますが、これはオープンワールドであるため、「共変量シフト」の問題、つまり、表示されるデータが分布と一致しないという問題に遭遇し、機械学習モデルが理由もなく自信過剰になる原因となります。

したがって、私たちが行うことの多くは、入力データの分布がトレーニングに使用された分布から逸脱したことを識別できる「ウォッチドッグ」(監視デバイス)を作成することです。次に、「重要度サンプリング」を実行して、変更されたデータを抽出し、機械学習モデルを再トレーニングします。

Philipp Michel:これは、ロボットが遭遇する可能性のある実際のデータをできるだけ早く把握し、新しいデータに対応できるソリューションを開発できるようにするために、さまざまな場所でロボットをトレーニングしたい理由の 1 つでもあります。

シッド・スリニヴァサ:それは確かに良いアイデアですね。複数のロボットを持つことの利点の 1 つは、システムが何が変わったかを認識し、自分自身を再トレーニングし、その知識を他のロボットと共有できることです。

仕分けロボットのストーリーを考えてみましょう。世界のどこかで、ロボットが新しいタイプの荷物に遭遇します。最初は、これまで見たことがなかったため、認識できずに混乱しました。そこで、新しいソリューションが生まれました。この 1 台のロボットが、新しいパッケージ タイプを世界中のすべてのロボットに伝達できるのです。そうすれば、この新しいパッケージ タイプが他の場所に現れたときに、残りのロボットがそれをどのように処理するかを知ることができます。これは「バックアップ」を持つことと同じです。ある時点で新しいデータが現れると、システムは自身を再トレーニングして情報を共有できるため、他のポイントでもそのデータが認識されます。

フィリップ・ミシェル:私たちのロボットも同様のことを行っています。ロボットがこれまで遭遇したことのない新しい障害物に遭遇した場合、これらの障害物を認識し対処できるようにモデルを調整し、新しいモデルをすべてのロボットに展開します。

私が夜眠れなくなるのは、私たちのロボットが、今後 3 年間は二度と見ることのない新しい物体に歩道で遭遇するときです。たとえば、ハロウィーンの芝生を飾るために使われるガーゴイルや、ピクニック テーブルが「ピクニック テーブル」に見えないように、その上に傘を置く人々などです。この場合、どの機械学習アルゴリズムもこれがピクニックテーブルであると認識できませんでした。

したがって、私たちの研究の一部は、特定のカテゴリのものにこだわる必要のない一般的な事柄とのバランスをどのように取るかについても研究しています。これが開いたマンホールの蓋である場合、ロボットはそれをうまく識別できなければなりません。そうでなければ、蓋は落ちてしまいます。しかし、それが単なるランダムなボックスである場合、ボックスの階層を知る必要はなく、これが回り込みたいオブジェクトであるということだけを知っていればよいのです。

Sidd Srinivasa:もう 1 つの課題は、モデルを変更すると、意図しない結果が生じる可能性があることです。変更されたモデルはロボットの認識には影響しないかもしれませんが、ロボットの「ブレーキ」の方法が変わり、2 か月後にボール ベアリングが摩耗する可能性があります。エンドツーエンドのシステムでは、システムの各部分に対する変更がシステム全体のパフォーマンスに与える影響を理解することが、今後の興味深い研究の多くになるでしょう。

Philipp Michel:私たちは、ロボット スタックのさまざまな部分を分割する必要があるかどうかについて、長い時間をかけて検討しました。それらの統合は多くの利点をもたらしますが、限界もあります。極端な例としては、カメラからモーター、そしてトルクまでの学習がありますが、これは現実世界のロボットアプリケーションでは非常に困難です。次に、従来のロボット スタックがあり、これは位置特定、認識、計画、制御にうまく分割されています。

また、時間の経過とともにスタックがどのように進化するべきか、これらの部分を近づけるとどのようなパフォーマンスの向上が得られるかについても、多くの時間をかけて検討しました。同時に、私たちは可能な限り解釈可能なシステムを望んでいます。私たちは、解釈可能性と安全性の機能の数を維持しながら、スタック全体にわたる学習コンポーネントの統合を最大限に高めることを目指しています。

Sidd Srinivasa:これは素晴らしい指摘であり、すべてを統制する 1 つのモデルが必ずしも正しいわけではないという Philipp の意見に完全に同意します。しかし、通常は、複数の応用ヘッドを持つバックボーンを共有する機械学習モデルを構築することになります。オブジェクトとは何ですか? オブジェクトをセグメント化するとは何を意味しますか?それはピッキング、積み重ね、梱包のようなものかもしれませんが、それぞれにはタスク固有のトランクに載せられた専用の頭が必要です。

Philipp Michel:私たちが考慮する要素としては、バッテリー、走行距離、温度、スペース、コンピューティングの制限などがあります。したがって、モデルを効率的に使用し、最適化し、Sidd が述べたように、さまざまなタスクにさまざまなヘッドを配置して、共有バックボーンを可能な限り活用する必要があります。

キャプション: Amazon Scout は、公共の歩道を歩行速度で移動できる自律型配達ロボットで、現在米国の 4 つの州で実地テストが行​​われています。

Q: 皆さんのプロジェクトの共通点についてお聞きした際に、頭に浮かんだのは、皆さんのロボットはすべて人間と同じ環境で作業しているということです。なぜこれが問題を複雑にするのでしょうか?

シッド・スリニヴァサ:ロボットは人間の生活に近づいてきており、私たちは人間の世界で起こる複雑な相互作用のすべてを尊重しなければなりません。歩く、運転する、タスクを実行することに加えて、複雑な社会的相互作用もあります。ロボットにとって重要なのは、第一に意識を持つこと、そして第二に関与することです。

本当に難しいですね。運転中は、他の人が何を考えているのかがわからず、その考えに基づいてどう行動するかを決めるのが難しいことがあります。推論問題だけでも難しいのに、ループを閉じるのはさらに難しいです。

ロボットや人間がチェスをプレイする場合、ルールが確立されているため、彼らが何をするかを予測するのははるかに簡単です。相手が最適であると仮定すれば、相手が最適でなくてもうまくいくでしょう。これは、一部の 2 人用ゲームでは保証されます。

しかし、現実はそうではありません。Win-Winの状況を保証するこのような協力ゲームをプレイする場合、協力者が善意を持っていたとしても、ゲーム中に正確な予測を行うことは実際には非常に難しいことがわかります。

フィリップ・ミシェル:そして、人間の世界における行動は多種多様です。ペットの中にはロボットを完全に無視するものもいれば、ロボットに向かって歩いてくるものもいます。歩行者も同様で、ロボットを無視する人もいれば、ロボットに近づいていく人もいた。特に子供は好奇心が旺盛で、非常に密接な交流をするため、私たちは子供が交流するあらゆるシナリオに安全に対処できなければなりません。この多様性が、人々が試してみたい気持ちにさせるのです。​

<<:  MITの研究者はAIを使って自動運転車が赤信号でアイドリングを回避できるように支援する

>>:  AIカメラとLiDARがスマート道路にとって重要な理由

ブログ    

推薦する

...

幾何学を利用してディープラーニングモデルのパフォーマンスを向上させることは、コンピュータービジョン研究の未来です。

[[189965]]ディープラーニングはコンピュータービジョンを変革しました。現在、ほとんどの問題...

人工知能に適したプログラミング言語はどれですか? ——人工知能におけるPythonの役割

Google の AI が囲碁の名人に勝利したことは、人工知能の突然かつ急速な進歩を測る手段であり、...

[私はジャービスです]: FaceIDの背後にあるディープラーニング視覚アルゴリズムについて語る

先週発売されたiPhoneXで私が一番惹かれたのは、かわいいウサギの耳ではなく、AppleのFace...

AI による顔を変える動画が何百万人ものユーザーを獲得。たった 1 ステップで楽しさから恐怖感まで

今朝、私の友人の輪の中に、AI による顔の変形に関する短い動画が大量に現れました。これらの短編動画の...

AIとMLに対する5つの潜在的な致命的な脅威とその解決方法

[[267669]] [51CTO.com 速訳] 人工知能(AI)と機械学習(ML)は、この時代の...

...

レッドハットのCEOがAIの取り組みとソースコードの混乱について語る

今年初めの Red Hat Summit で、Red Hat は OpenShift AI によるプ...

アルゴリズムによるレイオフによって解き放たれる「悪の花」とは?

アルゴリズムによる採用は珍しいことではありません。膨大な履歴書の審査を自動化するために AI アルゴ...

写真の中のキャラクターを動かしたり歌わせたりできます!このAIブラックテクノロジーは台無しになった

最近、動画サイトをよく見ている人は、とても不思議でワクワクするものを見たことがあるかもしれません。具...

あなたの「読書」は他の人に読まれている。清華大学の研究者はWeChatの「Look」からこれらのパターンを発見した。

WeChatの「Take a Look」アプリの最もアクティブなユーザーは実は私たちの両親であり、...

Microsoft が 8 つの Nvidia H100 GPU を搭載した Azure ND H100 v5 仮想マシンをリリース

IT Homeは11月21日、Microsoft Azure AIインフラストラクチャがアップグレー...

...

...

Omdia: 2024 年に注目すべき主要な AI トレンド

生成型 AI が人間と機械のコミュニケーション方法を変えるため、今年は人工知能にとって極めて重要な年...