Google のロボットアームはハンカチなど、柔らかいものも硬いものもつかむことができます。 ICRA 2021が承認されました

Google のロボットアームはハンカチなど、柔らかいものも硬いものもつかむことができます。 ICRA 2021が承認されました

 

現在、ロボットに関する研究は、主に特定の形状の物体を掴むためのロボットアームの設計に焦点を当てていますが、変形可能な物体を掴むことに関する研究はほとんどありません。

物体を変形する際の難しさの 1 つは、物体の内部パラメータが不明であることです。たとえば、剛体の立方体の場合、その中心に対する固定点の位置がわかれば、3 次元空間でその形状を記述するのに十分ですが、絹などの柔らかい物体の場合、布の表面上の点が固定されたままで、布の残りの部分が動くことがあります。

このため、特に遮蔽物がある場合、認識アルゴリズムでは布地の完全な「状態」を記述することが困難になります。

さらに、適切に記述された変形可能なオブジェクトであっても、そのダイナミクスは複雑です。このため、変形可能なオブジェクトに対して何らかの操作を実行した後の将来の状態を予測することは困難であり、通常、目標状態に到達するには複数ステップの計画が必要になります。

ICRA 2021 カンファレンスで、Google は、deformableeravens と呼ばれるオープンソースのシミュレーション ベンチマークをリリースし、変形可能なオブジェクトの操作に関する研究を大きく促進しました。

この論文では、ケーブル、布地、バッグなどの操作を含む合計 12 のタスクが設計されており、変形可能なオブジェクトを操作して目的の目標状態を達成するための一連のモデル アーキテクチャが含まれています。

これらのモデル アーキテクチャにより、ロボットはワイヤーを再配置して目標状態に到達したり、布地などの鋼鉄以外の物体をスムーズに成形したり、アイテムをバッグに入れたりすることもできます。

これは、ロボットがバッグを使用して他の物体を保持する必要があるという特定のタスクを組み込んだ最初のシミュレーターであり、ロボットがより複雑な相対的な空間関係を学習するための重要な課題となります。

DeformableRavens ベンチマーク データセット

Deformaleravens は、オブジェクトの再配置に関する Google のこれまでの取り組みを拡張したもので、1 次元、2 次元、3 次元の変形可能な構造をカバーする 12 のシミュレーション タスクが含まれています。各タスクは、シミュレートされた UR5 アームとピンチ把持用のシミュレートされたグリッパーで構成され、模倣学習のデータを自動的に収集するスクリプト化されたデモンストレーターとバンドルされています。このタスクでは、分布内のアイテムの開始状態をランダム化して、さまざまなオブジェクト構成に対する一般性をテストします。

UR5 は、中規模のアプリケーションに極めて高い柔軟性を提供する、軽量で適応性に優れた協働型産業用ロボットです。 UR5e は、幅広いアプリケーションにシームレスに統合できるように設計されています。 UR5e は、3 ポジション ティーチ ペンダントを備えた OEM ロボット システムとしても利用できます。

操作タスクのターゲットを指定することは、変形可能なオブジェクトの場合には特に困難です。複雑なダイナミクスと高次元の構成空間を考えると、目標は一連の剛体オブジェクトのポーズほど簡単には決定できず、「アイテムをバッグに入れる」などの複雑な相対的な空間関係を伴う場合があります。

したがって、配布スクリプトのデモンストレーションによって定義されたタスクに加えて、ベンチマークには、ターゲット イメージによって指定されたターゲット条件付きタスクも含まれています。オブジェクト制約タスクの場合、オブジェクトの特定の開始構成を、同じオブジェクトの目的の構成を示す別の画像とペアにする必要があります。この特定のケースの成功は、ロボットが現在の構成を目標画像で伝えられる構成に十分近づけることができるかどうかにかかっています。

目標条件付きトランスポーター ネットワークは、深層特徴を再配置することで視覚入力から空間変位を推測するアクション中心のモデル アーキテクチャであり、剛性オブジェクトの操作に適しています。

このアーキテクチャは、現在の環境の画像とターゲット画像を入力として受け取り、両方の画像から深層視覚特徴を計算し、要素ごとの乗算を使用して特徴を組み合わせ、シーン内の剛性オブジェクトと変形可能オブジェクトを相関させます。トランスポーター ネットワーク アーキテクチャの利点は、視覚画像の空間構造を保持し、誘導バイアスを提供し、画像ベースのターゲットをより単純な特徴マッチング問題に調整し、畳み込みネットワークを活用して学習効率を向上させることです。

目標条件付けを伴うタスクの例としては、たとえば、緑色のブロックを黄色の袋に入れるには、ロボットが一連の複数ステップのアクションを実行して黄色の袋の上部の開口部を開き、ブロックを中に入れることを可能にする空間特性を学習する必要があることが挙げられます。キューブを黄色い袋に入れると成功です。ブロックがターゲット画像の青い袋の中に配置されている場合は、そのブロックを青い袋に入れる必要があります。

結果は、目標条件付きトランスポーター ネットワークにより、テスト時に視覚的なアンカー目標位置を必要とせずに、エージェントが変形可能な構造を柔軟に指定された構成に操作できることを示しています。また、2D と 3D の両方の変形可能なボディ タスクでテストすることにより、トランスポーター ネットワークを使用して変形可能なオブジェクトを操作するという以前の研究を大幅に拡張しました。実験結果はさらに、私たちの方法が、グラウンドトゥルースのポーズと頂点の位置に基づく従来の方法よりもサンプリング効率が高いことを示しています。

たとえば、学習したポリシーは、ターゲット画像が提供され、ロボットがアイテムをどのバッグに入れるかを推測する必要がある袋詰めタスクを効果的にシミュレートできます。

この作業には、観測された故障モードの削減など、将来的なストレッチ目標がいくつかあります。たとえば、ロボットがバッグを上方に引っ張った結果、保持していた物体が落下してしまい、失敗しました。

別のケースでは、ロボットがバッグの不規則な外側の表面に商品を置いたため、商品が落ちてしまいました。将来的にアルゴリズムが改善されれば、アクションをより頻繁に実行できるようになり、ロボットがリアルタイムで反応して、起こり得る障害状況を相殺できるようになるかもしれません。

もう一つの開発分野は、インスタンスベースの制御やモデルベースの強化学習など、専門家のデモンストレーションを必要としない技術を使用して、トランスポーター ネットワークに基づく変形可能なオブジェクトの操作モデルをトレーニングすることです。

<<:  OpenAI の新しい論文が GAN を破り SOTA に到達!この圧倒的な拡散モデルは単なる仕掛けなのか、それとも本物なのか?

>>:  顔認証の時代が本当に到来しました。あなたも参加してみませんか?

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Deep Policy Gradient Algorithm は真の Policy Gradient Algorithm ですか?

深層強化学習は最近大きな成功を収めていますが、安定性の欠如や再現性の低さといった限界もあります。 M...

データマイニングにおける10の古典的なアルゴリズムの予備的調査

以下は、選考に参加した 18 個の候補アルゴリズムから選ばれた上位 10 個の古典的なアルゴリズムで...

GoogleはAIの訓練のために何億人ものアメリカ人のオンラインデータを盗んだとして集団訴訟に直面している

7月13日、新たな訴訟で、Googleがチャットボット「バード」などの人工知能(AI)製品のトレーニ...

高校生たちは皆ニューラルネットワークを勉強しており、教師である私は圧倒されています

[[356670]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

...

Think2Drive: 自動運転のための初のモデルベース RL 手法 (上海交通大学)

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

よりスマートなモバイルプラットフォームを構築するため、Ant mPaaS5.0がYunqiカンファレンスで発表されました

1 11月2日、雲旗会議において、Ant FinancialはmPaaSが正式にバージョン5.0にア...

量子コンピューティングは人工知能をどう変えるのか

量子コンピューティングと人工知能は、現代の最も破壊的なテクノロジーの 2 つです。 2 つのテクノロ...

...

デジタル変革の3つの大きな落とし穴に注意: インテルがPing An Healthcare Technologyに「エンドツーエンド」のAI機能を提供

[51CTO.comからのオリジナル記事] 現在、私たちの周りではデジタル変革が起こっています。デジ...

...

人工知能のおかげで、赤信号待ちは過去のものになるだろう

私たちは市内を運転中に、このようなことが何度も起こるのを見てきました。人々は前方の交通状況を気にせず...

人間の動作生成を再構築し、拡散モデルと検索戦略を統合した新しいパラダイム、ReMoDiffuseが登場

人間の動作生成タスクは、エンターテインメント、仮想現実、ロボット工学などの分野のニーズを満たす、リア...

がん治療のブレークスルー:AIGCの医薬品開発における役割

AIGC には、がんの治療に役立つ可能性など、驚くべき用途を含め、多くの潜在的な用途があります。 M...