ディープラーニングがロボットの変形可能な物体の取り扱いにどのように役立つか

翻訳者 | 李睿

校正：孫淑娟

人間にとって、変形可能な物体を処理することは、硬い物体を処理することよりそれほど難しくありません。人々は自然に、それらを形作り、折り、さまざまな方法で操作することを学び、それでもそれらを認識できるようになります。

しかし、変形可能な物体を操作することは、ロボット工学や人工知能システムにとって大きな課題です。たとえば、ロボットは生地をピザの皮に成形するために一連の手順を実行する必要があります。生地の形状の変化を記録して追跡する必要があり、同時に作業の各ステップで適切なツールを選択する必要があります。これらは、より予測可能な状態を持つ剛性オブジェクトを扱う場合により堅牢な現在の AI システムにとって、困難なタスクです。

現在、MIT、カーネギーメロン大学、カリフォルニア大学サンディエゴ校の研究者らが開発した新しいディープラーニング技術により、変形可能な物体を扱う際のロボットシステムの安定性が向上することが期待されています。 DiffSkill と呼ばれるこの技術は、ディープニューラルネットワークを使用して単純なスキルを学習し、計画モジュールを使用してそれらのスキルを組み合わせて、複数の手順とツールを必要とするタスクを解決します。

強化学習とディープラーニングによる変形可能なオブジェクトの処理

AI システムがオブジェクトを処理する場合、その状態を検出して定義し、将来どのようになるかを予測できる必要があります。剛体オブジェクトの場合、これはほぼ解決された問題です。適切なトレーニング例のセットがあれば、ディープニューラルネットワークはさまざまな角度から剛体オブジェクトを検出できるようになります。変形可能なオブジェクトが関係する場合、複数の状態空間はさらに複雑になります。

「剛体の場合、その状態を XYZ 座標を表す 3 つの数値と方向を表す 3 つの数値の計 6 つの数値で記述できます」と、カーネギーメロン大学の博士課程の学生で DiffSkill 論文の主執筆者であるシンユー・リン氏は述べた。

しかし、生地や布地などの変形可能な物体は自由度が無限にあるため、その状態を正確に記述することがより困難になります。さらに、剛体よりも数学的にモデル化するのが困難な方法で変形します。 ”

微分可能な物理シミュレータの開発により、変形可能なオブジェクトの操作タスクを解決するために勾配ベースの方法を適用できるようになりました。これは、純粋な試行錯誤のやり取りを通じて環境とオブジェクトのダイナミクスを学習しようとする従来の強化学習方法とは異なります。

DiffSkill は、2021 年の ICLR カンファレンスで発表された微分可能な物理シミュレーターである PlasticineLab に触発されています。 PlasticineLab は、微分可能なシミュレーターが短期的なタスクに役立つことを示しています。

PlasticineLab は、微分可能な物理学に基づいた変形可能なオブジェクトのシミュレーターです。勾配ベースのモデルのトレーニングに適しています

しかし、微分可能シミュレーターは、複数のステップとさまざまなツールの使用を必要とする長期的な問題に依然として取り組んでいます。微分可能シミュレータに基づく AI システムでは、環境の完全なシミュレートされた状態と関連する物理パラメータに関する知識も必要です。これは、エージェントが通常、視覚と深度感覚データ (RGB-D) を通じて世界を認識する現実世界のアプリケーションでは特に制限となります。

「私たちは、タスクを完了するために必要な手順をスキルとして抽出し、スキルに関する抽象的な概念を学習して、それらを結び付けてより複雑なタスクを解決できるかどうかを尋ねることから始めました」とリン氏は語った。

DiffSkill は、AI エージェントが微分可能な物理モデルを使用してスキル抽象化を学習し、それらを組み合わせて複雑な操作タスクを完了するフレームワークです。

彼のこれまでの研究は、強化学習を使用して布、ロープ、液体などの変形可能な物体を操作することに重点を置いていました。 DiffSkill の場合、彼は生地の操作を選択しました。これは、それに伴う課題があったためです。

「生地の扱いはロボットのグリッパーでは簡単にはできず、さまざまなツールを順番に使用する必要があるため特に興味深い。これは人間が得意としているが、ロボットが得意とすることはあまりない」と彼は語った。

トレーニング後、DiffSkill は RGB-D 入力のみを使用して、一連の生地操作タスクを正常に完了できます。

ニューラルネットワークで抽象的なスキルを学ぶ

微分可能な物理シミュレータから得られた初期状態とパラメータから目標状態を予測するための DiffSkill トレーニング済みニューラルネットワークの実現可能性

DiffSkill は、ニューラルネットワークを使用して個々のスキルを学習する「ニューラルスキルアブストラクター」と、長期的なタスクを解決するための「プランナー」という 2 つの主要コンポーネントで構成されています。

DiffSkill は、微分可能な物理シミュレータを使用して、スキル抽象化子のトレーニング例を生成します。これらの例は、麺棒を使って生地を広げたり、ヘラを使って生地を動かしたりするなど、1 つのツールを使用して短期的な目標を達成する方法を示しています。

例は、RGB-D ビデオの形式でスキル抽象化担当者に提示されます。画像観察が与えられた場合、スキル抽象化機能は、目的の目標が実現可能かどうかを予測する必要があります。モデルは、予測を物理シミュレータからの実際の結果と比較することで、パラメータを学習して調整します。

ロボットが生地などの変形可能な物体を操作するには、さまざまなツールの使用に関する長期的な推論が必要です。 DiffSkill アプローチは、微分可能なシミュレーターを活用して、これらの困難なタスクのスキルを学習し、組み合わせます。

一方、DiffSkill は変分オートエンコーダ (VAE) をトレーニングして、物理シミュレータによって生成された例の潜在空間表現を学習します。変分オートエンコーダ (VAE) は重要な特徴を保持し、タスクに関係のない情報を破棄します。変分オートエンコーダー (VAE) は、高次元画像空間を潜在空間に変換することにより、DiffSkill がより長い期間にわたって計画を立て、感覚データを観察して結果を予測できるようにする上で重要な役割を果たします。

変分オートエンコーダ (VAE) をトレーニングする際の重要な課題の 1 つは、VAE が適切な機能を学習し、現実世界に一般化できるようにすることです。現実世界では、視覚データの構成は物理シミュレータによって生成されるものとは異なります。たとえば、麺棒やまな板の色はタスクとは関係ありませんが、麺棒の位置と角度、生地の位置はタスクに関係します。

現在、研究者らは「ドメインランダム化」と呼ばれる手法を使用している。これは、ツールの位置や向きなどの重要な特徴を保持しながら、背景や照明などのトレーニング環境の無関係な属性をランダム化するものである。これにより、変分オートエンコーダ (VAE) のトレーニングが現実世界に適用されたときに安定します。

「シミュレーションと現実世界の間のあらゆる可能性のある差異（sim2real ギャップと呼ばれる）をカバーする必要があるため、これを実現するのは簡単ではありません」とリン氏は言います。「より良いアプローチは、シーンの表現として 3D ポイントクラウドを使用することです。これにより、シミュレーションから現実世界への転送が容易になります。実際、私たちはポイントクラウドを入力として使用する後続プロジェクトを開発中です。」

変形可能なオブジェクトを使用した長期タスクの計画

DiffSkillは計画モジュールを使用して、目標を達成できるさまざまなスキルの組み合わせとシーケンスを評価します。

スキル抽象化機能がトレーニングされると、DiffSkill はプランナーモジュールを使用して長期タスクを解決します。プランナーは、初期状態から目的地に到達するために必要なスキルの数と順序を決定する必要があります。

プランナーは、可能なスキルの組み合わせとそれによって生成される中間結果を反復します。ここでは変分オートエンコーダが役立ちます。 DiffSkill は、完全な画像結果を予測する代わりに、VAE を使用して、最終目標までの中間ステップの潜在空間結果を予測します。

抽象スキルと潜在空間表現を組み合わせることで、初期状態から目標までの軌跡を描く計算がより効率的になります。実際、研究者は検索機能を最適化する必要はなく、代わりにすべての組み合わせを徹底的に検索しました。

「私たちはスキルを計画しているので、計算作業はそれほど多くなく、時間もかかりません」とリン氏は言う。「この徹底的な検索により、プランナーはスケッチする必要がなくなり、デザイナーはより一般的な方法で新しいソリューションを検討しなくなる可能性がありますが、私たちが試した限られたタスクでは、これは観察されませんでした。さらに、より洗練された検索技術を適用することもできます。」

DiffSkill の論文では、「各スキルの組み合わせの最適化は、単一の NVIDIA 2080Ti GPU で約 10 秒で効率的に完了できる」と述べられています。

DiffSkill を使ってピザ生地を準備する

研究者らは、2 つのモデルフリー強化学習アルゴリズムと物理シミュレータのみを使用する軌道最適化装置を含む、変形可能なオブジェクトに適用されているいくつかのベースライン手法に対して DiffSkill のパフォーマンスをテストしました。

モデルは、複数の手順とツールを必要とする複数のタスクでテストされました。たとえば、タスクの 1 つでは、AI エージェントは生地をヘラで持ち上げ、まな板の上に置き、麺棒で伸ばす必要がありました。

研究の結果、DiffSkill は感覚情報のみを使用して長時間の複数のツールを必要とするタスクを解決する際に、他の手法よりも大幅に優れていることが示されました。実験では、十分にトレーニングされた後、DiffSkill のプランナーは初期状態と目標状態の間の適切な中間状態を見つけ、タスクを解決するための適切なスキルシーケンスを見つけることができることが示されています。

DiffSkillのプランナーは中間ステップを非常に正確に予測できる

「重要な点の 1 つは、一連のスキルによって、長期的な推論を可能にする非常に重要な時間的抽象化を提供できることです」とリン氏は述べました。「これは、人間がさまざまなタスクを処理する方法にも似ています。つまり、次の 1 秒で何をするかを考えるのではなく、さまざまな時間的抽象化で考えるのです。」

ただし、DiffSkill にも容量制限があります。たとえば、3 段階の計画を必要とするタスクの 1 つを実行する場合、DiffSkill のパフォーマンスは大幅に低下します (それでも他の手法よりは優れています)。 Lin Xingyu 氏は、場合によっては実現可能性予測が誤検知を生成することもあると述べました。研究者たちは、より優れた潜在空間を学習することでこの問題を解決できると考えています。

研究者らは、より長いタスクに使用できるより効率的な計画アルゴリズムなど、DiffSkill を改善するための他の方向性も模索しています。

リン氏は、いつか本物のピザ作りロボットにDiffSkillを使えるようになりたいと語った。「まだその目標には程遠い」と彼は言う。「制御、sim2real 転送、安全性など、さまざまな課題がある。しかし、今では長期ミッションに挑戦する自信が高まっている。」

原題:このディープラーニング技術はロボット工学の最も困難な課題の 1 つを解決します、著者: Ben Dickson

<<: 低速自動運転と高速自動運転に関する議論

>>: シンプルで使いやすいPythonの顔認識アルゴリズムをいくつかまとめます