Google X 中国博士がロボットシミュレーターSimGANをリリース、ICLR2021が出版

Google X 中国博士がロボットシミュレーターSimGANをリリース、ICLR2021が出版

[[407004]]

工学部の学生は、さまざまなシミュレーターから切り離すことはできません。シミュレーターにより、さまざまな工学分野で最小限の人手だけで迅速にプロトタイプを作成できます。

ロボット工学では、物理シミュレーションは、深層強化学習 (DRL) などの技術を使用してロボットが物理的なスキルを習得するための安全で安価な仮想遊び場を提供します。

ただし、シミュレーションで手動で導き出された物理特性は現実世界と完全には一致しないため、シミュレーションで完全にトレーニングされた制御ポリシーは、実際のハードウェアでテストすると失敗する可能性があります。これは、シミュレーションから現実への適応またはドメイン適応と呼ばれる問題です。

掴むなどの知覚ベースのタスクにおけるシミュレーションと現実のギャップは、RL-cycleGAN と RetinaGAN を使用して解決されていますが、ロボット システムのダイナミクスによりギャップは依然として存在します。

RL-cycleGAN と RetinaGAN は、New Intelligence の以前のプッシュ「Google X がシミュレーターを使用してロボットをトレーニングする方法を教え、精度は 93% 以上、ICRA2021 で公開」で紹介されました。

そこで、実際のロボットの軌跡から、より正確な物理シミュレーターを学習できるかどうかという疑問が生じます。もしそうなら、そのような改良されたシミュレーターは、標準的な DRL トレーニングを使用してロボット コントローラーを改良し、現実世界で成功できるようにするために使用できます。

このアイデアに基づき、GoogleとXチームはICRA2021で「SimGAN: 敵対的強化学習によるハイブリッドシミュレータ認識ドメイン適応」という論文を共同で発表しました。この論文では、物理シミュレータを学習可能なコンポーネントとして使用し、特別な報酬関数を使用してDRLでトレーニングし、シミュレーションで生成された軌跡(つまり、時間の経過に伴うロボットの動き)と少数の軌跡の差異にペナルティを課し、実際のロボットの動作軌跡を収集することを提案しています。

この記事の著者の半数以上は中国人です。第一著者の Yifeng Jiang は、C. Karen Liu 博士の指導を受けるスタンフォード大学のコンピューターサイエンスの博士課程 2 年生です。

彼はジョージア工科大学で電気工学とコンピュータ工学の学士号を取得しました。大学院に入学する前は、上海交通大学で学士号を取得し、ミシガン大学と上海交通大学の共同研究所のメンバーでした。彼の研究対象は、ロボット工学アプリケーションのためのコンピュータアニメーションと物理シミュレーション、およびこれらの分野での統計的手法の使用方法、さらに数値最適化、人間の認知、運動学習です。

[[407005]]

私たちは、生成的敵対的ネットワーク (GAN) を使用してこの報酬を提供し、学習可能なニューラル ネットワークと解析的な物理方程式を組み合わせたハイブリッド シミュレーターを作成して、モデルの表現力と物理的な正確さのバランスをとります。ロボットの移動タスクでは、この方法はドメインランダム化を含むいくつかの強力なベースラインよりも優れています。

学習可能なハイブリッド シミュレーター 従来の物理シミュレーターは、微分方程式を解いて仮想世界で移動したり相互作用したりするオブジェクトをシミュレートするプログラムです。

この作業では、さまざまな環境を表現するためにさまざまな物理モデルを構築する必要があります。ロボットがマットレスの上を歩く場合は、マットレスの変形を考慮する必要があります (たとえば、有限要素解析を使用)。

しかし、ロボットが現実世界で遭遇するシナリオは多様であるため、このような環境固有のモデリング手法は時間がかかり(不可能でさえある)、そのため機械学習ベースのアプローチを採用することが有用です。

シミュレーターはデータから完全に学習できますが、トレーニング データにさまざまな状況が含まれていない場合、トレーニングされていない状況をシミュレートする必要がある場合、学習したシミュレーターは物理法則に違反する (つまり、現実世界のダイナミクスから逸脱する) 可能性があります。

したがって、このような制限のあるシミュレータで訓練されたロボットは、現実世界では失敗する可能性が高くなります。

この複雑さを克服するために、学習可能なニューラル ネットワークと物理方程式を組み合わせたハイブリッド シミュレーターを構築します。

具体的には、研究者らは、通常は手動で定義されるシミュレータパラメータ(接触パラメータ(摩擦係数や反発係数など)やモーターパラメータ(モーターゲインなど))を、学習可能なシミュレーションパラメータ関数を使用して置き換えました。接触とモーターのダイナミクスのモデル化されていない詳細が、シミュレーションギャップの主な原因であるためです。

これらのパラメータを定数として扱う従来のシミュレータとは異なり、ハイブリッド シミュレータではこれらのパラメータは状態に依存し、ロボットの状態に応じて変化する可能性があります。

たとえば、モーターは速度が上がると弱くなります。通常はモデル化されていないこれらの物理現象は、状態依存のシミュレーション パラメータ関数を使用して捉えることができます。

さらに、接触パラメータやモーターパラメータは通常は識別が難しく、摩耗により変動しがちですが、当社のハイブリッド シミュレーターはデータから自動的にそれらを学習できます。たとえば、ロボットの足のパラメータを手動で指定する代わりに、シミュレーターはトレーニング データからそれらのパラメータを学習します。

ハイブリッド シミュレーターの別の部分は物理方程式で構成されており、シミュレーションがエネルギー保存などの基本的な物理法則に従うことを保証し、シミュレーションを現実世界に近づけて、シミュレーションと現実世界とのギャップを減らします。

前のマットレスの例では、学習可能なハイブリッド シミュレーターはマットレスの接触力をシミュレートできました。学習された接触パラメータは状態に依存するため、シミュレーターはマットレスに対するロボットの足の距離と速度に基づいて接触力を調整し、変形可能な表面の剛性と減衰の影響をシミュレートできます。

したがって、変形可能な表面専用の解析モデルを設計する必要はありません。

GAN シミュレータ学習を使用して、上で説明したシミュレーション パラメータ関数を正常に学習すると、実際のロボットと同様の軌道を生成できるハイブリッド シミュレータが実現します。

この種の学習を可能にする鍵は、軌跡間の類似性の測定基準を定義することです。

GAN はもともと、少数の実画像から実画像と同じ分布やスタイルの合成画像を生成するように設計されており、実画像と区別がつかない合成トラックを生成するために使用できます。

GAN には、新しいインスタンスを生成することを学習するジェネレーターと、新しいインスタンスがトレーニング データとどの程度類似しているかを評価する識別子という 2 つの主要な部分があります。

この場合、学習可能なハイブリッド シミュレーターは GAN ジェネレーターとして機能し、GAN ディスクリミネーターは類似度スコアを提供します。

シミュレーション モデルのパラメータを現実世界で収集されたデータに適合させるシステム識別 (SysID) と呼ばれるプロセスは、多くのエンジニアリング分野で一般的な方法になっています。

たとえば、変形可能な表面の剛性パラメータは、さまざまな圧力下での表面の変位を測定することによって決定できます。このプロセスは通常は手動で面倒ですが、GAN を使用すると効率化できます。たとえば、SysID では、シミュレートされた軌道と実際の軌道の差を測定するために、手動で作成されたメトリックが必要になることがよくあります。 GAN の場合、このようなメトリックは識別器によって自動的に学習されます。さらに、従来の SysID では、差分メトリックを計算するために、各シミュレートされた軌道を、同じ制御ポリシーを使用して生成された対応する実際の軌道とペアリングする必要があります。

GAN 識別子は、入力として軌跡を受け取り、現実世界でそれを見る可能性を計算するだけなので、この 1 対 1 のペアリングは必要ありません。

シミュレータの学習と強化学習を使用したポリシーの最適化 すべてを結び付けるために、模倣学習を RL 問題として形式化します。ニューラル ネットワークは、少数の現実世界の軌跡から状態に依存する接触とモーターのパラメータを学習します。ニューラル ネットワークは、シミュレートされた軌道と実際の軌道間の誤差を最小限に抑えるように最適化されます。

重要なのは、この誤差を長期間にわたって最小限に抑えることです。より遠い将来を正確に予測するシミュレーションにより、より優れた制御ポリシーが実現します。 RL は、単一のステップでの報酬だけではなく、時間の経過に伴う累積報酬を最適化するため、これに適しています。

ハイブリッド シミュレーターが学習され、より正確になった後、シミュレーションにおけるロボットの制御ポリシーを改善するために RL を再度使用しました。

結果は、SimGan がドメインランダム化 (DR) やターゲットドメインの直接的な改良 (FT) を含む複数の sota モデル ベースラインよりも優れていることを示しています。

シミュレーションと現実のギャップは、ロボットが強化学習機能を活用することを妨げる主要なボトルネックの 1 つです。

私たちは、少量の現実世界のデータのみを使用して、現実世界のダイナミクスをより忠実にモデル化するシミュレーターを学習することで、この課題に対処します。このシミュレーターで改善された制御戦略は正常に展開できます。この目標を達成するために、古典的な物理シミュレーターに学習可能なコンポーネントを追加し、敵対的強化学習アプローチを使用してこのハイブリッドシミュレーターをトレーニングします。

これまで、私たちは移動タスクでその使用をテストしてきましたが、ナビゲーションや操作などの他のロボット学習タスクに適用することで、この一般的なフレームワークを構築したいと考えています。

<<:  バイオメディカルホログラフィックイメージング用の RNN が 50 倍高速化

>>:  テスラが自社開発したスーパーコンピュータDojo!日本の「富岳」に代わる世界初の

ブログ    

推薦する

マイクロソフトが人工知能の小規模スタートアップBonsaiを買収

海外メディアの報道によると、マイクロソフトは水曜日、小規模な人工知能スタートアップ企業であるボンサイ...

...

機械学習がシステム設計に与える影響: 学習したインデックス構造の簡単な分析

顔認識からチェックイン、さまざまなアプリケーションの「あなたの好きなものを推測」まで、現在の機械学習...

...

...

...

顔認証+総合決済、モバイル決済が新たな形を生む

モバイル決済は今や人々の生活の一部となり、人々に迅速で便利なショッピング体験をもたらしています。現在...

...

ゼロから: Python で決定木アルゴリズムを実装する

決定木アルゴリズムは、非常に人気のある強力な予測方法です。初心者だけでなく専門家にも簡単に理解できる...

...

WatsonAIOps - AIの力を活用して、IT運用の効率とセキュリティの持続可能性を次のレベルに引き上げます

情報技術 (IT) 運用管理は、ミッションクリティカルなビジネス アプリケーションをサポートするため...

人工知能は「人工知能」にどれだけ「知性」を押し付けているのか

真に AI を活用したサービスを構築するのは簡単ではありません。そこで、一部のスタートアップ企業は、...

ディープニューラルネットワークを使用してNER固有表現抽出の問題を解決する

この記事は次のように構成されています。固有表現抽出 (NER) とはどのように識別しますか? cs2...

一般的な顔認識システムの端末設置と配線の包括的なレビュー

顔認識端末は人事管理や出勤簿、人通りの多いセキュリティチェックポイントなどで広く利用されている。今年...

...