生まれたばかりのロボット犬は、1時間転がった後、自分で歩くことを学んだ。これはアンドリュー・ン氏の弟子の成果である。

生まれたばかりのロボット犬は、1時間転がった後、自分で歩くことを学んだ。これはアンドリュー・ン氏の弟子の成果である。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

さて、ロボット犬を1時間自力で転がらせれば、歩くことを学習します。

歩き方はなかなか良さそうです:

依然として大きな棒からの集中攻撃に耐えることができる:

たとえ顔から地面に倒れても、寝返りを打って自力で立ち上がることができた。

機械犬の訓練は普通の犬の訓練と何ら変わらないようです。

これはカリフォルニア大学バークレー校がもたらした最新の成果であり、ロボットがシミュレーターに頼ることなく実際の環境で直接訓練し学習することを可能にする。

研究者たちはこの方法を使って、短期間で4台のロボットを訓練した。

たとえば、冒頭で紹介した 1 時間で歩くことを学習した機械犬など。

実際に8~10時間つかむ作業を経て、人間に近いレベルのパフォーマンスを達成したロボットアームも2つあります。

そして、コンピュータービジョンを搭載した小型ロボットは、自力で2時間の探索を行った後、指定された場所までスムーズに移動することができます。

この研究はピーター・アビール氏らによって提案されました。ピーター・アビール氏はアンドリュー・ン氏の最初の博士課程の学生であり、最近2021年のACMコンピューティング賞を受賞しました。

現在、この方法のソフトウェア インフラストラクチャはすべてオープンソース化されています。

「ビジョナリー」と呼ばれるアルゴリズム

この方法のパイプラインは、大きく 4 つのステップに分けられます。

最初のステップは、ロボットを実際の環境に配置してデータを収集することです。

2 番目のステップは、データをリプレイ バッファーに転送することです。このステップは、履歴データをトレーニングに使用し、「経験を要約」し、収集したサンプルを効率的に活用することです。

3 番目のステップでは、ワールド モデルは既存の経験から学習し、戦略を「補完」します。

4 番目のステップでは、Actor Critic アルゴリズムを使用して、ポリシー勾配法のパフォーマンスを向上させます。

その後、このサイクルが繰り返され、洗練された手法がロボットに適用され、最終的に「探索による学習」の感覚が実現されます。

具体的には、ここでのコアリンクはWorld Modelです。

World Models は、2018 年に DAVID HA らによって提案され、NIPS 2018 で口頭発表された高速な教師なし学習手法です。

その中心となる概念は、人間は既存の経験に基づいて世界の心理モデルを形成し、私たちが行う決定や行動はこの内部モデルに基づいているというものです。

例えば、人間が野球をするとき、視覚情報が脳に伝わるよりも反応速度の方がはるかに速いです。この状況でボールを正しく返球できるのは、脳が本能的に予測しているからです。

以前、GoogleはWorld Modelの「脳補完」学習法に基づいて、Dreamerと呼ばれるスケーラブルな強化学習法を提案しました。

今回提案された手法はこれに基づいており、DayDreamer と呼ばれています。

(先見の明がある人と言えるのでしょうか?)

具体的には、ワールド モデルはインテリジェント エージェント モデルです。

視覚認識コンポーネントが含まれており、視覚認識コンポーネントは、モデル入力として、見た画像を低次元表現ベクトルに圧縮します。

履歴情報に基づいて将来の表現ベクトルを予測できるメモリ コンポーネントもあります。

最後に、視覚認識コンポーネントと意思決定コンポーネントの表現ベクトルに基づいて、どのようなアクションを実行するかを決定できる意思決定コンポーネントも含まれています。

さて、カリフォルニア大学バークレー校の学者たちが提案した方法に戻りましょう。

世界モデル学習部分のロジックは経験蓄積のプロセスであり、行動学習部分はアクション出力のプロセスであることに気づくのは難しくありません。

この論文で提案された方法は、主にロボットのトレーニングにおける2 つの問題を解決します。

効率性と正確性

一般的に、ロボットを訓練する従来の方法は、繰り返しの実験を通じてロボットの動作を調整する強化学習です。

ただし、この方法では、良好な結果を得るために多くのテストが必要になることがよくあります。

非効率的であるだけでなく、トレーニングのコストも高くなります。

その後、シミュレーターでロボットを訓練すれば効率が大幅に向上し、コストも削減できると多くの人が提案しました。

しかし、この記事の著者は、シミュレーターによるトレーニング方法は精度の点でまだ十分ではなく、実際の環境でのみロボットが最良の結果を達成できると考えています。

結果から判断すると、ロボット犬に行動を適応させる訓練をするにはわずか10 分しかかかりません。

SAC法と比較すると効果が大幅に向上します。

この新しいアプローチは、ロボットアームのトレーニング中の視覚的な位置特定とまばらな報酬に関する課題も克服し、数時間以内に他の方法を大幅に上回るトレーニング結果を実現します。

研究チーム

今回新たな成果をもたらした研究チームのメンバーも非常に目を引く存在であることも特筆に値します。

その中で、ピーター・アビールはアンドリュー・ンの最初の弟子です。

彼は現在、カリフォルニア大学バークレー校の電気工学およびコンピューターサイエンスの教授であり、バークレー・ロボット学習ラボの所長、バークレー AI 研究所の共同所長を務めており、以前は OpenAI に所属していました。

彼はつい最近、ロボット学習への貢献が認められ、2021 ACM コンピューティング賞も受賞しました。

同時に、彼はAIロボット企業Covariantの共同創設者でもあります。

もう一人のケン・ゴールドバーグも AI 分野のトップエキスパートです。

彼は現在、カリフォルニア大学バークレー校の工学教授であり、強化学習と人間とコンピュータの相互作用を研究対象としています。

2005年にIEEEフェローに選出された。

同時に、ゴールドバーグはアーティストでもあり、カリフォルニア大学バークレー校の芸術、テクノロジー、文化セミナーの創設者でもあります。

さらに、Philipp Wu、Alejandro Escontrela、Danijar Hafner が共著者です。

そのうちのフィリップ・ウーは、カリフォルニア大学バークレー校の4年生です。

もう一つ

ロボット犬の訓練のビデオを見ていると、研究者が Unitree のロボット犬を使用していることがわかりました。

このブランドは中国の会社Yushu Technologyのものです。以前、春節祝賀会に登場したロボットMaverickもこの会社のものでした。

さらに、玉樹ロボット犬が集団で囲碁1テストを行う動画が最近公開され、海外で人気を博した。

論文の宛先:

https://danijar.com/project/daydreamer/

<<:  HKUST & MSRA リサーチ: 画像から画像への変換に必要なのは微調整だけ

>>:  ビジネス AI とデータの課題に対処する垂直インテリジェンス

ブログ    
ブログ    
ブログ    

推薦する

...

...

BEVFusionを超えて!高速かつシンプルなBEV統合展開ソリューション

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

自動運転競争が熱を帯び、実用化への道が始まろうとしている

科学技術の継続的な発展に伴い、人工知能、5Gネットワ​​ーク、生体認証、ロボットなどのインテリジェン...

...

...

この中国のAIスタートアップはトップカンファレンスのコンペティションで優勝し、そのコードはオープンソース化された。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

フードデリバリー広告向け大規模ディープラーニングモデルのエンジニアリング実践

著者: Yajie Yingliang、Chen Long 他導入美団のフードデリバリー事業が成長を...

トラックに「透明マント」を装着し、自動運転車を衝突させる。これは誰がより早く攻撃できるかを競う競争だ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Nvidia が PC CPU 市場に参入することが明らかになりました。ネットユーザー:Apple M1が市場を開拓したことを羨ましく思う

GPU マニアのNvidiaが、突如としてノート PC の CPU に狙いを定めました。ロイター通信...

...

AIプロジェクトでKubernetesを使用する方法

AI プロジェクトで Kubernetes を使用する利点は何でしょうか? Kubernetes が...

...

AR グラスは機械学習のキラーアプリか?

[[286412]] Facebook AI Researchの主任AI科学者であるヤン・ルカン氏...