MIT は Google と提携して 7 台のマルチタスク ロボットをトレーニングし、9,600 のタスクで 89% の成功率を達成しました。

MIT は Google と提携して 7 台のマルチタスク ロボットをトレーニングし、9,600 のタスクで 89% の成功率を達成しました。

タスクの数が増えるにつれて、現在の計算方法を使用して汎用の日常的なロボットを構築するコストは法外なものとなり、解決策の模索が急速に進んでいます。私たちは皆、汎用ロボットが清掃、メンテナンス、配達など、さまざまな複雑なタスクを実行することを期待しています。

しかし、オフライン強化学習 (RL) を使用して単一のタスク (掃除など) をトレーニングする場合でも、多くのエンジニアリングと長い時間がかかるため、不可能に思えます。

上の写真はオフラインと非オフラインの強化学習のデモンストレーションを示しています

MT-Opt+実行可能なモデル=オフライン強化学習

しかし、科学者の絶え間ない努力により、ロボットの開発は前例のない機会に遭遇しました。

Google で働く数人の優秀なコンピューター科学者が、大規模なタスクを処理できる新しいタイプのロボットの開発を主導しています。

ドミトリー・カラシニコフ氏はこの研究の第一著者です。彼は若くして2009年にAI Digitを設立し、2013年にGoogleに入社し、7年以上ソフトウェアエンジニアとして働きました。

[[394774]]

2 番目の著者である Jake Varley は、マサチューセッツ工科大学 (MIT) でコンピューター サイエンスの学士号を取得しました。2013 年にコロンビア大学の博士課程に進学し、卒業するとすぐに Google から和解の申し出を受けました。その後 3 年間、Google で SWE として働いています。

[[394775]]

3 番目の著者である Karol Hausman 氏は、南カリフォルニア大学のコンピューター サイエンスの博士課程の学生です。2018 年に Google に入社し、現在は Google Robotics Control と Google Brain Labs の科学者です。

[[394776]]

この研究では主に、ロボットのオフライン強化学習 (RL) における 2 つの新しい進歩、つまり自動データ収集とマルチタスク RL トレーニングのためのシステムである MT-Opt と、取得したデータを使用してオフライン学習の目標を達成する Actionable Models を実証します。

MT-Opt は、実際のロボットで 800,000 を超えるタスクを収集できるスケーラブルなデータ収集メカニズムを導入します。マルチタスク オフライン学習のこれまでの多くの成功したアプリケーションと比較すると、その平均パフォーマンスはベースラインの約 3 倍です。

さらに驚くべきことに、ロボットは 1 日もかからずに新しいタスクに適応し、すぐに新しいタスクを習得できるようになります。

ロボットは特定のタスクや報酬がなくても学習できるため、ロボットが実行できるタスクの数が大幅に増加し、下流のタスクをより効率的に学習できるようになります。

[[394778]]

そこで、多様なタスクデータを大規模に収集するために、最終的にバランスの取れた結果を含むデータセットを収集することを目標に、タスクを指定するためのスケーラブルで直感的なマルチタスク検出器を作成しました。

具体的な手順は次のとおりです。

システムをトレーニングするために、科学者たちは 9,600 個のロボット データ ポイント (7 台のロボットから 57 日間連続で収集したデータ) を収集し、教師あり学習を使用して複数のタスクをトレーニングし、ユーザーが新しいタスクとその報酬の設定をすばやく定義できるようにしました。

まず、データを収集する際には、さまざまな現実世界の要因を監視し、定期的に更新する必要があります。 (異なる照明条件、変化する背景環境、ロボットの柔軟な状態など)。

第二に、より単純なタスクソリューションを使用することで、ロボットはより複雑なタスクを学習するように効果的に誘導され、複数のロボットを同時に使用して異なるタスクを操作できるようになります。

ターゲットを絞ったトレーニングが確立されると、各タスクのデータ量と成功エピソードの数は時間の経過とともに増加します。

科学者たちは、パフォーマンスをさらに向上させるために、パフォーマンスが低い特定のタスクのデバッグとトレーニングにも重点を置き、次々とブレークスルーを達成しました。

成功率はなんと89%!

このデータ収集戦略では大量のデータを効率的に収集できますが、タスク間で成功率とデータ量のバランスが取れていません。

そこでこの問題を解決するために、各タスクを成功か失敗かでマークするようにロボットに指示しました。このステップの後、バランスの取れたタスクはマルチタスク RL トレーニング パイプラインに送信されます。

良いニュースとしては、複数のデータを使用する一般的なタスクの場合、MT-Opt の成功率は 89% (QT-Opt の成功率は 88%) であり、まれなタスクの場合、MT-Opt の平均成功率は 50% であるということです。

実行可能なモデルを使用することで、ロボットは物体の把持、コンテナの配置、物体の再配置など、指示された幅広いスキルを体系的に学習できます。

さらに、モデルはデータには表示されていないオブジェクトや視覚ターゲットをトレーニングすることもでき、新しいロボットは「世界を学ぶ」能力を備えています。

まとめ:

MT-Opt モデルと操作可能モデルの両方の結果は、実際のロボットがさまざまなタスクを学習できること、およびこれらのモデルがスキルの学習コストを効果的に償却できることを示しています。

これは、人間に役立つ多くの実際のサービスを実行できるようにさらに拡張できる汎用ロボット学習システムに向けた重要なステップです。

興味がある読者は、次の 2 つの論文を参照してください: 「MT-Opt: 大規模連続マルチタスク ロボット強化学習」および「実行可能なモデル: ロボット工学のための教師なしオフライン強化学習」。Web サイトには、MT-Opt に関する詳細情報、ビデオ、実行可能なモデルが多数掲載されています。

<<:  今後のネットワーク分野におけるハイブリッド脅威の3大トレンド

>>:  このベクターニューラルスタイルのブラシを使用すると、GANなしで美しい絵画を生成できます

ブログ    

推薦する

一般的な負荷分散アルゴリズムをいくつ知っていますか?

[[275226]]コールドスタンバイとホットスタンバイコールドスタンバイとは、通常は稼働していな...

...

Nvidia の新 GPU: 800 億個のトランジスタを搭載した 4nm プロセス、新しい Hopper アーキテクチャは驚異的

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

クロード3の「自己認識」事件が爆発、マスクはじっとしていられず、OpenAIにはバックアッププランがあることが明らかに

クロード3は発売されてから24時間以上経ちますが、今でも人々の認知をリフレッシュさせています。量子物...

米国は中国のAI企業に対する制裁で目的を果たせなかったのか?

[[278497]]中国の人工知能企業数社は、ある日、自分たちがこのようなユニークな形で世界の注目...

2020年のAI開発の現状と展望の分析

中国政府は人工知能を国家戦略のレベルにまで高めた。 2017年7月、国務院は「次世代人工知能発展計画...

...

...

アジャイルプロジェクト管理における人工知能の 9 つのメリット

人工知能は、特にソフトウェア開発の効率性の向上において、ソフトウェア開発を改善・加速し、プロジェクト...

マルチモーダルな大型モデルの幻覚が 30% 減少しました。 USTCらが初の錯視補正フレームワーク「Woodpecker」を提案

視覚幻覚は、マルチモーダル大規模言語モデル (MLLM) でよく見られる典型的な問題です。簡単に言え...

人工知能は人間の言語を習得したのか?見た目は騙されることがある

[[247418]]人工知能の分野における成果は、誤解されやすく、過大評価されやすい。このことは、人...

AIコンテンツゼロ!純粋なランダム数学は現実的な3D世界を無限に生成する、プリンストン大学の中国人による研究

画像や動画の生成には AI に頼らなければならないと誰が言ったのでしょうか?プリンストン大学の新しい...

人工知能について知っておくべきことすべて

人工知能は今日最も話題になっている技術の一つです。しかし、それは正確には何でしょうか?なぜ気にする必...

AI テクノロジーは二酸化炭素排出量とどのような関係があるのでしょうか?

現在、世界のビジネスで大きな波を起こしている大きなトレンドが 2 つあります。 1 つ目は、企業が生...

MyScale を使用して知識ベースを OpenAI の GPT にインポートする方法

翻訳者 |李睿レビュー | Chonglou 2023年11月6日、OpenAIはChatGPTをリ...