Google DeepMind が 3 つのロボット成果を連続でリリース! 2つの機能が完全に改善され、データ収集システムは同時に20台のロボットを管理できるようになりました

スタンフォード大学の「エビフライと皿洗い」ロボットとほぼ同時に、 Google DeepMindも最新の具現化された知能の成果を発表しました。

そしてそれは3つのバーストです:

まず、意思決定のスピード向上に重点を置いた新モデルにより、ロボットの動作速度が 14% 向上しました(従来の Robotics Transformer と比較) 。高速化しても品質は低下せず、精度は 10.6% 向上しました。

さらに、一般化に重点を置いた新しいフレームワークがあり、ロボットの動作軌道プロンプトを作成し、ロボットがこれまでに見たことのない 41 のタスクに 63% の成功率で取り組むことを可能にします。

この配列を過小評価しないでください。以前の 29% と比較すると、かなりの改善です。

最後に、一度に 20 台のロボットを管理できるロボットデータ収集システムがあります。現在、ロボットの活動から 77,000 件の実験データが収集されており、Google がその後のトレーニング作業をより適切に完了するのに役立ちます。

では、これら 3 つの結果は具体的に何でしょうか?一つずつ見ていきましょう。

ロボットを日常的に使うための第一歩：ロボットはこれまで見たことのないタスクもこなせるようになる

Google は、実際に現実世界に参入できるロボットを生み出すには、次の 2 つの基本的な課題を解決する必要があると考えています。

1. 新しいタスクプロモーション機能

2. 意思決定のスピードを向上させる

この 3 部構成のシリーズの最初の 2 つの成果は、主にこれら 2 つの主要領域に改良を加えたもので、どちらも Google の基本ロボットモデル Robotics Transformer (略して RT)をベースに構築されました。

まず最初のもの、ロボットの一般化を支援するRT-Trajectoryを見てみましょう。

人間にとっては、テーブルを拭くなどの作業を完了することは簡単に理解できますが、ロボットはそれを完全に理解するわけではありません。

幸いなことに、この指示をロボットに伝える方法は数多くあり、ロボットが実際に物理的な行動をとることを可能にします。

一般的に言えば、従来の方法は、タスクを特定のアクションにマッピングし、ロボットアームにそれを完了させるというものです。たとえば、テーブルを拭く作業は、「クランプを閉じる、左に移動する、右に移動する」という動作に分解できます。

明らかに、このアプローチは一般化能力が低いです。

ここで、Google が新たに提案した RT-Trajectory は、視覚的なヒントを提供することでロボットにタスクを完了する方法を教えます。

具体的には、RT-Trajectory によって制御されるロボットは、トレーニング中に 2D 軌道強化データを追加します。

これらの軌跡は、ルートやキーポイントを含む RGB 画像として表示され、ロボットがタスクの実行を学習する際に、低レベルですが非常に役立つ手がかりを提供します。

このモデルにより、ロボットがこれまでに見たことのないタスクを実行する際の成功率が 100% 直接的に向上しました(Google の基本ロボットモデル RT-2 と比較して 29% から 63%) 。

RT-Trajectory は、次のようなさまざまな方法で軌跡を作成できることに留意してください。
人間のデモンストレーションを見たり、手描きのスケッチを受け入れたり、VLM (Visual Language Model)を通じて生成したりします。

ロボットを日常的に使うための第2ステップ：意思決定は迅速でなければならない

一般化能力が向上した後は、意思決定のスピードに重点を置きます。

Google の RT モデルは Transformer アーキテクチャを使用します。Transformer は強力ですが、2 次複雑度のアテンションモジュールに大きく依存しています。

したがって、RT モデルへの入力が 2 倍になると(たとえば、ロボットに高解像度のセンサーを装備するなど) 、それを処理するために必要なコンピューティングリソースが 4 倍に増加し、意思決定が大幅に遅くなります。

ロボットの速度を上げるために、Google は Robotics Transformer の基本モデルをベースにSARA-RTを開発しました。

SARA-RT は、新しいモデル微調整方法を使用して、元の RT モデルをより効率的にします。

この方法は、Google では「上向きトレーニング」と呼ばれています。その主な機能は、処理品質を維持しながら、元の 2 次複雑度を線形複雑度に変換することです。

SARA-RT を数十億のパラメータを持つ RT-2 モデルに適用すると、さまざまなタスクでより高速な動作速度とより高い精度を実現できます。

また、SARA-RT は、高価な事前トレーニングを必要とせずに Transformer を高速化する一般的な方法を提供するため、十分に一般化できることも言及する価値があります。

データが足りませんか?自分だけの作品を作る

最後に、ロボットが人間から割り当てられたタスクをよりよく理解できるようにするために、Google もデータから始めて、収集システムである AutoRT を直接構築しました。

このシステムは、大規模モデル（LLM、VLMを含む）とロボット制御モデル（RT）を組み合わせて、ロボットに現実世界でさまざまなタスクを実行するよう継続的に指示し、データを生成および収集します。

具体的なプロセスは以下のとおりです。

ロボットが「自由に」環境に接触し、ターゲットに近づくようにします。

次に、カメラと VLM モデルを使用して、目の前のシーン（そこにどのような具体的なオブジェクトがあるのかなど）を説明します。

LLM はこの情報を使用して、いくつかの異なるタスクを生成します。

ロボットは生成された後、すぐには実行されないことに注意してください。代わりに、LLM を使用して、独立して完了できるタスク、人間によるリモート制御が必要なタスク、まったく完了できないタスクをフィルタリングします。

たとえば、「ポテトチップスの袋を開ける」というタスクは、ロボットアームが 2 つ必要になるため(デフォルトでは 1 つだけ)、完了できません。

そして、このスクリーニングタスクを完了すると、ロボットは実際の実行を開始できます。

最後に、AutoRT システムはデータ収集を完了し、多様性評価を実行します。

AutoRT は一度に最大 20 台のロボットを連携させることができ、7 か月間にわたって 6,650 個の固有タスクを含む合計 77,000 件のテストデータを収集したと報告されています。

最後に、Google はこのシステムのセキュリティにも特に重点を置いています。

結局のところ、AutoRT の収集タスクは現実世界で実行されるため、「安全ガードレール」が不可欠です。

具体的には、ミッション用のロボットを審査する法学修士課程によって提供される基本的な安全ガイドラインは、アイザック・アシモフのロボット工学三原則に部分的に影響を受けています。その第一原則は、「ロボットは人間を傷つけてはならない」というものです。

第二に、ロボットは人間、動物、鋭利な物体、電気製品に関わる作業を行ってはならないという要件が含まれています。

しかし、これではまだ十分ではありません。

そのため、AutoRT には、従来のロボットに見られる多層的な実用的な安全対策も備わっています。

たとえば、ロボットの関節にかかる力が所定のしきい値を超えるとロボットは自動的に停止したり、人間の視界内にある物理的なスイッチによってすべての動作を停止したりすることができます。

Google の最新の成果について詳しく知りたいですか?

朗報です。RT-Trajectory は論文のみがオンラインで公開されていますが、それ以外はコードと論文が一緒に公開されています。ぜひご覧ください。

もう一つ

Google ロボットについて話すとき、RT-2 について言及する必要があります(この記事のすべての結果は RT-2 に基づいて構築されています) 。

このモデルは、Google の研究者 54 名によって 7 か月かけて作成され、今年 7 月末にリリースされました。

ビジュアル・テキスト・マルチモーダル大規模モデル VLM が組み込まれているため、「人間の言語」を理解できるだけでなく、「人間の言語」について推論し、ライオン、クジラ、恐竜の 3 つのプラスチックおもちゃから「絶滅した動物」を正確に拾い上げるなど、1 ステップでは完了できないいくつかのタスクを実行できます。これは驚くべきことです。

現在、わずか 5 か月強で一般化能力と意思決定速度が急速に向上しており、私たちはため息をついています。ロボットが実際に何千もの家庭に浸透するのがどれほど速いのか想像もつきません。

<<: XiaoIce がクローンを正式にリリース: すでに年間 100 万元を稼いだ人もいます!

>>: Google の家庭用ロボットがスタンフォード大学のエビ揚げロボットに挑む!猫と遊ぶためにお茶と水を出し、3回続けてフリックして猫と遊ぶ