スタンフォード大学のエビ揚げロボットがネットで話題に！中国チームの費用は22万元で、フルコースの食事の調理や食器洗いもできる。

現在、大皿料理を調理できるスタンフォード大学のロボット「Mobile ALOHA」がインターネット上で話題になっている。

スクランブルエッグ添えのエビ、ホタテ貝添えのローストチキン、オイスターソース添えのレタスはどれも美味しくて、見た目もとても魅力的です。

たとえば、エビ入りスクランブルエッグの料理を例に挙げてみましょう。Mobile ALOHA は、まずお湯を沸かしながら卵 3 個を割りほぐし、次にお湯の中でエビを茹で、卵液をフライパンに注ぎ、エビを加えて数回かき混ぜれば、料理の完成です。

ホタテローストチキンの製造工程を見てみましょう。

まず、骨なし鶏もも肉を両面がきつね色になるまで揚げ、次にホタテ貝柱とその他の調味料を加えて20分ほど煮込みます。

盛り付けるときに、みじん切りにしたネギをひとつまみ散らすと、完璧になります。

オイスターソースをかけたレタスについても、ロボット「シェフ」は基本的な操作に非常に熟練しています。

ニンニクをみじん切りにすることもできます。

この動画を見たネットユーザーは、我々はまさに未来に生きているだけだとコメントした。ファストフード店でハンバーガーを作る仕事がロボットに取って代わられる日もそう遠くないだろう。

Pytorch の生みの親でさえ、これをクールな新しい家庭用ロボットプラットフォームとして賞賛しています。この方向への取り組みがさらに進むことを嬉しく思います。

スタンフォード大学の3人からなるチームによって開発されたこの新しい移動ロボット「Mobile ALOHA」は、模倣学習を通じてさまざまな複雑なタスクを実行できます。

自律動作だけでなく、全身遠隔操作にも対応します。

このロボットの価格はわずか32,000米ドル（約22万人民元）で、ソフトウェアやハードウェアもすべてオープンソースであることは特筆に値します。

論文アドレス: https://mobile-aloha.github.io/resources/mobile-aloha.pdf

研究者たちは、タスクごとにわずか 50 回のデモンストレーションを使用して、テーブルにこぼれたワインを 9 回連続で拭き取ったり、エレベーターに 5 回連続で乗ったりするなど、Mobile ALOHA に 1 つのことを一貫して実行させることに成功しました。

邪魔にならずに鍋を食器棚に入れることもできます。トレーニングデータには載っていない椅子でもまっすぐ置くことができます。

50 回のデモンストレーションで、ロボットにこれほど強力な学習能力を与えることができるのでしょうか?

著者らは、静的 ALOHA データを使用して模倣学習アルゴリズムを共同でトレーニングすることが鍵であると説明しています。これにより、特に正確な操作を必要とするタスクにおいて、持続的なパフォーマンスの向上が実現します。

Mobile ALOHA のクールなデモをいくつか見てみましょう。

鍋を洗浄するには:

誰かとハイタッチする:

エビ炒め：

さらに、Mobile ALOHA はリモート制御が可能で、より繊細なタスクを完了できます。

例えば、紙を取り出してガラスを拭きます。

ほうきなどで床を掃いたりします。

ロボット工学の年は好調なスタート

2024年が到来する前に、多くの有力者は、ロボットが大型モデルに加えて今年のもう一つの重要な研究分野になると予測しています。

そうです、2024年はロボットの年になるでしょう。

一般的に、汎用ロボットを開発するための非常に有望なアプローチは、人間が提供するデモンストレーションから模倣して学習することです。

この「行動のクローニング」により、ロボットは単純なピックアンドプレース操作からより高度な操作まで、さまざまな基本的なスキルを学習できるようになります。

しかし、現実世界の多くのタスクでは、個々の動きや操作動作ではなく、全身の協調した可動性と器用な操作が求められます。

この論文では、著者らは、双腕移動ロボットの全身制御を必要とするタスクに「模倣学習」を拡張することの実現可能性を研究しています。

現在、双腕ロボットの移動操作における「模倣学習」の広範な応用を妨げている主な要因が 2 つあります。

まず、プラグアンドプレイの「全身リモコンハードウェア」が不足しています。

既製品を購入する場合、双腕移動マニピュレーターは高価になる可能性があり、PR2 や TIAGo などのロボットは 20 万ドル以上かかります。これらのプラットフォームでリモート制御を有効にするには、追加のハードウェアと調整が必要です。

第二に、複雑なタスクのための高性能な双腕移動操作は、これまでのロボット学習研究では実証されていません。

この論文では、研究者らは、模倣学習を双腕移動操作に適用するという課題に取り組もうとしています。

ハードウェア面では、著者らは、低コストの全身遠隔操作システムであるロボット Mobile ALOHA を導入し、双腕移動操作データを収集しました。

Mobile ALOHA は、車輪付きのベースに取り付けることで、低コストで器用な 2 人用人形操作セットアップとして、オリジナルの ALOHA の機能を拡張します。

次に、ユーザーは自分の体をシステムに接続し、車輪を逆方向に動かしてベースを動かします。

ユーザーが両手でALOHAを操作すると、ベースは独立して動きます。研究者らは、ベースの速度データと腕の操作データを同時に記録し、全身遠隔制御システムを構築した。

費用はたったの3万ドル

スタンフォード大学のチームが Mobile ALOHA の構築に費やした金額はわずか 3 万ドルだったことは特筆に値します。

具体的なロボットの設計では、次の 4 つの重要な要素を総合的に考慮しました。

- 移動性: システムは、人間の歩行速度と同等の速度、毎秒約 1.42 メートルで移動できます。

- 安定性: 鍋やキャビネットなどの重い家庭用品を操作するときに安定した状態を保つことができます。

- 全身遠隔操作: アームや移動ベースを含むすべての自由度を同時に遠隔操作できます。

- ケーブル不要: オンボード電源とコンピューティング

下の図に示すように、Mobile ALOHA の技術仕様が明確にわかります。

Mobile ALOHA には、2 つのリストカメラとトップカメラがあり、オンボード電源とコンピューティングが装備されています。

また、リモコンユニットは取り外し可能で、Mobile ALOHA は自律動作時に 2 台の ViperX 300 のみを使用します。 2 本のアームの最小/最大の高さはそれぞれ 65cm/200cm で、ベースから 100cm 伸びます。

研究者らは、倉庫物流専用に設計された AgileX Tracer AGV (Tracer) を移動ベースとして選択しました。

その移動速度は1.6m/sに達し、これは人間の平均的な歩行速度に近い。最大積載量は100kg、高さは17mmです。

特筆すべきは、Tracer の米国での価格は 7,000 米ドルで、これは同じ速度と積載量を持つ Clearpath の AGV よりも 5 倍以上安いということです。

次に研究者らは、Tracer 移動ベースと ALOHA ロボットアームをベースにした全身遠隔操作システム、つまりベースと両方のロボットアームを同時に制御できる遠隔操作システムの設計を試みました。

最も単純かつ直接的な解決策は、オペレーターの腰を移動ベースに結び付け、トルクをオフにすると摩擦がほとんどなくなる車輪を逆方向に駆動できるようにすることです。

人間工学を改善し、作業スペースを拡大するために、チームは、内側を向いていた元の ALOHA アームとは異なり、すべて前を向く 4 つの ALOHA アームも設置しました。

さらに、Mobile ALOHAを自由な動きにするため、底部に14kgの1.26kWhバッテリーを構成しました。同時に、転倒を防ぐバランスをとる役割も果たします。

データ収集および推論中のすべての計算は、Nvidia 3070ti GPU (8GB VRAM) と Intel i7-12800H を搭載したコンシューマーグレードのラップトップで実行されました。

上記は、Mobile ALOHA 設計の重要なコンポーネントです。

開発の詳細

材料価格表

関心のあるパートナーは、公式ドキュメントをご覧ください: https://docs.google.com/document/d/1_3yhWjodSNNYlpxkRCPIlvIAaQ76Nqk2wsqhnEVM6Dc/edit

協調学習は「模倣学習」のパフォーマンスを向上させる

ハードウェアが揃ったので、次のステップはデータを活用して共同トレーニングを行うことです。

この論文では、研究者らは共同トレーニングパイプラインを使用して既存の静的 ALOHA データセットを活用し、モバイル操作、特に 2 腕操作における模倣学習のパフォーマンスを向上させています。

静的 ALOHA データセットには、袋の密封、フォークの取り上げ、キャンディーの包装、ティッシュの破り、蓋付きプラスチックカップの開け方、卓球のプレイ、コーヒーマシンの使用、鉛筆の弾き方、ベルクロケーブルの固定、バッテリーの取り付け、ドライバーの操作など、合計 825 のデモンストレーションタスクが含まれています。

次に研究者らは、Mobile ALOHA が完了すべき 7 つのタスクを選択しました。

テーブルにこぼれたワインを拭くなどの作業では、ロボットは機動性と両手の器用さを必要とします。

具体的には、ロボットはまず蛇口まで移動し、タオルを拾い、その後テーブルに戻る必要があります。

次に、片方の腕でワイングラスを持ち、もう片方の腕でテーブルとグラスの底をタオルで拭きます。このタスクは静的 ALOHA では達成不可能であり、単腕移動ロボットで完了するにはさらに長い時間がかかります。

エビ炒めを作るには、ロボットが生のエビを両面焼いてからボウルに入れる必要があります。

この作業には機動性と両利きであることも必要です。ロボットはコンロからキッチンカウンターまで移動し、もう一方の腕でフライパンを傾けながら、ヘラでエビをひっくり返す必要があります。

この作業は、半調理のエビをひっくり返すのにより高い精度が求められるため、消毒用アルコールよりも力が必要です。

同様に、モバイル ALOHA はフライパンを洗ったり、鍋を片付けたり、エレベーターに乗ったり、車椅子を押したり、ハイタッチしたりすることが上手にできます。

下の図は、タスクを実行する際のロボットのナビゲーション移動軌跡を示しています。

50 回のデモ、成功率 80% 以上

実験評価では、研究者は主に次の 2 つの核となる質問に答えることを目指しました。

（１）Mobile ALOHAは、協調訓練と少量のモバイル操作データを通じて複雑なモバイル操作スキルを習得できるか？

（２）モバイルALOHAはACT、拡散戦略、検索ベースVINNなど、異なるタイプの模倣学習手法を使用できるのか？

研究により、協調的なトレーニングによって ACT のパフォーマンスが向上することが判明しました。静的 ALOHA データセットとの共同トレーニングにより、7 つの困難なモバイル操作タスクにおける ACT の成功率が一貫して向上します。

これは、エレベーターに乗るときにボタンを押す、鍋を洗うときに蛇口をひねるなど、正確な操作がボトルネックとなるサブタスクにとって特に重要です。

さらに、Mobile ALOHAは「模倣学習」方式にも対応しています。

チャンキング、拡散戦略、ACT を使用した VINN はすべて、モバイル ALOHA で優れたパフォーマンスを実現し、静的 ALOHA との共同トレーニングのメリットを享受します。

共同トレーニングは、さまざまなデータの組み合わせに対しても非常に堅牢です。以下は、ACT を使用してワイン拭き取りタスクをトレーニングした後の成功率です。

協調トレーニングと事前トレーニングの比較は次のとおりです。協調トレーニングでは、ワイン拭き取りタスクで良好な結果が得られ、成功率は 95% でした。これは、トレーニング前の成功率 40% を大幅に上回る結果でした。

さらに、Mobile ALOHA を使用して目に見えないタスクをリモート制御すると、ユーザーはすぐにエキスパートレベルの速度に近づくことができます。

全体として、わずか 32,000 ドルの予算で、Mobile ALOHA は静的 ALOHA データでの模倣学習共同トレーニングを通じて、わずか 20 ～ 50 回のデモンストレーションでさまざまな複雑なタスクを学習できます。

Stanford Mobile ALOHA は、さまざまなアプリケーションシナリオにおけるロボットの可能性をすべての人に実証し、さらに、誰でも複製できるようにロボットをオープンソース化しました。

ネットユーザーによると、ロボット工学はハードウェアとアルゴリズムの両方を必要とする体系的な研究だという。私の推測では、2024年までに現実世界ではロボットがますます増えることになるだろう。

著者について

ジペン・フー（プロジェクト共同リーダー）

Zipeng Fu 氏は、スタンフォード AI ラボでコンピューターサイエンスの博士課程に在籍しており、指導教官は Chelsea Finn 氏です。彼はまた、Google DeepMind の学生研究者でもあり、Jie Tan とともに研究を行っています。

以前は、カーネギーメロン大学 (CMU) で機械学習の修士号を取得し、ロボティクス研究所で Deepak Pathak 氏と Jitendra Malik 氏の指導の下、学生研究者として働いていました。

彼は、Song-Chun Zhu の指導の下、UCLA でコンピューターサイエンスと応用数学の学士号を取得しました。

彼の研究の関心は、ロボット工学、機械学習、コンピュータービジョンの交差点にあります。私たちは、安定したパフォーマンスを実現し、複雑で絶えず変化するオープンワールドに展開できるロボットシステムの開発に取り組んでいます。

彼の研究はスタンフォード大学院フェローシップによって支援されており、またピエール・アンド・クリスティン・ラモンド・フェローシップの受賞者でもあります。

トニー・Z・チャオ（プロジェクト共同リーダー）

Tony Z. Zhao はスタンフォード大学でコンピューターサイエンスの博士課程に在籍しており、指導教官は Chelsea Finn です。彼は Google DeepMind のパートタイム研究アシスタントでもあります。

それ以前は、2021年にカリフォルニア大学バークレー校（UCB）でセルゲイ・レヴァイン氏とダン・クライン氏の指導の下、電気およびコンピューターサイエンス（EECS）の理学士号を取得しました。彼はまた、Tesla Autopilot と Google X Intrinsic でもインターンをしました。

彼の目標は、ロボットが複雑かつ繊細な操作タスクを実行できるようにすることです。

チェルシー・フィン

チェルシー・フィンは、スタンフォード大学のコンピューターサイエンスと電気工学の助教授です。彼の研究対象は、ロボットやその他のインテリジェントエージェントが学習と相互作用を通じて発揮できるインテリジェントな動作です。

彼女の研究室である IRIS は、大規模なロボットの相互作用を通じて知能を研究することに専念しており、SAIL と ML グループの共同研究室です。同時に、彼女は Google Brain チームの研究員としても働いています。

彼女は以前、カリフォルニア大学バークレー校 (UCB) でコンピュータサイエンスの博士号を取得し、マサチューセッツ工科大学 (MIT) で電気工学とコンピュータサイエンスの学士号を取得しました。

<<:

>>: 大規模モデルにおける幻覚軽減技術の包括的調査

ブログ

スタンフォード大学のエビ揚げロボットがネットで話題に！中国チームの費用は22万元で、フルコースの食事の調理や食器洗いもできる。

ロボット工学の年は好調なスタート

費用はたったの3万ドル

開発の詳細

材料価格表

協調学習は「模倣学習」のパフォーマンスを向上させる

50 回のデモ、成功率 80% 以上

著者について

中国で自動運転元年となるのは何年でしょうか？ 2021年かも

ディープラーニングの未来: ニューラル進化

人工知能が誤って解釈する画像とはどのようなものでしょうか?

RC4 攻撃: RC4 暗号化アルゴリズムは SSL/TLS を保護できますか?

2つのセッション「チップ」提案：自動車用チップに焦点を当て、サプライチェーンを開放し、「ボトルネック」を突破する

リカレントニューラルネットワークの分析を深く理解する

生物学的ニューラルネットワークから人工ニューラルネットワークへ

推薦する

NeurIPS 2023 入学結果が発表され、合格率は 26.1% でした

2020 年に AI、分析、データガバナンスに影響を与える 5 つのトレンド

5G+UAVの利点

AI | 機械知能が人間に代わって行う 5 つのこと

MITとGoogle BrainはAIを使って「現代のロゼッタストーン」として知られる失われた古代の文書を解読する

何も起こらないときは「自動運転」、何か起こったときは「運転支援」？

張北院士：生成型人工知能の3つの大きな機能と1つの大きな欠点

ソフトウェアテストに AI を統合する 9 つのメリット

ウルトラマンが解雇されるのは今回が初めてではない！ YCを去った人物は「創設者から去るように言われた」