ロボットが家事の仕事を代行:人間のデモンストレーション動画を見るだけで、10時間でコーヒーの淹れ方を学ぶ

ロボットが家事の仕事を代行:人間のデモンストレーション動画を見るだけで、10時間でコーヒーの淹れ方を学ぶ

先週、スタンフォード大学のエビ揚げロボットが爆発事故を起こした後、コーヒーを作るロボットが再び人気を集めている。

非常に強力なのは、人間のデモンストレーションビデオを視聴するだけで、わずか 10 時間のエンドツーエンドのトレーニングで、このタスクを完全に自立して学習し、完了できることです。

もちろん、より正確に言うと、コーヒーマシンを操作することです。

蓋を開けてコーヒーバッグを入れ、スタートボタンを押すだけです。リモコンを使わずに、すべての工程を一気に完了できます。

すぐに、一杯のコーヒーを持ち帰って楽しむことができるようになります。

なお、上記デモ動画には加速処理は一切施しておりません。これは、ロボットが現在達成できる実際の動作速度です。

これらに加えて、自律的なエラー訂正機能も備えています。

コーヒーバッグが正しく配置されていない場合は、人間が注意しなくても自動的に調整できます。


これに対して、元 Google DeepMind 研究者(ロボットの開発者でもある)が投稿を直接転送して「いいね」し、次のように繰り返した。

エラー修正を含むすべてのアクションは完全に自律的です。

同社の創設者ブレット・アドコック氏は、これをロボット工学における ChatGPT の瞬間と呼んでいます。

この発言に全員が同意するかどうかは別として、ネットユーザーがそのトレーニング速度に感銘を受けていることは間違いない。

10 時間というのは本当に素晴らしいです。グラインダーとフレンチプレスの使用に早送りします。ビデオのコーヒー マシンはすぐに使えなくなると思います。 (手動犬頭)

それで、このロボットは一体何なのでしょうか?

コーヒーを作るための徹底的なトレーニング10時間

上の写真のロボットは、Figure という商業会社が作ったものです。

Figureは米国に本社を置き、2022年に設立された汎用ヒューマノイドロボットを専門とする企業です。

創業者のブレット・アドコックはフロリダ大学を卒業し、26歳のときにオンライン人材市場ウェブサイトを設立しました。このウェブサイトは後に同業他社に1億1000万ドルで買収されました。その後、全電動垂直離着陸機を製造する航空宇宙会社を設立し、27億ドルで株式市場に上場しました。

現在、このロボット企業 Figure は多額の利益を上げています。同社は昨年 5 月にシリーズ A 資金調達で 7,000 万ドルを獲得し、その 2 か月後には Intel から 900 万ドルの投資を受けました。

フィギュア社は設立から約1年後の昨年10月、コードネーム「フィギュア01」という初のヒューマノイドロボットをリリースした。

歩き方は次のようになります:


今日見るコーヒーの淹れ方のデモンストレーションはこれで行われます。

このスキルを習得するのにたった 10 時間のトレーニングしかかかりませんでした。

図 01 は、エンドツーエンドのニューラル ネットワークを使用しています。人間がコーヒーを作るビデオを受信し、動作の軌跡を出力することで、ロボットがそれを模倣し、最終的に自律動作を完了できるようにします。

同様に、他のタスクを学習させるには、対応するビデオを入力するだけで済みます。

具体的な実施内容については当局は明らかにしていない。

しかし、トレーニングを完了するのにたった 10 時間しかかからないという事実を除けば、ロボットにコーヒーの淹れ方を教えるといった作業自体は難しくありません。

その中核となるのは模倣学習であり、これはCoRL'22(ロボット工学、学習に関する会議)に選ばれたVIOLAによって実現できます(オブジェクト中心の模倣学習フレームワークであり、推論にはTransformerをベースとし、長距離タスクに優れ、最先端の模倣学習アルゴリズムを45.8%上回ります)。


今年6月にリリースされたGoogleのHYDRAもこの分野に特化しており、粗粒度から細粒度までさまざまな制御を得意とし、自由に切り替えることができます。

スタンフォード大学の AME はウェイポイントに基づいており、コーヒーを作るなどのタスクにも非常に便利ですが、速度ははるかに遅くなります。


ロボット模倣学習に関連する研究成果としては、NVIDIAのHITL-TAMP、MimicGenなどもあるので、一つ一つ紹介することはしません。

2040年までにスティーブコーヒーテストに成功して挑戦できるのは誰でしょうか?

図 01 のパフォーマンスは非常に優れています(たとえば、非常に高速です)が、多くのネットユーザーは次のようにコメントしています。

これは、私たちが想像するコーヒーを作るロボットとはまだ少し遠いものです。

例えば、カップを持ち上げてコーヒーマシンの下に置き、淹れた後にクリームと砂糖を加え、カップをトレイに置いて誰かのところに持って行くことはできますか?

実際、アップルの共同創業者であるスティーブ・ウォズニアック氏は、ロボットの自律性を評価するためにコーヒーテストを提案したことがある。

ロボットは、まず見知らぬ家に入り、次にキッチンを見つけ、道具(コーヒーメーカー、ケトルなど)と材料(コーヒー豆、砂糖、ミルクなど)を識別し、最後に一杯のコーヒーを淹れる必要があり、全体のプロセスは20分を超えてはなりません。

このテストでは、ロボットが未知の環境を移動し、物体を識別し、道具や材料を操作し、人間の指示に従う能力が試されます。
誰かが、2040年までにそのようなロボットが誕生できるかどうかを問う投票を開始しました。

その結果、89%の人が賛成票を投じました。

希望はあると思いますか?

<<:  注釈付きビデオの 1 フレームでセグメント機能を学習し、完全な監視パフォーマンスを実現できます。 Huake、時系列行動検出における新たなSOTAを達成

>>:  400 万のトークン コンテキスト、推論がさらに 46% 加速されました。最新のオープンソースソリューションはMITの結果をアップグレードし、推論コストをさらに削減します

ブログ    

推薦する

...

機械学習モデルを評価する際にデータ漏洩を防ぐ方法

この記事では、モデルのパフォーマンスを評価する際のデータ漏洩の問題と、データ漏洩を回避する方法につい...

...

Matplotlib の使用が難しいと感じるのはなぜですか?このマインドマップをまだ見ていないので

序文Matplotlib は、データの視覚化を簡単に作成できる人気の Python ライブラリです。...

中国初!最も人気のあるMoE大型モデルアプリがここにあります。無料でダウンロードでき、誰でもプレイできます。

MoE(Mixed of Experts)モデルは最近とても人気があるので、詳しく紹介する必要はな...

AIは古い文化的シンボルを解体し革新することはできない

1950 年代後半から 1960 年代前半にかけて、一群の芸術家と作家がパリの荒廃したホテルに移り住...

ビッグデータアルゴリズムにもっと積極的な役割を担わせる

近年、ビッグデータコンピューティングの継続的な発展に伴い、ユーザーを中毒に誘導したり、悪いアイデアを...

プログラマーに必要ないくつかの一般的なソートおよび検索アルゴリズムの概要

序文最近、アルゴリズムの基礎を固めるために、アルゴリズムの本にある基本的なアルゴリズムをもう一度見直...

人工知能と自然言語処理技術

人工知能技術の発展に伴い、コンピューターを使って外国の文書を翻訳するなど、私たちの生活の多くのアプリ...

AIは敵ではなく友達でしょうか?自殺防止技術が25人の命を救うことに成功

世界保健機関によれば、毎年80万人が自殺で亡くなっている。 この数字は年々高いままですが、人工知能と...

...

国産のハイエンドチップはどれくらい強いのか?業界関係者6人がこう考えている

[[440057]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

クリアビューAI、民間企業への顔認識技術の販売を永久に禁止することに同意

顔認識監視会社Clearview AIは、裁判所との和解により、ほとんどの民間企業による同社のサービ...

ドローンを飛ばすことはいつでもできるわけではない

[[354481]]古来より人々は鳥のように青い空を飛ぶことを夢見てきました。子供の頃の紙飛行機であ...

人工知能とビッグデータの違い

人工知能とビッグデータは人々がよく知っている流行語ですが、混乱が生じることもあります。 AI とビッ...