4分！ OpenAIのロボットハンドは、プログラミングなしで完全に独学で、片手でルービックキューブを解くことを学習しました。

[[279350]]

OpenAI のロボットハンドは片手でルービックキューブを解くことを学習し、3x3 のルービックキューブを解くのにたった 4 分しかかかりませんでした。その器用さは比類のないものです。

ルービックキューブを渡され、片手しか使えず、時々誰かが邪魔をしてきたら、4 分以内に解くことができますか?両手では無理です。

OpenAI のヒューマノイドロボットハンド Dactyl がそれを実現しました。現在、ルービックキューブを回す動画が広く拡散しており、ネットユーザーからは「人工知能ロボットの新たなマイルストーンが誕生した！」といった声が上がっている。これはロボットの物理的な器用さと機械学習ソフトウェアにおける飛躍的な進歩です。

動画では、このロボットアームの動きが少しぎこちなく、ルービックキューブが今にも落ちそうな感じがするが、各ステップは最終的には非常に正確であることがわかります。

動画の後半では、研究者らは難易度を上げ、布で覆ったり、道具を使って妨害したりしたが、ロボットアームは依然として熱心にルービックキューブで遊んでいた。

大人にとって、3段のルービックキューブを片手で操作するのは簡単ではありません。ロボットハンドがこのような成果を達成できるというのは本当に素晴らしいことです。

[[279354]]

有名なロボット工学の専門家であり、MITの教授でもあるレスリー・ケールブリング氏は、この操作を実際に完了できるとは思ってもいなかったと語った。ミシガン大学の機械制御の専門家であるドミトリー・ベレンソン氏もこれを認め、賞賛した。

ヒューマノイドロボットにルービックキューブを解く訓練を施すOpenAIの試みは、早くも2017年5月に始まった。研究者がルービックキューブを解くことに特に興味を持っている理由は、そのようなロボットハンドを複雑な操作タスクを完了するようにうまく訓練できれば、汎用ロボットの基礎が築かれることになるからです。 2017年7月、OpenAIはシミュレーションでルービックキューブを解きました。しかし、2018年7月時点では、ロボットアームはルービックキューブを解くときに1つのブロックしか操作できませんでした。今、この目標はついに達成されました。下のビデオをご覧ください。ロボットアームは約 4 分で 3x3 ルービックキューブを正常に復元しました。

これは、ロボットハンドがルービックキューブを解くプロセス全体です。ビデオは編集されていません。片手でルービックキューブを解くのは人間にとって難しい作業であり、必要な器用さを習得するには子供が数年かかります。ロボットはまだそれを完璧に習得しておらず、成功率はわずか60％です。

次に、OpenAI ロボットがルービックキューブを解く方法を詳しく説明します。

1. 片手でルービックキューブを解く: OpenAI の新しいアルゴリズムは、シミュレーション環境を無限に生成できる

OpenAI は強化学習と Kociemba アルゴリズムを使用してニューラルネットワークをトレーニングし、ルービックキューブを解くシミュレーションを実行します。私たちは、機械が現在習得するのが難しい問題、つまり知覚と器用な操作に焦点を当てています。したがって、Kociemba のアルゴリズムによって生成される復元に必要な回転と反転を実装するようにニューラルネットワークをトレーニングします。

ドメインランダム化により、シミュレーションでのみトレーニングされたネットワークを実際のロボットに転送できる

このタスクにおける最大の課題は、現実世界の物理現象を捉えるために、シミュレーションで十分に多様な環境を作成することでした。ルービックキューブやロボットハンドのような複雑なオブジェクトの場合、摩擦、弾性、ダイナミクスなどの要素を測定してモデル化することは難しく、ドメインのランダム化だけでは不十分です。

この問題を克服するために、私たちは自動ドメインランダム化 (ADR)と呼ばれる新しいアプローチを開発しました。これは、シミュレーションでますます困難な環境を無限に生成できるものです。

こうすることで、現実世界の正確なモデルを作成する必要がなくなり、シミュレーションで学習したニューラルネットワークを転送して現実世界に適用できるようになります。

ADR は、ニューラルネットワークがルービックキューブを解くことを学習する単一の非ランダム環境から始まります。ニューラルネットワークのパフォーマンスが向上し、パフォーマンスしきい値に達すると、ドメインのランダム化の量が増加します。これにより、ニューラルネットワークはよりランダムな環境に一般化することを学習する必要があるため、タスクはさらに困難になります。ネットワークは、パフォーマンスしきい値を再び超えるまで学習を続け、その後さらにランダム化してプロセスを繰り返します。

ADR の適応型キューブサイズランダム化のパラメータの 1 つはキューブサイズです (上記)。

ADR は固定サイズの立方体から始まり、トレーニングが進むにつれてランダム化の範囲を徐々に拡大します。ルービックキューブの重さ、ロボットの指の摩擦、手の視覚的な表面材質など、他のすべてのパラメータにも同じ手法を適用しました。したがって、ニューラルネットワークは、こうしたますます困難になるすべての条件下でルービックキューブを解くことを学習する必要があります。

自動ドメインランダム化と手動ドメインランダム化

ドメインランダム化では、ランダム化の範囲を手動で指定する必要がありますが、ランダム化が多すぎると学習が困難になり、ランダム化が少なすぎると実際のロボットへの移行が妨げられるため、これは困難です。 ADR は、人間の介入を必要とせずに時間の経過とともにランダム範囲を自動的に拡張することでこの問題を解決します。 ADR によりドメイン知識の必要性がなくなり、新しいタスクに私たちの方法をより簡単に適用できるようになります。手動のドメインランダム化と比較すると、ADR ではタスクが常に困難になり、トレーニングが収束することはありません。

我々は、すでに強力なベースラインが存在するルービックキューブ反転タスクにおいて、ADR と手動ドメインランダム化を比較しました。当初、ADR は実際のロボットでは成功率が低かった。しかし、ADR によって環境の複雑さの尺度であるエントロピーが増加すると、手動で調整しなくても、パフォーマンスは最終的にベースラインパフォーマンスの 2 倍になります。

堅牢性テスト

ADR を使用すると、シミュレーション環境でニューラルネットワークをトレーニングし、それを実際のロボットハンドで使用してルービックキューブを解くことができます。これは、ADR がネットワークをランダムシミュレーションの無限のストリームにさらすためです。トレーニングプロセスのこの複雑さにより、ネットワークはシミュレートされた世界から現実世界に移行できるようになり、直面する物理的な世界を迅速に認識して適応することを学習する必要があります。

ルービックキューブを解いているロボットを邪魔する

私たちのアプローチの限界をテストするために、片手でルービックキューブを解く際のさまざまな摂動実験を実行しました。これは、制御ネットワークの堅牢性をテストするだけでなく、立方体の位置と方向を推定するために使用する視覚ネットワークの堅牢性もテストします。

ADR でトレーニングしたシステムは、このような摂動条件でトレーニングしていなかったにもかかわらず、摂動に対して驚くほど堅牢であることがわかりました。すべての摂動テストで、ロボットハンドは、パフォーマンスは最適ではないものの、ほとんどの反転と回転を正常に実行できました。

メタ学習

私たちは、メタ学習、つまり学習することを学ぶことは、環境内の変化する状況にシステムが迅速に適応できるようにするため、汎用システムを構築するための重要な前提条件であると考えています。 ADR の背後にある仮説は、メモリ拡張ネットワークと十分にランダム化された環境を組み合わせると、ネットワークが、展開された環境にその動作を迅速に適応させることができる学習アルゴリズムを実装する、創発的なメタ学習につながるというものです。

これを体系的にテストするために、さまざまな摂動（ネットワークのメモリのリセット、ダイナミクスのリセット、ジョイントの切断など）の下で、ニューラルネットワークが各ルービックキューブを正常に反転させる（異なる色の面が上を向くように回転させる）のにかかった時間を測定しました。私たちはこれらの実験をシミュレーション環境で実施しており、制御された環境で 10,000 回を超えるパフォーマンステストを実行できます。

最初は、ニューラルネットワークがより多くのフリップを正常に完了するにつれて、ニューラルネットワークが適応することを学習するため、連続した成功間の時間が短縮されます。摂動が適用されると（上のグラフの灰色の縦線）、成功回数が急上昇します。これは、ネットワークが採用した戦略が変化する環境では機能しないためです。その後、ネットワークは新しい環境を再学習し、成功までの時間が以前のベースラインまで再び短縮されることがわかります。

下の画像は、シミュレーション環境でロボットアームがルービックキューブを解く様子を視覚化したものです。

Interpretability Toolbox の構成要素である非負行列分解を使用して、この高次元ベクトルを 6 つのグループに圧縮し、各グループに固有の色を割り当てます。各ステップで現在の優勢なグループの色が表示されます。

2. ルービックキューブを回すことがロボット技術の飛躍的進歩だと考えられるのはなぜですか?

実際、ルービックキューブを解くことができるロボットは Dactyl だけではありません。ルービックキューブを解くために特別に設計されたロボットは、3 次以上のルービックキューブを Dactyl よりも速く処理できますが、なぜ Dactyl だけがこれほど高く評価されているのでしょうか。

OpenAI の研究科学者でロボット工学の責任者である Peter Welinder 氏は、その理由は Dactyl がルービックキューブを解くために特別に設計されていないためだと考えています。ルービックキューブで遊ぶのは単なるデモであり、Dactyl の最大のハイライトは「自己学習」です。

現在、人工知能ロボットが特定のシナリオで人間を上回ることができるのは、特定のタスクに対する継続的な微調整と最適化の結果であり、タスクを可能な限り効率的に実行するようにプログラムされているためです。しかし、ロボットが「快適ゾーン」から一歩踏み出すと、人間の赤ちゃんよりも悪くなる可能性がある。

人工知能とロボット工学の業界は、長期にわたるトレーニングやターゲットを絞ったプログラミングなしに、現実世界のさまざまな実用的なタスクを自力で処理することを学習できるロボットを構築するという目標を達成することを常に望んできました。彼らに希望を与えたのはダクティルでした！

Dactyl には「自己学習」機能があり、さまざまなシナリオに自動的に適応できます。 OpenAI は、いつの日か、SF 映画にしか登場しない古典的なロボットキャラクターがスクリーンから飛び出し、何千もの家庭に入り込み、人類にサービスを提供できるようになることを期待しています。

OpenAIチームは、Dactylがルービックキューブの課題をうまく解決したことは、実際の問題に取り組む前にシミュレーショントレーニングを通じて新しい課題を学習できることも証明していると考えている。

<<: 2019 年のディープラーニング自然言語処理のトップ 10 開発トレンド

>>: MITの新しい研究によると、機械学習ではフェイクニュースを検知できない

ブログ

微調整の必要はありませんか? 3つのサンプル、LLMアライメントを修正するための1つのヒント、エンジニアのヒント：すべて戻る

4分！ OpenAIのロボットハンドは、プログラミングなしで完全に独学で、片手でルービックキューブを解くことを学習しました。

微調整の必要はありませんか? 3つのサンプル、LLMアライメントを修正するための1つのヒント、エンジニアのヒント：すべて戻る

幾何学を利用してディープラーニングモデルのパフォーマンスを向上させることは、コンピュータービジョン研究の未来です。

今後 10 年間であなたの仕事は人工知能に置き換えられるでしょうか?

同じプレフィックスとサフィックスを持つファイルを同じディレクトリに移動するためのアルゴリズム設計と C コードの実装

智恵さんはブドウを縫うことができるロボットアームを自作した。費用は1万元。

元Googleロボット部門責任者が伸縮自在のアシスタントロボットを開発

人工知能 (AI): 2022 年に注目すべき 7 つのトレンド

モノのインターネット（IoT）がビジネスに活力を与える：5つのビジネス事例が示すもの

推薦する

マイクロソフト、データセンターに十分なAIチップが供給されない場合、サービスが中断すると警告

人工知能とモノのインターネットの統合後の応用シナリオは何ですか?

企業における生成AIのセキュリティリスクを管理する方法

GenAIの有効性に影響を与える主な問題

Microsoft Copilot は、コードインタープリター、DALL·E 3、ChatGPT を備えた完全バージョンに進化しました。

リアルタイムの高忠実度レンダリング、PlenOctrees に基づく NeRF レンダリング速度が 3000 倍に向上

COVID-19ヘルスケア市場はこれまでと異なる

ビッグデータとクラウドコンピューティングの融合がロボット工学の未来

よりスマートに：人工知能とエネルギー産業の革命

自動運転分野における機械学習アルゴリズムの応用に関する包括的なレビュー

2022 年の AI 開発とイノベーションのトップ 10 トレンド

人工知能は教育にどのような変化をもたらすのでしょうか?

フロントエンド人工知能: 機械学習による関数方程式の導出 - プラチナ III

人工知能分野における新たな投資・資金調達ブームの恩恵を受けている企業はどこでしょうか?