ロボット品質教育を普及させる時が来た

人間がロボットを訓練しているのを見るたびに、私はいつも一つのことに疑問を感じます。それは、このような過酷な環境で開発されたスキルが、現実世界で何回使えるのだろうかということです。

後ろから強く蹴って地面に倒してから立ち上がらせたり、2 台のロボットを地面の上で激しく戦わせてこすり合わせたり、10 メートルを超える高さのプラットフォームから高く高くジャンプさせたり...

[[255592]]

多額の費用をかけて作られたロボットをこのように扱うのは、「耐えられない」光景どころか、損傷を修復するのにもお金がかかるのではないだろうか？

後になって、これが現在のテクノロジーの方向性と関係していることに気付きました。ディープラーニングでは、ロボットが現実世界のさまざまな状況に対応できるようになるまで、アルゴリズムを継続的に最適化するための多くの練習とトレーニングが必要です。

理論的に言えば、十分な時間と無制限の予算があれば、信じられないほどの計算能力を持つ機械は言うまでもなく、サルでもコンピューターを使って文学作品を書くことができる。

しかし、これは私たち一般人とどう関係があるのでしょうか? 信頼できる機械アシスタントを使って(そしてそれを買う余裕を持って)、生きている間に問題を解決できるのでしょうか? 1 万年は長すぎるので、今を大事にしましょう、いいですか?

最近、バークレーとグーグルブレインが開発した強化学習アルゴリズム、ソフトアクタークリティック（SAC）は、現実世界のロボットから学習できると言われており、ロボットのトレーニングに関する従来の考え方を変えるのではないかと期待されています。

今日は、SAC がロボットの「成功への道」をどのように変えるのかについてお話します。

リオロボットを作るのはなぜそんなに難しいのでしょうか?

新しい SAC アルゴリズムを紹介する前に、より優れたロボットアルゴリズムが存在するかどうか、つまり、このアルゴリズムによって具体的に何が変わるのかを説明する必要があります。

この疑問に答えるには、ロボットが現実世界で直面する課題を検討する必要があります。

まず第一に、現在のトレーニング方法では、機械が新しいスキルを習得する速度が十分とは言えません。

従来の機械学習アルゴリズムでは、新しいタスクを実行するたびにプロトタイプ設計のパラメータ調整が必要であり、一部のアルゴリズムではトレーニングのためにデータを再収集する必要があり、機械が新しいスキルを習得するのに必要な合計時間が急速に増加します。

第二に、現実のシナリオでは無数の事故により機械が故障する可能性があります。

実際にマシンを使用しているときに、停電やネットワークの遅延など、どのような問題が発生しても、マシンは「フリーズ」することで危機に対応します。作業を再開するために毎回「再起動」しなければならない場合、ロボットを使用する価値は何でしょうか?

上記はすべて効率の問題です。従来のトレーニング方法によってもたらされるコストのジレンマは、研究者を頭が真っ白になるほど悩ませています。

訓練担当者が人為的にバグを作成する操作であっても、さまざまな複雑な環境におけるアクチュエータの高周波ジッタであっても、ハードウェアに大きな損耗を引き起こします。これはロボットですか？お金シュレッダーです！

もちろん、人間は解決策を考え出しました。たとえば、ロボットにゲームをプレイさせたり、シミュレーション環境を設計したりすることで、実際のトレーニングへの依存は大幅に軽減されましたが、最終的には、実際の環境の多様性とランダム性を置き換えることはできません。最も重要なことは、現実世界のロボットに合わせて「カスタマイズされた」一連のアルゴリズムを作成することです。

現実世界のロボットにはどのようなアルゴリズムが必要ですか?

では、そのようなアルゴリズムにはどのような特性が必要でしょうか?

少なくとも次の重要な要素が必要です。

1. サンプルの複雑さが良好。アルゴリズムに提供されるトレーニングサンプルが多いほど、マシンがデータラベルを取得するのにかかる時間コストが低くなり、返されるエラーが小さくなり、強化学習のパフォーマンスが向上します。

2. 敏感なハイパーパラメータはありません。機械学習のパフォーマンスと効果を向上させるためには、ハイパーパラメータを最適化する必要があることがよくありますが、現実の世界では、パラメータの調整は少ないほど良いです。アルゴリズムではハイパーパラメータを調整する必要性を最小限に抑える必要があります。

3. 非同期サンプリング。現実世界では、データフローの終了や推論の遅延などの問題は避けられません。マシンが「再起動」フェーズで一定の継続性と安定性を維持するには、データ収集とトレーニングを、最小限に抑えられた複数の独立したスレッドで実行する必要があります。

4. スムーズな動き。大きな動きや振動によるハードウェアの損傷を防ぐために、時間的な相関と一貫性を考慮した探索が特に重要になります。

簡単にまとめると、ロボットが将来の現実世界に不可欠であると信じるならば、ロボットに長い期間、多額の投資、そして数え切れないほどの挫折を経てさまざまなスキルを習得させることは明らかに賢明ではないということです。

選択的かつ有意義なトレーニングをするにはどうしたらいいのか？SACが誕生しました。

SACの成功の秘訣は大きな心

あれだけ話した後、ようやく本当の飼い主が現れました。それで。 SAC とは何でしょうか?

SAC、正式名称はSoft actor-critic。名前が示すように、SAC も Actor-Critic アルゴリズムのロジックに基づいています。つまり、アクター (プレーヤー) はランダムにパフォーマンスを行い、批評家 (審査員) はランダムにスコアを付け、お互いのチェックとバランスの下でより良いパフォーマンス (報酬) を追求します。

違いは、SAC がパラメータに対して非常に「優しい」ことです。SAC は、期待されるリターンと探索の深さを自動的に重み付けし、調整が必要な「ハイパーパラメータ」として扱うのではなく、最適な戦略を取得するように自動的に学習します。

これの利点は、トレーニングサンプルが多様であり、パラメータを頻繁に調整する必要がなく、学習効率がはるかに高いことです。最悪の実験環境でも、優れたパフォーマンスを発揮します。

これは、昔の機械が人間の母親に「世話」され、「数学の天才」になることを願って夜更かししてオリンピックの数学の問題を勉強する必要があったのとまったく同じだ。今では仕事と休息を組み合わせて一生懸命働くことを学びました。大学入試で高得点を取ることができれば満足です。明らかに、後者はほとんどの一般的な機械のロールモデルであり、人間の親が期待すべきものでもあります。

ロボットのパフォーマンスを見るために、バークレー小学校のロボット生徒 3 名が体験談を共有するよう招待されました。

最初に私たちの前に現れたのは、8 つのアクチュエータを備えた小型の四足歩行ロボット「Minitaur」でした。前進するとき、コントローラーは手足の振り位置を追跡し、さまざまな角度を観察して脚にかかる力をバランスさせるためによく使用されます。効果的なトレーニング戦略がなければ、バランスを崩して転倒しやすくなります。何度も転倒すると、丈夫な骨でも骨折してしまいます。

しかし、新しい学習方法を習得すると、Minitaur はトレーニング中にデータの不確実性を最大化するため、追加の学習なしでほとんどの対数バランス干渉を処理できるようになります。

2 番目は、非常に柔軟性のある「3 本指の手」の生徒です。彼の課題は、色付きのフックが右を向くように、手で「バルブ」を回転させることです。しかし、バルブには小さなモーターが取り付けられており、力が加わると自動的にリセットされます。したがって、回転ごとにバルブの初期位置がランダムにリセットされ、マシンは現在のバルブの向きを再検出することになります。このタスクには、9 つの主要なサーボモーターの認識、予測、および正確な制御が必要であり、非常に困難ですが、私たちの「3 本指の手」は、それでもタスクをスムーズに完了しました。

最後のロボットのクラスメイトはレゴで遊んでいましたが、あまり楽しくありませんでした。トレーナーは、摩擦を減らすためにブロックを積み重ねるときにスタッドを正確に位置合わせする必要があるためです。

関節の位置や速度を決定するだけでなく、先端の力を確保したり、7つの関節に同時に複雑なコマンドを伝達したりする必要もあります。これは、人間の子供に「百段の矢を射なさい」と頼むのと何か違うのでしょうか?

しかし、SAC 方式を習得したマシンは期待を裏切らず、わずか 3 時間でタスクを完了する方法を学習しました。過去に使用された PPO 戦略は完了までに 7.4 時間かかりました。 SACってすごいですよね？

論文の中で研究者らは、SAC を「最先端」という注目度の高い形容詞で表現しており、これは当然のことだと言える。

もちろん、上記は比較的概念的な実験にすぎません。この機能をより困難な現実世界のタスクに実際に拡張するには、多くの最適化の反復、コーディングの開発、およびパラメータの調整がまだ必要です。しかし、SAC の出現により、ロボットが概念から実用化への重要なポイントに近づいていることは予測できます。

このガイドにより、ロボットは最終的に「虐待」を受けることが減り、生活の細部にまで真に浸透できるようになります。

<<: インターネットの後半、人工知能の春は始まったばかり

>>: 学術専門家を募集中 | 過去 10 年間に人工知能の 21 のサブ分野で引用数の多い学者

ブログ

Google の AI 振付師は、音楽に合わせて 10 種類のフリースタイルを披露できます。ジャズやバレエを観たいですか?

ロボット品質教育を普及させる時が来た

公開鍵暗号を解読することは可能ですか?

超大型モデルの登場でAIはゲームオーバーになるのか？ゲイリー・マーカス：道は狭くなっている

来年のビジネスインテリジェンスの見通しはどうでしょうか?

Googleを超えろ！世界最大の時間結晶が記録を破り、量子コンピューターが新たな奇跡を起こす

Google の AI 振付師は、音楽に合わせて 10 種類のフリースタイルを披露できます。ジャズやバレエを観たいですか?

中国における医療用人工知能の現状分析：製品検証から市場検証まで

マッキンゼー：2024年にGenAIが人工知能のビジネス界を支配する

推薦する

インテリジェントチャットボットを自分で開発するための完全ガイド (完全なソースコード付き)

顔認証決済には注意しましょう。お金を盗まれる可能性があります

位相データ解析を使用して畳み込みニューラルネットワークモデルの動作プロセスを理解する

今日のデータとAI市場における不確実性にどう対処するか

DIFFアルゴリズムがわからない場合は、私に連絡してください（画像付き）

海外で最も人気のあるディープラーニング実践コースの新バージョンがリリースされました。100％新しい最先端のコンテンツを備えています。

AIが都市の交通管理を改善する方法

北京、6つの高速道路を段階的に自動運転試験に開放、安全担当者を段階的に撤退させようとしている

大きなモデルには画像がラベル付けされるので、簡単な会話だけで十分です。清華大学とNUSから

企業が機械学習で犯す5つの間違い

AIはもはや派手なものではなく、日常生活にもっと関連している

Apache IoTDB: 産業用 IoT シナリオに適した新しいデータベース。保存、クエリ、使用はもはや問題ではありません。