ロボットは騙されることを恐れない

ロボットは騙されることを恐れない

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

四足歩行ロボットが歩行中に突然片方の足を骨折した場合、前進し続けることはできますか?

Google とミシガン大学の最新の結果は、非常に肯定的な答えを示しています。

彼らは、大規模なモデルやニューラルネットワークに依存しないAutoRobotics-Zero (ARZ)と呼ばれる探索アルゴリズムを発明しました。これにより、ロボットは環境の急激な変化に遭遇すると、自動的に行動戦略を変更することができます。

たとえば、足を骨折してもまだ歩ける場合:

比較すると、他のニューラル ネットワーク メソッドはまだ次のようになります(犬の頭) :

NvidiaのAI科学者ジム・ファン氏は次のようにコメントした。

このアプローチは非常に新鮮です。

ロボットはもはや騙されることを恐れない

具体的にどうやって達成するのでしょうか?

足を失ってもロボットが歩き続ける秘密

環境の変化に素早く適応することは、現実世界で展開されるロボットにとって非常に重要なスキルです。

しかし、現在一般的に使用されているリカレントニューラルネットワーク(RNN)テクノロジには、単一の戦略、推論時間の増加につながる大量のパラメータ化、解釈の難しさなどの問題があります。

この目的のために、著者らは直接「ゼロから始めて」、 AutoML Zeroテクノロジーに基づく新しい四足ロボット環境適応戦略である AutoRobotics-Zero (ARZ)を開発しました。

AutoML Zero について、よく知らない方は、以下で詳細を確認してください。

これは、2020年に誕生した「ゼロからの自動機械学習」アルゴリズムです。これは、Google BrainのQuoc V. Le氏と他の専門家によって作成されました。基本的な数学演算のみを基礎として使用し、空のプログラムから開始して、機械学習タスクを解決できるコンピュータープログラムを自動的に発見できます。

ここで著者らは、さまざまなロボットの行動戦略をニューラル ネットワークではなくプログラムとして表現し、基本的な数学演算のみを構成要素として使用して、適応可能な戦略とその初期パラメーターをゼロから進化させます。

時間が経つにつれて、この方法は、環境と対話しながら、感覚運動経験を使用してポリシーパラメータを微調整したり、制御ロジックを変更したり(ランダムな分岐がランダムなタイミングで中断されたときに新しい分岐を実行したりする)できる制御プログラム(下の図に示すような Python コード)を発見できるようになります。最終的には、変化する状況に適応することが可能になります。

具体的には、ARZ のアルゴリズムは、ロボットが環境と相互作用する各フェーズの開始時に実行される StartEpisode() と、メモリ状態(ポリシーは仮想メモリに作用する線形レジスタとして表されるため)の調整とコードの変更を担当する GetAction() という 2 つのコア関数で構成されています。

進化的探索において、ARZ は 2 つの制御アルゴリズムを使用します。多目的探索用の非優越ソート遺伝的アルゴリズム II (NSGA-II)と、単一目的探索用の正規化進化的アルゴリズム(RegEvo)です。

下の図に示すように、進化制御アルゴリズムの評価プロセスでは、単一目的進化探索では平均エピソード報酬をアルゴリズムの適応度として使用し、多目的探索では平均報酬 (最初の戻り値) とエピソードあたりの平均ステップ数 (2 番目の戻り値) の 2 つの適応度指標を最適化します。

著者らが説明しているように、動的な環境における特定の状況に対して最善の行動を予測するためには、ポリシーが現在の状況を過去の状況や行動と比較できなければなりません。

したがって、すべての ARZ 戦略は「ステートフル」になるように設計されています。つまり、メモリの内容はイベントのタイム ステップ内で持続し、それによって適応を実現します。

さらに、この方法では、元の AutoML Zero テクノロジーの教師あり学習モードも削除され、最終的には進化型プログラムが明示的に教師入力(報酬信号など)を受け取ることなく、ライフサイクル全体にわたって調整できるようになります。

ニューラルネットワークよりも効果的

著者らは、Yushu Technology 社の四足ロボットシミュレータ「 Laikago 」を使用して、シミュレーション環境での効果をテストしました。

最終的に、ARZ だけが、前進を維持し、ランダムな脚の骨折に直面しても転倒を回避する適応戦略を進化させることができました。

対照的に、広範なハイパーパラメータ調整と最先端の強化学習手法でトレーニングされた MLP ベースラインと LSTM ベースラインは両方とも失敗しました。

堅牢性がなく、毎回成功できるとは限りません。

あるいは、まったく成功しなかった。

ARZ がMLP や LSTM よりもはるかに少ないパラメータと FLOPSを使用する場合でも、これは当てはまることに注意する必要があります。

下の図は統計データです。どの列の報酬も 400 未満であれば、このレグのほとんどのテストは下降で終わることを意味します。

ここでも、ARZ を除いて、MLP 法のみが右後脚で 1 回成功できることが分かります。

上記に加えて、ARZ は現在の RNN 技術では実現できない解釈可能性も実証しています。

図に示すように、足の骨折のケースで発見されたさまざまな戦略は、次のように表すことができます。

最後に、ARZ は壊れた脚で歩くことに加えて、「ランダムに傾いたトラックを備えたカートポール システム」で自律的にバランスを維持することもできます。

論文の宛先:

https://arxiv.org/abs/2307.16890

<<:  LK-99の完全懸架映像が初めて物議を醸した。ネットユーザー:本当なら画期的

>>:  「編集神ヴィム」の父が死去。ネットユーザー「彼は多くの人の人生を変えた」

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能を活用してビジネスを成長させ、企業価値を創造する方法

組織は、全員を関与させれば、AI を活用してビジネスを成長させることができます。人工知能への投資は、...

...

メーター読み取りシステムにおける無線データ伝送モジュールの応用

周知のとおり、従来の手動メーター読み取り方法は時間がかかり、労働集約的であり、その正確性と適時性は保...

危険な顔認識:「尊厳を保たなければ」私たちは裸になる

[[276736]] AI顔変換ソフトウェアZAOの人気により、顔データアプリケーションのパンドラの...

インターネット上の無料データサイエンス、機械学習、人工知能のMOOCベスト20

21 世紀において、伝統的な教育は人生において必要な段階ではなく、選択肢となっています。インターネ...

1 つの記事で 26 個のニューラル ネットワーク活性化関数 (ReLU から Sinc まで) を紹介します

ニューラル ネットワークでは、活性化関数によって、指定された入力セットからノードの出力が決定されます...

2020年のコロナウイルスパンデミックが仕事の未来に与える影響

[[323304]] [51CTO.com クイック翻訳] 疫病の影響により、多くの企業従業員がリモ...

CVとNLPにおける対照学習の研究の進展

[[423166]]対照学習(CV)比較学習は何をするのでしょうか?教師ありトレーニングの典型的な問...

「幻想」を消し去れ! Google の新しい ASPIRE メソッドにより、LLM は自己採点が可能になり、その効果はボリューム モデルよりも 10 倍優れています。

大規模モデルの「幻覚」問題は解決されつつあるのでしょうか?ウィスコンシン大学マディソン校とグーグルの...

MITの最新の成果:AIが人間の脳が言語を処理する仕組みを解明

最新世代の予測言語モデルは、言語の根底にある意味の一部も学習したようです。驚くべきことに、これらのモ...

...

顔認識ソフトウェアはクマや牛の顔を見分けることを学習中

クマの生物学者メラニー・クラップハムは、カナダのブリティッシュコロンビア州で10年以上にわたりハイイ...

機械学習とビジネスを組み合わせる上で最も重要なことは何でしょうか?

純粋に学術的な目的で機械学習モデルを構築することと、製造、金融サービス、小売、エンターテインメント、...

...

マスク氏がai.comドメイン名を購入しました!ウルトラマンは数千万ドルを費やしてそれを購入し、4ヶ月でアイアンマンに売却した

ai.comドメイン名は、OpenAIが数千万ドルを費やしてマスク氏に購入された。これで、URL a...