目標を達成するために、Google AI は自身の体をこのように変形させました...

目標を達成するために、Google AI は自身の体をこのように変形させました...

[[246219]]

強化学習 AI がゲームをプレイすることは珍しくありません。

インテリジェントエージェントは仮想世界で死んだり生きたりしながら、どのような戦略が長く生き、より多くの報酬を得ることができるかを徐々に理解していきます。

しかし、AI はこれを知らない可能性があり、ゲームをうまくプレイできないのは、インテリジェント エージェントのボディ構造の問題が原因である可能性があります。

戦略を学習しながら同時に体型を改善できれば、より優れた強化学習AIが作れるかもしれません。

そこで、Google Brain の David Ha 氏は、自社の AI 向けに 2 つの特別なトレーニング プランを開発しました。

エージェントは、現在のタスクに最適な構造を見つけるために、脚の長さなどの体の形状を継続的に調整し、同時に戦略トレーニングも行います。


△ボディトレーニング前(左)とボディトレーニング後(右):明らかにスピードが違う

ご覧のとおり、エージェントは足を細くし、速度を大幅に速くしました。

さらに、オフロード機能も開発できます。

険しい旅の途中で、原寸大の知能体は何度も転覆した。


△改修前は横転が頻発していた

しかし、優雅な体型が完成すると、横転はほとんどなくなり、戦略的なトレーニング時間も当初の30%に短縮されました。

科学的な数字がわかれば、戦略を学ぶのは簡単になります。

では、どのような優雅な姿が、パフォーマンスを向上させながら時間コストを削減できるのでしょうか?しばらく見ていれば分かるでしょう。

美しく知的である秘訣は何ですか?

これまで、インテリジェントエージェントの形状と構造はほぼ固定されており、戦略のトレーニングのみに重点が置かれていました。ただし、システムによって事前に設定されたボディ形状は、通常、(特定のタスクに対して)最も理想的な構造ではありません。

そのため、前述のように戦略を学ぶ必要があり、同時に体の最適化も学ぶ必要があります。

[[246222]]

この場合、ポリシー ネットワークの重みパラメータのみを使用してトレーニングするだけでは不十分であり、環境もパラメータ化する必要があります。

太ももやふくらはぎの長さ、幅、質量、向きなどの身体の構造的特徴はすべてこの環境の一部です。

ここでの重みパラメータwは、ポリシーネットワークパラメータと環境パラメータベクトルを組み合わせたもので、身体とスキルの両方を同時に育成することができます。

重み w が継続的に更新されるにつれて、インテリジェント エージェントはますます強力になります。

[[246223]]

身体変形は役に立つのか? AIが戦略のみを学習し、構造を変更しないエージェントと競争している限り、その報酬スコアが増加する場合、それはAIがこの環境により適した体型を見つけたことを意味します。

AI の冒険心を養うために、研究者はエージェントが自ら挑戦するように導く難しい行動に対する報酬を増やしたことに注目してください。

体の変化、非常に良い結果

競技会場は2つの部分に分かれており、1つはBullet物理エンジンをベースにしたロボットシミュレーションライブラリであるRoboschool、もう1つはBox2D物理エンジンをベースにしたOpenAI Gymです。

どちらのタイプの環境もパラメータ化されており、AI はそれらのパラメータを調整することを学習できます。

ハイスコ​​アポーズをアンロック

まず、サッカー場(RoboschoolAnt-v1)に行きます。ここでのインテリジェント エージェント Ant は 4 本足のモンスターです。各足は 3 つの部分に分かれており、2 つの関節で制御されます。脚はAIに調整を任せており、球体は調整できません。


△ 3セクションの脚、最も内側のセクションは目立ちにくい

タスクは簡単です。できるだけ遠くまで走ります。

トレーニング後 (上、右)、エージェントの最も明らかな変化は、脚がより細くなり、4 本の脚の長さが異なり、対称性が崩れていることです。体の形が変わった後、ペースも大幅に上がり、長い脚のモンスターは茶色のトラックを早く横切りました。

ボーナスポイントを見てみましょう。100 回のテストで、元の構造のスコアは 3447 ± 251 でしたが、新しい構造のスコアは 5789 ± 479 で、大幅な改善が見られました。


△左がオリジナル、右がボディトレーニング後(赤線はレーザーレーダー)

次に、緑地シーン (BipedalWalker-v2、Box2D ベース、Gym に属する) を入力します。ここでのインテリジェントエージェントは二足歩行で、「LIDAR」の誘導に従って前進します。

タスクは、指定された時間内に平穏な地形を横断することです (これは簡単なバージョンです。障害物の多いより複雑なバージョンについては以下を参照してください)。スコアに関しては、100 回のロールアウトが 300 ポイントを超えるとミッションは成功したとみなされます。

元の図は 347 ポイントを獲得しましたが、最適化された図は 359 ポイントを獲得しました。

[[246226]]

どちらのタスクも成功しましたが、インテリジェントボディの構造が変更されたことにより、脚が細くなっただけでなく、4本の脚の長さも変更され、AIに前進するための新しい方法が与えられました。アクションが簡単になり、スコアも以前より高くなりました。

良い数字は戦略の学習を加速させる

上記の緑地のハードコア バージョン (BipedalWalkerHardcore-v2) はこちらです。道は険しく、何千もの山と谷があり、注意しないと奈落の底に落ちてしまいます。

デビッド・ハ氏はここで、強靭な体格が、単に「2つの科目を同時に学習する」という単純な組み合わせではなく、知的エージェントの戦略的学習に利益をもたらすことができることを証明したいと考えている。

これまでの全体的に細い脚とは異なり、今回は知能体の後ろ脚が、溝の長さと幅が同等の太いふくらはぎに進化しました。


△赤い線はレーザーレーダー

こうすることで、峡谷を渡るときに後ろ足で橋を架け、知能の高い体がスムーズに通過して転倒しないように保護することができます。

同時に、前足は前方にどのような障害物があるのか​​を検知する「危険探知機」の役割を担っています。「レーザーレーダー」の補助として、後足の次の行動の基盤を提供することができます。

重要なのは、この新しいボディの作成中に、AI がレベルを通過するための戦略をすでに学習しており、それにかかった時間はわずか 12 時間だったことです。比較すると、ボディ最適化のない元のトレーニング方法では 40 時間かかりました (フィードフォワード ポリシー ネットワーク、96 GPU)。

つまり、エレガントな構造はインテリジェントエージェントの学習プロセスを加速します。


△ボディ最適化(オレンジ)を追加すると、トレーニング効率が大幅に向上し、約1,000世代で目標達成

脳の穴は空から降ってくるものではない

***、David Ha は、インテリジェント エージェントの構造を改善することでトレーニングの効率が向上することをどのように予見できたのでしょうか?

彼は自然からインスピレーションを受けたと語った。

[[246228]]
△ 間違ったデモンストレーション

動物の中には、脳死後もジャンプしたり泳いだりできるものもいます。

つまり、生物の多くの行動は脳に依存していないのです。

身体化された認知と呼ばれる理論があり、認知の多くの特性は脳だけで決定されるのではなく、運動システム、感覚システム、生物と環境の相互作用など、生物のあらゆる側面が認知に影響を与えると主張しています。

たとえば、長期にわたるトレーニングでは、アスリートは身体的な運動だけでなく、特定の心理的資質も発達させます。

デビッド・ハ氏は、身体を訓練することで認知に影響を与えるというこの現象が AI でも起こる可能性があると考えています。

第二に、トレーニングを通じてインテリジェントエージェントの構造を変えるというアイデアも自然から来ています。

[[246229]]
△フラミンゴはもともと赤くないのですが、小魚やエビを食べると羽が赤くなります。

高校の生物学では、表現型は遺伝子型と環境の相互作用の結果であると教えられます。

そして、さまざまな仮想シーンにより、環境にさらに適応できるインテリジェントな構造も目立つようになります。このように、AI は環境選択の助けを借りて、より洗練されたスキルを開発することができます。

運命は言葉では言い表せないほど素晴らしい。

論文ポータル: https://designrl.github.io/

[[246230]]

<<:  ホワイトボードに描くだけでコードに変換されます。AI は UI デザイナーに取って代わるのでしょうか?

>>:  人工知能が仕事を奪っていますが、将来の職場で私たちは何のために戦うのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

人工知能やビッグデータ製品の開発において、特に注意すべき点は何でしょうか?

近年、人工知能は科学技術の発展の重要な方向となっており、ビッグデータの収集、マイニング、応用の技術は...

機械学習を学ぶには? Alibaba のプログラマーが、わずか 7 つのステップで Python 機械学習を習得できるようお手伝いします。

概要: 現在、インターネット上の Python 機械学習リソースは非常に複雑で、初心者にとっては混乱...

人工知能は二酸化炭素排出量のせいで制限されるのでしょうか?

AI にカーボン フットプリントがあることは驚くことではありません。カーボン フットプリントとは、...

...

Redditのネットユーザーが議論中!コンピューティング能力とデータは本当にすべてを解決できるのでしょうか?

誰もが知っているように、コンピューティング能力とデータは非常に重要ですが、それだけで十分でしょうか?...

AI がソフトウェアをテストし、バグを修正できるようになれば、プログラマーの仕事は楽になるのでしょうか?

10月18日のニュース、単純な手作業から複雑な法的判断や医療診断まで、ロボットと人工知能が驚くべき...

リアルスティールの実写版!山東省の3人組のチームが、最小遅延12ミリ秒の史上最速ボクシングロボットを開発した。

この男性が自分の動きでロボットを操作している様子を注意深く見てください。彼がパンチを繰り出すと、ロボ...

AI開発と倫理におけるリアリズムの役割

人工知能(AI)は、最初のコンピュータが発明されて以来、長い道のりを歩んできました。今日、人工知能は...

プログラマーアルゴリズムの基礎 - 貪欲アルゴリズム

序文貪欲は人間が本来持つ能力であり、貪欲アルゴリズムとは貪欲な意思決定に基づいた全体計画の総称です。...

Google Brain の公開: アルゴリズムのエラー修正と AI バイアスの解決に重点を置く

テンセントテクノロジーニュース、1月29日、海外メディアの報道によると、グーグルCEOサンダー・ピチ...

AI+CRMの啓示:人工知能は、アプリケーションシナリオに実装された場合にのみ、大きな可能性を発揮できます。

[51CTO.comより] 両会期中の政府活動報告に人工知能が盛り込まれた。万鋼科学技術部長は、中...

...

会話型AIが顧客体験を向上させる方法

[[380661]] [51CTO.com クイック翻訳] 会話型 AI により、アプリケーションは...

権威ある業界レポートが発表されました。我が国のロボット開発の特徴と傾向は何ですか?

ロボットは「製造業の至宝」とみなされており、ロボット産業の発展は国家のイノベーションと産業競争力の向...