世界で最も難しい「砂の彫刻」ゲームがAIによって解読された

世界で最も難しい「砂の彫刻」ゲームがAIによって解読された

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

13年前、そんな「異常」な難易度のゲームが大流行した。

その名前はシンプルでわかりやすい「 QWOP」です。つまり、プレイヤーはこれら 4 つのキーを使用して、ゲーム キャラクターの左右の太ももとふくらはぎを制御し、最速の速度で 100 メートル走ることができます。

実際、ほとんどのプレイヤーは、最初はゲームが終了する前にスタートラインを越えることさえできないかもしれません。

数メートル走れるなら、あなたは間違いなく達人であり、友達の前で自慢することもできるでしょう。

QWOP の難しさは、一度バランスを崩すと回復が難しいことです。100 メートル以内の距離で重心が前方または後方に傾きすぎないようにする必要があります。

厳しいトレーニングの後に初めて走り始めると、著者が50メートル地点に意図的に設置したハードルに戸惑うでしょう。100メートル走がどのようにしてハードル走になったのでしょうか?

△ 某エディターのゲームのスクリーンショット

4399ミニゲームが流行っていた時代には、このゲームも「男なら100メートル走」と揶揄されていました。難易度があまりにも「異常」であるため、QWOP 開発者は多くの中傷メールを受け取っています。

ほとんどの人にとって、ゴールラインに到達するのは難しいことですが、それでもそれを楽しんでいる熱心なプレイヤーのグループがいます。彼らは簡単にレースを完走できるだけでなく、世界ランキングを競うために自分自身に挑戦し続けます。

2か月前、日本人選手が48.34秒という新しい世界記録を樹立しました。

この「砂の彫刻ゲーム」を見ると、強化学習を使って二足歩行ロボットを訓練する場面を思い浮かべますか?

ボストン コンサルティング グループのデータアナリスト、ウェスリー・リャオ氏もそう考えている。

しかし、「異常な」難易度のゲームが AI の前ではただの霧雨にしかならないと考えないでください。

廖氏は、これまでのさまざまな強化学習アルゴリズムを組み合わせ、さらには「世界的に有名な教師」を招いて指導を行った。多大な努力の末、ついに先週、AIが人間のプレイヤーの記録を破ることに成功した。

このゲームの難しさは囲碁に劣らないことがわかります。 (手動犬頭)

試してみる

当初、Liao 氏は OpenAI Gym 強化学習環境を使用して AI をトレーニングし、ゲームの状態、操作、報酬と罰のメカニズムを設定しました。

状態には、各体の部分と関節の位置、速度、角度が含まれます。操作モードは、4 つの QWOP キー、6 つの 2 つのキーの組み合わせ、およびキーが押されていない状態の 11 に制限されています。

AI のトレーニングに使用されるアルゴリズムはACER (Actor-Critic with Experience Replay) です。このアルゴリズムの利点は、最新の経験だけでなく、保存されたデータ内の以前の経験からも学習できることです。

ACER は非常に複雑なため、Liao は他の人の実装コード「Stable Baselines」を使用しました。

廖氏はまず、AIに自ら学習させようとした。何度も実験を重ねた結果、AIは「膝をこする」ことでゴールラインを走ることしか学習しておらず、速度が非常に遅いことがわかった。

これは、多くの普通の人間のプレイヤーや他の強化学習アルゴリズムと同じで、記録を破ることはおろか、マスターのレベルにもまだ遠く及びません。

注意深く分析すると、AI はストライドのメカニズムをまったく学習しておらず、ゴールラインに到達するための最も安全で最も遅い方法のみを学習していることがわかります。

独学をAIに全面的に頼ることはできないようです。

走ることを学ぶ

DeepMind がトップクラスのチェスプレイヤーを使って AlphaGo にチェスの遊び方を教えたのと同様に、Liao 氏は人間のプレイヤーも AI に教えることができるのではないかと考えました。

しかし、廖選手の実力はトップ選手に遠く及ばず、せいぜい28メートルしか走れなかった。

これらはどれも重要ではありません。重要なのは、少なくとも Liao がより大きなステップを踏むスキルを持っていることです。AI がこの「粗悪な技術」からランニング スキルを学習できることを願うばかりです。

しかし残念なことに、その結​​果はAIが「邯鄲で歩くことを学ぶ」良い例となり、走る技術を習得できなかっただけでなく、スタート地点で転倒してしまった。

その後、廖氏はAIが自力でトレーニングを継続できるようにした。諺にあるように、師匠はあなたを門まで導くことしかできず、実践するのはあなた次第です。AIは人間の技術と自己学習能力を組み合わせることができるのでしょうか?

結果は素晴らしいものでした。90 時間のトレーニングを経て、AI はついに人間のように走ることを学習しました。

最終結果は1分25秒で、これはすでに世界ランキングのトップ15に入っており、人間を超えるのもそう遠くない。

次にやるべきことは、AIにさらに多くのスキルを教えることですが、私のスキルは貧弱すぎます。

したがって、AI のレベルをさらに向上させたいのであれば、トップレベルの専門家の助けを求める必要があります。

トッププレイヤーが助ける

廖さんはスピードランニングのランキングのビデオを観察し、トップ選手の秘訣は左足をさらに高く上げてより速く走ることだということを発見した。

△トッププレイヤーgunmanekoのキックスキル

彼は世界のトッププレイヤーであるgunmanekokurodoにキックのテクニックについてアドバイスを求め始めました。

二人の選手は彼の質問に熱心に答えた。蔵人氏は、この手法の鍵はゲームキャラクターの垂直方向の移動を減らすことだと指摘し、体の高さの維持をAIの報酬関数に加えることを提案した。

Liao 氏は自分のコードを Kurodo 氏と共有し、Kurodo 氏はそれを使用して自分のゲームのキーストロークを50 回記録し、それを Liao 氏に送信しました。

廖氏はこのデータを活用して AI を事前トレーニングしようとしたが、うまくいかなかった。 AIがキックのテクニックを習得する前に、基本的な走り方を忘れてしまいました。

廖はアプローチを変えて、黒戸のデータを AI のリプレイ バッファーに挿入する必要がありました。これは、AI のメモリの半分が AI 自身のメモリとなり、残りの半分が Kurudo のメモリとなるように AI のメモリを変更することと同じです。

そして、AIが自分でプレイするたびに、Kurodoのデータを1回注入することで、AIがメモリからセクションをランダムに選択して学習するときに、2つのメモリを選択する確率が同じになるようにし、新しいスキルを学習する過程で基本的な操作を忘れないようにします。

AIは蔵人のデータを使って15時間トレーニングし、ついにキックを習得した。しかし、2つの記憶を連携させることができなかったため、長時間走ると動きが不安定になってしまった。

その後、廖氏は黒戸氏の記憶を削除し、AIにさらに25時間トレーニングさせ、合計トレーニング時間は65時間になった。

最終的にAIのスコアは1分8秒に達し、ついにトップ10入りを果たした。

世界記録を破る

廖氏は、AIにこのゲームをプレイする方法を教える過程をビデオに撮り、オンラインで公開した。 1か月前、海外メディアのGismodoは彼にこう尋ねた。「なぜAIはまだ世界記録を破っていないのか?」

そこで、Liao は速度を最適化するためだけに存在する新しい AI を再トレーニングしました。

新しい AI は、Prioritized DDQN アルゴリズムを使用します。このアルゴリズムは、均一なサンプリングではなく、学習効率の高い状態に重みを追加するため、新しい AI は古い AI が習得したスキルをすばやく学習できます。

さらに、新しい AI の報酬関数では、体の高さや膝の曲げ角度などのパラメータが削除され、前進速度のみに関連するように変更されています。

新しい AI は、まず既存のデータを使用してわずか数分間事前トレーニングされ、その後 40 時間の自己トレーニングが行われました。最終的に、新しい AI による 1 秒あたりのアクション数は、トレーニング環境では 9 から 18 に増加し、テスト環境では 25 に達しました。

新しい AI はキックのテクニックを非常に安定して把握しており、障害物の影響を受けてもすぐに回復できます。

素早く効率的な動きにより、AI のパフォーマンスは 47.34 秒に向上し、人間の記録である 48.34 秒よりわずか 1 秒速くなりました。

これにより、ついに人工知能が人間を上回るゲームのリストに新たなゲームが加わることになります。

もう一つ

それで終わりだと思いますか?

100メートルを走るだけでは終わりではありません。このゲームには世界レベルの難易度もあります。 「男ならマラソンを走れ」

廖を助けたプレイヤー、黒戸は最近世界記録を提出した。この偉業を達成したのは世界でたった二人だけだ。

彼らがコンピューターの前で何時間も QWOP と入力している姿を想像するのは難しい。

さらに、QWOP の開発者であるBennett Foddy氏は、この種の「異常な」独立系ゲームの開発にこだわり続けています。

[[388846]]

ベネット・フォディの「Getting Over It」という非常に有名なゲームがあり、その中国語名は「挖地求升」です。遊び方は、人が瓶の中に入れられ、ハンマーを使って自分自身を持ち上げるというものです。

[[388847]]

フォディ氏はプリンストン大学とオックスフォード大学で博士研究員を務め、現在は独立したゲームデザイナーです。 QWOP はプリンストン大学在学中に彼によって開発されました。

優秀な学生が開発したゲームは、貧しい学生にとっては本当に手の届かないものだとしか言えません。

<<:  ベクトル監視なしのベクトル画像生成アルゴリズムがCVPR 2021に選出

>>:  Java プログラミング スキル - データ構造とアルゴリズム「スレッド バイナリ ツリー」

ブログ    
ブログ    

推薦する

3つの勾配降下法アルゴリズム(BGD、SGD、MBGD)の違い

序文ネットワークをトレーニングするときに、batch_size を設定することがよくあります。この ...

人工知能と機械学習の時代に新たなサイバー脅威にどう対抗するか

侵入テスト サービスの必要性は、システムへの攻撃が頻繁に行われるようになった 1 世紀以上にわたって...

機械学習の時代に神経科学者はいかにして人間の思考を読み取り解読できるか

[[408373]]この記事では主に機械学習 (ML) と機能的磁気共鳴画像法 (fMRI) の応用...

自動で本を書いてくれるChatGPTプラグイン3つが人気に。何もしなくてもAI自身にお金を稼ぐ方法をもっと質問できる!

ChatGPT プラグインの数が爆発的に増加しました!総数は390に達し、オープン当初の74に比べ...

3分レビュー! 2021年10月のロボット資金調達の概要

[[430902]]自動化の需要が継続的に高まっているため、ロボット産業の発展は加速段階に入り、わが...

デジタル変革の波の中で、車の購入もアルゴリズムの最適化に頼ることができるのでしょうか?

近年、デジタル変革の波に牽引され、自動車業界は着実な変革、アップグレード、ビジネスの再編を遂げていま...

...

マイクロソフトのAI研究者が、クラウドストレージリンクの設定ミスにより、大量の内部データを誤って公開した。

9月19日、サイバーセキュリティ企業の最新調査によると、マイクロソフトの人工知能研究チームがソフト...

エンジニアリングだけではありません!人間の認知バイアスが原因の AI 研究における 12 の盲点

[[255272]]ビッグデータダイジェスト制作編集者: ゴウ・シャオバイ、チャン・チウユエ、アイリ...

プログラマーを夢中にさせるソートアルゴリズムに関するビデオ

ルーマニア人はダンスが大好きな国民です。古いルーマニア映画「チプリアン・ボロンベスク」をご覧になった...

フロントエンドインテリジェンスは、AIがセキュリティに着地するための第2の足掛かりになりつつある

近年、セキュリティ業界のデータ量は飛躍的に増加しており、バックエンド サーバーはますます多くのデータ...

女性の死因第1位である乳がんをディープラーニングで検出するにはどうすればいいのでしょうか?

[51CTO.com からのオリジナル記事] 乳がんは女性に最も多く見られる浸潤がんであり、女性の...

機械学習トレーニングマニュアル: 頑固なブロンズから最強の王へ

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

ルカンはソラを世界モデルとして非難し、自己回帰LLMは単純すぎると述べた。

近年、ソラは世界中の注目を集めています。それに関連するすべてのものが極端に拡大されます。 Sora ...

...