4kスター、AIが強化学習でポケモンをプレイ、2万ゲームを経て勝利に成功

「ポケモン」の話をすると眠くならなくなりましたか？

「Pokemon」は「ポケモン」の非公式翻訳です。 1996年から現在に至るまで、いくつかの世代に分かれており、多くのプレイヤーの心の中で定番となっています。このゲームはシンプルなスタイルですが、戦略ゲームであるため、含まれるキャラクター、属性、戦術、システムなどにより、始めるのは簡単ですが、習得するのは難しいゲームになっています。

AI にポケモンをプレイするように訓練したら、どれくらい上手くなると思いますか?

Twitter ユーザー @computerender は、強化学習を使用して AI に Pokémon Go をプレイするトレーニングを行いました。彼はまた、ビデオを通じてそのプロセスを記録し、トレーニングのプロセスを鮮明に示しただけでなく、その方法を詳細に紹介しました。

プロジェクトアドレス: https://github.com/PWhiddy/PokemonRedExperiments
動画リンク: https://www.youtube.com/watch?v=DcYLT37ImBY

動画を開くと、AIがプレイする『ポケットモンスター赤』のゲーム2万本を視聴できます。当初、AI には知識も経験もなく、ボタンをランダムに押すことしかできませんでした。しかし、5年間のシミュレーションゲームを通じて、経験からさらに多くの能力を習得しました。最終的に、AIはポケモンを捕まえ、進化させ、ジムリーダーを倒すことができました。

それで、これはどのように行われるのでしょうか?

最も基本的な目標は、AI にマップを探索させることです。著者らが採用したアプローチは、AI が新しい場所に到達したときに報酬を与えるというものです。

著者は、ゲームをプレイ中に AI が見るすべての画面を記録し、現在の画面と記録されたすべての画面を比較して、近い一致があるかどうかを確認します。一致するものが見つからない場合は、AI が何か新しいものを発見したことを意味します。この場合、作者は懸賞金を出して、新しい画面を記録に追加します。ユニークな画面の報酬は、ゲームの新しい部分を探し続ける意欲を刺激します。

数回の反復を経て、AI は最初の部屋からはるかに速く移動できるようになりました。しかしその過程で、著者は AI が探索を進めていくと、どこかに「閉じ込められてしまう」ことを発見しました。これは、シーン内に草や水、NPC が歩き回っているため、新しいシーンの生成がトリガーされやすくなるためです。著者らは、画像の違いに対するピクセルしきい値を変更することで改善を図りました。

さらに、AIもほぼ同じ戦闘画面に遭遇し、報酬を獲得できなかったため逃げていきました。しかし、戦わなければ進歩はない。最後に、著者らは AI を前進させ続けるために追加の報酬を追加しました。

戦闘シーンは似ている

レベル報酬を追加

もちろん、AI はこのプロセスでこれよりもはるかに多くの問題に遭遇します。

ポケモンバトルに長い時間がかかり、デフォルトの技を使い果たすと、動けなくなるようで、大幅な改善が見られるまで何度もトレーニングを繰り返す必要がありました。著者らは、ハトが初めて攻撃するのを観察した後、ハトは動きが尽きたときに何をすべきかを最終的に学習し、別の動きに切り替えることができることを発見した。

すべてが順調に進んでいた矢先、著者は重大な問題を発見しました。 AI は、勝てない戦闘であってもすぐに戦闘に参加します。また、ポケモンセンターに行って回復することはないので、負けると常にゲームの最初に戻ります。

作者は、戦闘に負けたときに報酬を減算することでこれを改善しようとしましたが、うまくいきませんでした。 AI は負けそうになると、厳しい戦いを避ける代わりに、ボタンを押すことを拒否し、いつまでも時間稼ぎを続けます。これは技術的には目標を達成しますが、作成者の意図したものではありません。

著者は注意深く観察した結果、まれに報酬が大幅に減少するケースがあることを発見しました。常に、AI は 1 回のゲームで予想よりも 10 倍多くの報酬を差し引きます。筆者が確認してみると、隅っこにあるパソコンの前でAIポケモンセンターがうろついているのがわかった。ログインしてしばらく無目的にボタンを押していたら、ポケモンがシステム内に預けられ、その後大きな報酬が失われました。これは、報酬がポケモンの合計レベルに基づいて分配されるためです。したがって、レベル 13 のポケモンを預けると、すぐに 13 ポイントが失われます。これは強い否定的な信号を送信し、AI にトラウマのような経験を生み出します。 AI には人間のような感情はありませんが、非常に大きな報酬価値を持つイベントは AI の行動に永続的な影響を及ぼす可能性があります。この場合、ポケモンを一度失うだけで、AI はポケモンセンター全体について否定的な連想を形成し、将来のゲームで完全にポケモンセンターを避けるようになります。この問題を解決するために、著者らはレベルが上昇した場合にのみ報酬を与えるように報酬関数を再度修正しました。これで問題は解決したようです。トレーニングを再開すると、AIはポケモンセンターに通い始めました。

ポケモンセンター内のムーンマウンテンの入り口に到着したとき。ここでは、魔法の鯉を500元で売ってくれる男性がいます。 Magic Carp は短期的にはまったく役に立たないので、AI はそれに興味を持たないと思うかもしれません。ただし、これを購入すると、レベル 5 に到達するのが非常に簡単になります。つまり、AI は毎回それを購入します。合計すると、すべてのゲームで 10,000 個以上の Magic Carbs を購入しました。

著者はAIの行動を人間と比較する

著者らは AI の移動経路も分析し、AI はマップのほぼすべての端で反時計回りに歩くことを好むようだと報告した。つまり、右端に立っているときは、上に向かうことを好むということであり、これは青で示されているケースです。上にエッジがある場合は、ピンク色で示されるように左に移動する傾向があります。オレンジ色で示される左側のエッジがある場合、下降する傾向があります。下にエッジがある場合は、緑色で示されるように右に行くことを優先します。

著者らはビデオの中で、機械学習の基本的な課題は、プログラムに明示的にやり方を指示することなく、何かを実行させることであることを示しています。つまり、モデルが期待どおりに動作しない場合は、学習アルゴリズムまたはオンライントレーニングデータを通じて間接的にモデルを改善する方法を見つける必要があります。強化学習は間接的なレイヤーを追加します。これに基づいて、モデルに入力されるトレーニングデータは静的ではなく、制御可能でなくなり、以前の時点でのモデルの動作の産物になります。このフィードバックループにより、予測不可能な動作が発生する可能性があります。

組織規模のリソースがない場合、著者は次のことを実行できると提案しています。

ツールとリソースの制限を回避するために問題を単純化します。
次に、妥当な時間とコスト内で実験のセットアップを繰り返すことが重要です。
次に、AI が環境とどのように相互作用するか、報酬関数がどのように設計されるかを慎重に検討する必要があります。動画では著者が使用した報酬関数を紹介していますが、スペースの都合上、すべてを紹介することはできません。 7 つの重要な機能が使用されていますが、実際にはテストされていない機能や最終的に使用されていない機能がさらに多数あります。
視覚化を通じて AI の動作を理解します。

著者らは、転移学習法も将来適用される可能性があると述べている。つまり、モデルは大規模で広範なデータセットで事前トレーニングされており、それを新しいタスクに非常に効果的に活用することができます。過去には、これがコンピュータービジョンと自然言語処理の分野に革命をもたらしました。これを RL に適用する興味深い初期の研究はいくつかありましたが、まだ本格的には始まっていません。これは、これらのタイプのタスク用の大規模で多様なデータセットが不足しているためです。

ビデオの最後に、作者はプロジェクトの運用上の詳細も紹介しました。

詳細はオリジナル動画をご覧ください。

<<:

>>: 10年後の市場規模は1.3兆ドル。「モデル電源時代」到来