このレーシングAIはもはや短期的な楽しみを求めるのではなく、長期的な戦略を考慮することを学んだ。

このレーシングAIはもはや短期的な楽しみを求めるのではなく、長期的な戦略を考慮することを学んだ。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

レーシングゲームをプレイする AI は、スピードと楽しさだけを追求するものではありません。

彼らは戦術的な計画について考え始め、独自の運転スタイルや特技を開発しました。

たとえば、ターンだけが得意なこの「部分的な」プレーヤーは、急カーブに直面したときには激しくパンチし、危険なドリフトをしますが、直線に直面したときには臆病になり、動揺してしまいます。

長期的なビジョンを持ち、戦術的な計画を学習した AI もあります。レース中のこの 2 台のグリーンの車は、カーブで減速しているように見えますが、急カーブをスムーズに通過し、直接の GG 結果を回避しています。

また、地図がどれだけ新しいものであっても、推論を導き出して旅全体を完了できる AI もあります。

彼は本当にレーストラックで考えることを学んだようだ。

(前述のように、ある科目が苦手だった選手も、不断の努力で復活を遂げた)

この訓練の結果が発表されると、多くのネットユーザーが注目した。

強化学習により、AIは「長期的に考える」ことを学ぶことができる

トレーニング トラックは、カスタマイズ性に優れたトラック エディターでプレイヤー コミュニティの間で有名な Trackmania というゲームから取得されています。

レーシング AI の可能性をさらに刺激するために、開発者は紆余曲折のある悪魔的なマップを作成しました。

開発者はyoshtmと呼ばれ、以前にも AI を使用してこのゲームをプレイしたことがあり、激しい議論を巻き起こしました。

当初、YoshTM は 2 つの隠れ層を持つ教師あり学習モデルを使用していました。

モデルには、車の現在の速度、加速度、道路セクションの位置など、16 個の入力が含まれています。入力パラメータはニューラル ネットワークによって分析され、最終的に 6 つのアクションのうちの 1 つが出力されます。

このモデル アーキテクチャに基づいて、開発者は複数の AI が同じマップ上で競争できるようにします。

複数回の反復を通じて、さまざまな AI のニューラル ネットワークに微妙な違いが現れ、最終的には最も優れた AI が際立つようになります。

この方法では AI が運転を学習できるようになりますが、次のような問題も発生します。

AI は多くの場合、速度やゴールラインを通過するのにかかる時間など、単一の指標に基づいてのみ自分自身を評価できるため、さらに先に進むことが困難になります。

2年が経過した今回、レーシングAIは長期的な視点で戦略を立てること(急カーブを曲がる際の速度調整など)を学習しただけでなく、新しいマップへの適応性も大幅に向上しました。

その主な理由は、今回開発者が導入した新しい手法である強化学習にあります。

この方法の核となる概念は「報酬」であり、より多くの報酬をもたらす行動を選択することで、最終的な効果を継続的に最適化することです。

レーシング ゲームで AI をトレーニングする場合、yoshtm によって定義された報酬は非常に標準的です。つまり、速く走れば走るほど、より多くの報酬が得られ、間違った方向に進んだり、コースから外れたりするとペナルティが課せられます。

問題は、カーブに近づくときに加速するなどの一部のアクションは、短期的にはプラスの報酬につながるかもしれませんが、長期的にはマイナスの結果をもたらす可能性があることです。

そこでyoshtmはDeep Q Learningという手法を採用しました。

これは、環境のモデルを必要とせずに、特定の状態に対して利用可能なアクションの期待される効用を比較する、モデルフリーの強化学習手法です。

ディープQラーニングは、ディープネットワークパラメータの学習を通じて、Q値予測の精度を継続的に向上させます。言い換えれば、AIがレーシングゲーム内の各アクションの予想される累積報酬を予測できるようになり、「長期的な戦略的ビジョンを持つ」ようになります。

ランダムな出生点はAIの「偏り」を修正するのに役立つ

次に、正式なトレーニングが始まりました。

Yoshtm 氏の考えは、AI がまずランダムな探索を通じてできるだけ多くのマップ データを収集するというものです。彼はこれを動作探索と呼んでいます。

探索比率が高いほどランダム性が強くなります。比率が下がると、AIは上で設定した報酬を獲得すること、つまりマップを走ることに集中するようになります。

しかし、約3万回のトレーニングを経て探索率が5%に低下すると、AIは行き詰まってしまいました。

根本的な問題は、AI が「偏っている」ということだ。

初期段階で複数のカーブを走行した経験により、AIは過剰適合しました。長い直線コースなどの新しいコースタイプに直面したとき、車体は不安定で揺れ、最終的に「自殺」を選択しました。

この問題を解決するにはどうすればいいでしょうか?

Yoshtm はマップを作り直すことを選択せず​​、AI のスポーン ポイントを変更することを選択しました。

トレーニングを開始するたびに、AI の開始地点がマップ上のランダムな場所にランダムな速度と方向で生成されます。

「Crazy Furious」は多くのトレーニングを必要とするゲームであり、AIも同様です。

少なくとも、この AI が多数の初心者に勝てると確信しました。

この方法はすぐに効果を発揮し、AIはついにトラックを完成させることができました。

次のステップは継続的なトレーニングでした。最終的に開発者yoshtmがAIと競争し、今度はAIが6分20秒という最高の結果を達成しました。

まだ実際の人間が操縦する車ほど速くはありませんが、AIは会場への適応力が高く、芝生でも泥道でも経験からすぐに学習することができます。

ヨシュトムは最後にこう言った。

「Crazy Furious」は多くのトレーニングを必要とするゲームであり、AIも同様です。

少なくとも、この AI が多数の初心者に勝てると確信しました。

<<:  Adobe は GAN をステッチされたモンスターに変え、1024 解像度の全身ポートレートを空中から作り出した

>>:  Nvidia の新 GPU: 800 億個のトランジスタを搭載した 4nm プロセス、新しい Hopper アーキテクチャは驚異的

ブログ    
ブログ    

推薦する

人工知能(AI)の今後の動向

[[417224]] 21 世紀以降、人工知能は世界中で新たな科学技術革命と産業変革を主導し、人々の...

Nvidiaが自動運転AIアルゴリズムをオープンソース化、チップ性能をXavierの7倍にアップグレード

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

新型コロナウイルスは「ターミネーター」か?人工知能で疫病と闘う

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

張三が試験でカンニングをしたい場合、どのような暗号化アルゴリズムを使用すればよいでしょうか?先生にバレないように?

「平常時に努力しなければ、試験では友達に頼らざるを得なくなる」ということわざがある。試験が近づくに...

...

AIの革命的道: OpenAIのGPT-4ツアー

ソフトウェア開発者は OpenAI の GPT-4 を使用して複数のアプリケーションを生成し、時間の...

基本モデル+ロボットの開発軌跡を見通すレビュー

ロボット工学は、特にスマートテクノロジーと組み合わせると、無限の可能性を秘めたテクノロジーです。近年...

...

大学生が、1時間で600本の鉄筋を結束できる鉄筋結束ロボットを発明。建設労働者は再び失業することになるのだろうか?

人工知能の発展により、肉体労働のみに頼っている労働者の中には、徐々に失業に直面している者もいる。例え...

Google X、手作業でラベル付けすることなく一目で対象部品を見つけられるグリッパーアームをオープンソース化

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ハリウッドのAIに対する攻撃は、AIの脚本の最新エピソードに書かれていた

今日まで、『ゲーム・オブ・スローンズ』の最終シーズンに失望していたかもしれません。しかし、AI にま...

Google のアルゴリズムが明らかに: 検索リクエストは平均 2,400 キロメートル往復移動します

Google 検索の進化3月12日のニュース: 世界で最も広く使われている検索エンジンであるGoog...

アルゴリズムによる管理下にある労働者:労働の退化と集団不安

[[426039]]かつて人々は、技術の進歩が労働者に大きな解放をもたらし、人類が牧歌的な生活を送れ...

Appleはすでに社内でAppleGPTを使用していると報じられている

7月24日、Appleは社内で従業員の業務を支援するためにチャットボットを使用しており、将来的には顧...

1300億のパラメータを持つ中国初の大規模数学モデルMathGPTがリリースされました!複数のベンチマークがGPT-4を上回る

数学的 AI ビッグモデルはこの分野の将来を変える可能性があります。本日、中国初の兆スケール数学モデ...