このレーシングAIはもはや短期的な楽しみを求めるのではなく、長期的な戦略を考慮することを学んだ。

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

レーシングゲームをプレイする AI は、スピードと楽しさだけを追求するものではありません。

彼らは戦術的な計画について考え始め、独自の運転スタイルや特技を開発しました。

たとえば、ターンだけが得意なこの「部分的な」プレーヤーは、急カーブに直面したときには激しくパンチし、危険なドリフトをしますが、直線に直面したときには臆病になり、動揺してしまいます。

長期的なビジョンを持ち、戦術的な計画を学習した AI もあります。レース中のこの 2 台のグリーンの車は、カーブで減速しているように見えますが、急カーブをスムーズに通過し、直接の GG 結果を回避しています。

また、地図がどれだけ新しいものであっても、推論を導き出して旅全体を完了できる AI もあります。

彼は本当にレーストラックで考えることを学んだようだ。

（前述のように、ある科目が苦手だった選手も、不断の努力で復活を遂げた）

この訓練の結果が発表されると、多くのネットユーザーが注目した。

強化学習により、AIは「長期的に考える」ことを学ぶことができる

トレーニングトラックは、カスタマイズ性に優れたトラックエディターでプレイヤーコミュニティの間で有名な Trackmania というゲームから取得されています。

レーシング AI の可能性をさらに刺激するために、開発者は紆余曲折のある悪魔的なマップを作成しました。

開発者はyoshtmと呼ばれ、以前にも AI を使用してこのゲームをプレイしたことがあり、激しい議論を巻き起こしました。

当初、YoshTM は 2 つの隠れ層を持つ教師あり学習モデルを使用していました。

モデルには、車の現在の速度、加速度、道路セクションの位置など、16 個の入力が含まれています。入力パラメータはニューラルネットワークによって分析され、最終的に 6 つのアクションのうちの 1 つが出力されます。

このモデルアーキテクチャに基づいて、開発者は複数の AI が同じマップ上で競争できるようにします。

複数回の反復を通じて、さまざまな AI のニューラルネットワークに微妙な違いが現れ、最終的には最も優れた AI が際立つようになります。

この方法では AI が運転を学習できるようになりますが、次のような問題も発生します。

AI は多くの場合、速度やゴールラインを通過するのにかかる時間など、単一の指標に基づいてのみ自分自身を評価できるため、さらに先に進むことが困難になります。

2年が経過した今回、レーシングAIは長期的な視点で戦略を立てること（急カーブを曲がる際の速度調整など）を学習しただけでなく、新しいマップへの適応性も大幅に向上しました。

その主な理由は、今回開発者が導入した新しい手法である強化学習にあります。

この方法の核となる概念は「報酬」であり、より多くの報酬をもたらす行動を選択することで、最終的な効果を継続的に最適化することです。

レーシングゲームで AI をトレーニングする場合、yoshtm によって定義された報酬は非常に標準的です。つまり、速く走れば走るほど、より多くの報酬が得られ、間違った方向に進んだり、コースから外れたりするとペナルティが課せられます。

問題は、カーブに近づくときに加速するなどの一部のアクションは、短期的にはプラスの報酬につながるかもしれませんが、長期的にはマイナスの結果をもたらす可能性があることです。

そこでyoshtmはDeep Q Learningという手法を採用しました。

これは、環境のモデルを必要とせずに、特定の状態に対して利用可能なアクションの期待される効用を比較する、モデルフリーの強化学習手法です。

ディープQラーニングは、ディープネットワークパラメータの学習を通じて、Q値予測の精度を継続的に向上させます。言い換えれば、AIがレーシングゲーム内の各アクションの予想される累積報酬を予測できるようになり、「長期的な戦略的ビジョンを持つ」ようになります。

ランダムな出生点はAIの「偏り」を修正するのに役立つ

次に、正式なトレーニングが始まりました。

Yoshtm 氏の考えは、AI がまずランダムな探索を通じてできるだけ多くのマップデータを収集するというものです。彼はこれを動作探索と呼んでいます。

探索比率が高いほどランダム性が強くなります。比率が下がると、AIは上で設定した報酬を獲得すること、つまりマップを走ることに集中するようになります。

しかし、約3万回のトレーニングを経て探索率が5％に低下すると、AIは行き詰まってしまいました。

根本的な問題は、AI が「偏っている」ということだ。

初期段階で複数のカーブを走行した経験により、AIは過剰適合しました。長い直線コースなどの新しいコースタイプに直面したとき、車体は不安定で揺れ、最終的に「自殺」を選択しました。

この問題を解決するにはどうすればいいでしょうか?

Yoshtm はマップを作り直すことを選択せず、AI のスポーンポイントを変更することを選択しました。

トレーニングを開始するたびに、AI の開始地点がマップ上のランダムな場所にランダムな速度と方向で生成されます。

「Crazy Furious」は多くのトレーニングを必要とするゲームであり、AIも同様です。

少なくとも、この AI が多数の初心者に勝てると確信しました。

この方法はすぐに効果を発揮し、AIはついにトラックを完成させることができました。

次のステップは継続的なトレーニングでした。最終的に開発者yoshtmがAIと競争し、今度はAIが6分20秒という最高の結果を達成しました。

まだ実際の人間が操縦する車ほど速くはありませんが、AIは会場への適応力が高く、芝生でも泥道でも経験からすぐに学習することができます。

ヨシュトムは最後にこう言った。

「Crazy Furious」は多くのトレーニングを必要とするゲームであり、AIも同様です。

少なくとも、この AI が多数の初心者に勝てると確信しました。

<<: Adobe は GAN をステッチされたモンスターに変え、1024 解像度の全身ポートレートを空中から作り出した

>>: Nvidia の新 GPU: 800 億個のトランジスタを搭載した 4nm プロセス、新しい Hopper アーキテクチャは驚異的

このレーシングAIはもはや短期的な楽しみを求めるのではなく、長期的な戦略を考慮することを学んだ。

強化学習により、AIは「長期的に考える」ことを学ぶことができる

ランダムな出生点はAIの「偏り」を修正するのに役立つ

2022年の人工知能の7つのトレンド

レノボ、HPC+AI によるアルゴリズムの世界を構築する初のハイブリッドインテリジェンスアカデミックカンファレンスに初参加

CMU は、日常の家具の操作方法を正確に学習する新しい器用なロボットアルゴリズムを公開しました

マスク氏のChatGPTバージョンが急成長中！ Pythonなしで11人が2か月間懸命に働いた

GoはPythonよりはるかに進んでおり、機械学習の人材は非常に不足しています。世界中の16,655人のプログラマーが真実を語ります

3Wイノベーションフェスティバル：先進的な起業家のアイデアが古都西安に流入

2021 年の人工知能に関する詳細な研究: 機械学習は最終的に人間の医師に取って代わるのでしょうか?

2024年に誰もが備えるべき5つのテクノロジートレンド

推薦する

人工知能（AI）の今後の動向

Nvidiaが自動運転AIアルゴリズムをオープンソース化、チップ性能をXavierの7倍にアップグレード

新型コロナウイルスは「ターミネーター」か？人工知能で疫病と闘う

張三が試験でカンニングをしたい場合、どのような暗号化アルゴリズムを使用すればよいでしょうか?先生にバレないように？

AIの革命的道: OpenAIのGPT-4ツアー

基本モデル＋ロボットの開発軌跡を見通すレビュー

大学生が、1時間で600本の鉄筋を結束できる鉄筋結束ロボットを発明。建設労働者は再び失業することになるのだろうか？

Google X、手作業でラベル付けすることなく一目で対象部品を見つけられるグリッパーアームをオープンソース化

ハリウッドのAIに対する攻撃は、AIの脚本の最新エピソードに書かれていた

Google のアルゴリズムが明らかに: 検索リクエストは平均 2,400 キロメートル往復移動します

アルゴリズムによる管理下にある労働者：労働の退化と集団不安

Appleはすでに社内でAppleGPTを使用していると報じられている

1300億のパラメータを持つ中国初の大規模数学モデルMathGPTがリリースされました！複数のベンチマークがGPT-4を上回る