このレーシングAIはもはや短期的な楽しみを求めるのではなく、長期的な戦略を考慮することを学んだ。

このレーシングAIはもはや短期的な楽しみを求めるのではなく、長期的な戦略を考慮することを学んだ。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

レーシングゲームをプレイする AI は、スピードと楽しさだけを追求するものではありません。

彼らは戦術的な計画について考え始め、独自の運転スタイルや特技を開発しました。

たとえば、ターンだけが得意なこの「部分的な」プレーヤーは、急カーブに直面したときには激しくパンチし、危険なドリフトをしますが、直線に直面したときには臆病になり、動揺してしまいます。

長期的なビジョンを持ち、戦術的な計画を学習した AI もあります。レース中のこの 2 台のグリーンの車は、カーブで減速しているように見えますが、急カーブをスムーズに通過し、直接の GG 結果を回避しています。

また、地図がどれだけ新しいものであっても、推論を導き出して旅全体を完了できる AI もあります。

彼は本当にレーストラックで考えることを学んだようだ。

(前述のように、ある科目が苦手だった選手も、不断の努力で復活を遂げた)

この訓練の結果が発表されると、多くのネットユーザーが注目した。

強化学習により、AIは「長期的に考える」ことを学ぶことができる

トレーニング トラックは、カスタマイズ性に優れたトラック エディターでプレイヤー コミュニティの間で有名な Trackmania というゲームから取得されています。

レーシング AI の可能性をさらに刺激するために、開発者は紆余曲折のある悪魔的なマップを作成しました。

開発者はyoshtmと呼ばれ、以前にも AI を使用してこのゲームをプレイしたことがあり、激しい議論を巻き起こしました。

当初、YoshTM は 2 つの隠れ層を持つ教師あり学習モデルを使用していました。

モデルには、車の現在の速度、加速度、道路セクションの位置など、16 個の入力が含まれています。入力パラメータはニューラル ネットワークによって分析され、最終的に 6 つのアクションのうちの 1 つが出力されます。

このモデル アーキテクチャに基づいて、開発者は複数の AI が同じマップ上で競争できるようにします。

複数回の反復を通じて、さまざまな AI のニューラル ネットワークに微妙な違いが現れ、最終的には最も優れた AI が際立つようになります。

この方法では AI が運転を学習できるようになりますが、次のような問題も発生します。

AI は多くの場合、速度やゴールラインを通過するのにかかる時間など、単一の指標に基づいてのみ自分自身を評価できるため、さらに先に進むことが困難になります。

2年が経過した今回、レーシングAIは長期的な視点で戦略を立てること(急カーブを曲がる際の速度調整など)を学習しただけでなく、新しいマップへの適応性も大幅に向上しました。

その主な理由は、今回開発者が導入した新しい手法である強化学習にあります。

この方法の核となる概念は「報酬」であり、より多くの報酬をもたらす行動を選択することで、最終的な効果を継続的に最適化することです。

レーシング ゲームで AI をトレーニングする場合、yoshtm によって定義された報酬は非常に標準的です。つまり、速く走れば走るほど、より多くの報酬が得られ、間違った方向に進んだり、コースから外れたりするとペナルティが課せられます。

問題は、カーブに近づくときに加速するなどの一部のアクションは、短期的にはプラスの報酬につながるかもしれませんが、長期的にはマイナスの結果をもたらす可能性があることです。

そこでyoshtmはDeep Q Learningという手法を採用しました。

これは、環境のモデルを必要とせずに、特定の状態に対して利用可能なアクションの期待される効用を比較する、モデルフリーの強化学習手法です。

ディープQラーニングは、ディープネットワークパラメータの学習を通じて、Q値予測の精度を継続的に向上させます。言い換えれば、AIがレーシングゲーム内の各アクションの予想される累積報酬を予測できるようになり、「長期的な戦略的ビジョンを持つ」ようになります。

ランダムな出生点はAIの「偏り」を修正するのに役立つ

次に、正式なトレーニングが始まりました。

Yoshtm 氏の考えは、AI がまずランダムな探索を通じてできるだけ多くのマップ データを収集するというものです。彼はこれを動作探索と呼んでいます。

探索比率が高いほどランダム性が強くなります。比率が下がると、AIは上で設定した報酬を獲得すること、つまりマップを走ることに集中するようになります。

しかし、約3万回のトレーニングを経て探索率が5%に低下すると、AIは行き詰まってしまいました。

根本的な問題は、AI が「偏っている」ということだ。

初期段階で複数のカーブを走行した経験により、AIは過剰適合しました。長い直線コースなどの新しいコースタイプに直面したとき、車体は不安定で揺れ、最終的に「自殺」を選択しました。

この問題を解決するにはどうすればいいでしょうか?

Yoshtm はマップを作り直すことを選択せず​​、AI のスポーン ポイントを変更することを選択しました。

トレーニングを開始するたびに、AI の開始地点がマップ上のランダムな場所にランダムな速度と方向で生成されます。

「Crazy Furious」は多くのトレーニングを必要とするゲームであり、AIも同様です。

少なくとも、この AI が多数の初心者に勝てると確信しました。

この方法はすぐに効果を発揮し、AIはついにトラックを完成させることができました。

次のステップは継続的なトレーニングでした。最終的に開発者yoshtmがAIと競争し、今度はAIが6分20秒という最高の結果を達成しました。

まだ実際の人間が操縦する車ほど速くはありませんが、AIは会場への適応力が高く、芝生でも泥道でも経験からすぐに学習することができます。

ヨシュトムは最後にこう言った。

「Crazy Furious」は多くのトレーニングを必要とするゲームであり、AIも同様です。

少なくとも、この AI が多数の初心者に勝てると確信しました。

<<:  Adobe は GAN をステッチされたモンスターに変え、1024 解像度の全身ポートレートを空中から作り出した

>>:  Nvidia の新 GPU: 800 億個のトランジスタを搭載した 4nm プロセス、新しい Hopper アーキテクチャは驚異的

ブログ    
ブログ    
ブログ    

推薦する

2021年の人工知能と機械学習の5つのトレンド

人工知能と機械学習は長い間私たちの世界を変えてきましたが、2020年のコロナウイルスのパンデミックは...

CV退化!心理学者が顔認識を学び、世界中の表情を区別するために600万本のビデオを訓練

世界中の人々は笑ったり悲しんだりするときに同じ表情をしますか? [[402741]]人々の表情が一貫...

人工知能が野生生物保護活動に貢献

犯罪現場の足跡が貴重な証拠となるのと同様に、野生動物の足跡も野生生物保護活動家にとって同様に貴重なも...

やがて世界は人工知能に支配されるようになる。ホーキング博士の死後、人工知能の発展に冷水を浴びせるのは誰だろうか?

ホーキング博士は人類に対し、人工知能に対して慎重になるよう警告し続けている。人工知能が発達すると、制...

...

人工知能の研究ホットスポット:自然言語処理

人工知能(AI)は、新たな科学技術革命と産業変革の重要な原動力として、世界に大きな影響を与え、変化を...

...

IoT、分析、AI – デジタル化の勝利のトリオ

デジタル化が進む世界では、すべてがスピードと個々の顧客ニーズの特定と対応を中心に展開されます。サービ...

AIでAIを守る、次世代のAIベースのサイバー脅威ソリューション

多くの関係者は、AI が「悪」の力にもなり得るという事実を受け入れ始めています。関連する海外メディア...

スマートドライビングに才能が注ぎ込む:合理性と狂気が共存

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

AIビデオ分析技術はどのように機能するのでしょうか?どのように機能しますか?

リアルタイムAI映像解析技術とは?リアルタイム AI ビデオ分析は、ビデオ ストリームを分析して、特...

アルゴリズムを知的財産として保護する方法

Ogilvy は、ロボティック プロセス オートメーションと Microsoft のビジュアル AI...

本当に感動しました! Sora はまだリリースされていませんが、すでにお金を稼いでいる人がいます。

みなさんこんにちは。私はXuanyuanです。 Sora の人気はここ数日続いています。今日は、So...

人工知能は生産と生活の変革を加速させる

[[399011]]飛行機に搭乗するための「顔スキャン」、歩行者を積極的に識別して回避する自動運転車...

AIが私の本を盗作してAmazonで販売したのですか? !

ビッグデータダイジェスト制作出典: theguardianすべての作家にとって、盗作はおそらく最も許...