AIがKing of GloryやStarCraftをプレイしています...その背後にあるテクノロジーを理解していないのですか?ゲームAIのレビューはこちら

AIがKing of GloryやStarCraftをプレイしています...その背後にあるテクノロジーを理解していないのですか?ゲームAIのレビューはこちら

[[437808]]

人間とコンピュータのゲームは長い歴史があり、人工知能の主要技術を検証するための主流となっています。チューリングテストは、人間と機械が対決した最初のテストであると言えます。このテストは、研究者がプロの人間プレイヤーに挑戦するさまざまな種類の AI を設計するきっかけとなりました。たとえば、1989 年に研究者たちは世界チャンピオンを倒すことを目標に国際チェッカー プログラム Chinook を開発し、1994 年に Chinook はアメリカのチェッカー チャンピオンである Marion Tinsley を破りました。その後、1997年にIBMのディープ・ブルーがチェスのグランドマスター、ガルリ・カスパロフを破り、チェスの歴史に新たな時代をもたらしました。

近年、Atari、AlphaGo、Libratus、OpenAI Five、AlphaStar など、ゲーム AI の急速な発展を目の当たりにしてきました。これらの AI は、現代のテクノロジーを組み合わせることで、特定のゲームでプロの人間プレイヤーに勝利し、意思決定インテリジェンスの分野で急速な発展を遂げました。

AlphaStar(DeepMindが開発したコンピュータプログラム)とOpenAI Five(OpenAIによるアメリカの人工知能研究開発)は、それぞれStarCraftとDota2でプロ選手レベルに到達しました。現在の技術は、非常に複雑な不完全情報ゲーム、特に最近人気のHonor of Kingsなどのゲームにおけるブレークスルーを処理できるようになり、これらはすべてAlphaStarやOpenAI Fiveに似たフレームワークに従っているようです。次のような疑問を抱かずにはいられません。人間とコンピューターのゲーム AI の将来の傾向や課題は何でしょうか?中国科学院自動化研究所と中国科学院大学の研究者らは、最近の典型的な人間とコンピューターのゲームAIをレビューする記事を執筆し、現在の技術の詳細な分析を通じてこれらの疑問に答えようと試みた。

論文アドレス: https://arxiv.org/pdf/2111.07631.pdf

具体的には、この研究では、囲碁ボードゲーム、カードゲーム(テキサスホールデムHUNL、Landlord、麻雀)、一人称シューティングゲーム(FPS)ゲーム(Quake III Arena)、リアルタイム戦略ゲーム(RTS)(StarCraft、Dota2、Honor of Kings)の合計4つの典型的なゲームタイプを調査しました。上記のゲームに対応する AI には、AlphaGo、AlphaGo Zero、AlphaZero、Libratus、DeepStack、DouZero、Suphx、FTW、AlphaStar、OpenAI Five、JueWu、Commander などがあります。図 1 に簡単な概要を示します。

この論文で調査したゲームとAI

全般的に、第 2 章では、この論文で取り上げるゲームと使用される AI について説明します。第 3 章から第 6 章では、ボード ゲーム、カード ゲーム、FPS ゲーム、RTS ゲームにそれぞれ対応する AI について説明します。第 7 章では、さまざまな種類のゲームで使用されるさまざまな手法をまとめ、比較します。第 8 章では、ゲーム AI が現在直面している課題を示します。これは、この分野の将来の研究方向となる可能性があります。最後に、第 9 章で本論文を締めくくります。

典型的なゲームとAI

次の表は、表 1 に示すように、さまざまなゲーム課題に対するインテリジェントな意思決定の重要な要素を抽出したものです。

上記の表には、さまざまなゲームの長所と短所がリストされています。ゲームの種類に応じて、異なる AI を割り当てる必要があります。ゲームによって特性が異なり、その解決方法も異なるため、研究者は AI システムを構築するためにさまざまな学習戦略を開発してきました。この記事では、AI の割り当てが異なります。ボードゲームには AlphaGo、AlphaGo Zero、AlphaZero が使用され、カードゲームの HUNL、Doudizhu、Mahjong にはそれぞれ Libratus、DeepStack、DouZero、Suphx が使用され、FPS ゲームの Quake III Arena には FTW が使用され、StarCraft、Dota2、Honor of Kings にはそれぞれ AlphaStar、Commander、OpenAI Five、JueWu が使用されています。

さまざまなゲーム向けのAI

ボードゲームAI

AlphaGo シリーズは、AlphaGo、AlphaGo Zero、AlphaZeo で構成されています。 2015年にリリースされたアルファ碁は、ヨーロッパ囲碁チャンピオンのファン・フイを5対0で破った。これは、ソフトウェアがフルサイズのチェス盤上でプロのプレイヤーに対してこのような結果を達成した初めてのケースである。その後、DeepMind は AlphaGo Zero 用の新しいトレーニング フレームワークを開発し、事前に専門家による人間の敵対データを必要とすることなく、優れたパフォーマンスを達成しました。 AlphaZero は一般的な強化学習アルゴリズムです。 AlphaGo シリーズの概要を図 2 に示します。

AlphaGoシリーズのフレームワーク図

カードゲームAI

典型的な不完全情報ゲームであるカードゲームは、長い間人工知能にとっての課題となってきました。 DeepStack と Libratus は、HUNL でプロのポーカー プレイヤーに勝利した 2 つの典型的な AI システムです。これらは基礎となる技術を共有しており、つまり、両方とも CFR 理論が似ています。その後、研究者たちは麻雀と地主という新たな課題に焦点を当てました。 Microsoft Research Asia が開発した Suphx は、麻雀でトップクラスの人間のプレイヤーのほとんどを上回る成績を収めた初の AI システムです。 DouZero は、Botzone リーダーボードの 344 の AI エージェントの中で 1 位にランクされている効果的な AI システムである Doudizhu 向けに設計されています。カードゲーム AI の簡単なフレームワークを以下に示します。

カードゲームAIの簡単なフレームワーク

一人称視点シューティングゲーム (FPS) AI

Quake III Arena は、屋内または屋外のマップで 2 つの敵対チームが互いに戦う、典型的な 3D マルチプレイヤー 一人称視点ビデオ ゲームです。 CTF の設定は、現在のマルチプレイヤー ビデオ ゲームとは大きく異なります。具体的には、CTF のエージェントは他のプレイヤーの状態にアクセスできません。さらに、チーム内のエージェントは互いに通信できません。このような環境は、エージェントが通信してゼロショット生成に適応することを学習するための最適なテストベッドです。ゼロサンプルとは、エージェントが協力したり競争したりするようにトレーニングされるのではなく、人間のプレイヤーや任意の AI エージェントによってトレーニングされることを意味します。エージェントへの入力としてピクセルや人間などのゲーム ポイントのみに基づいて、学習エージェント FTW フレームワークは人間レベルのパフォーマンスを実現できます。ゲーム CTF の FTW フレームワークを以下に示します。

ゲームCTF用のFTWフレームワーク

RTS ゲーム AI

RTS (リアルタイム ストラテジー) ゲームは、数万人が対戦する典型的なタイプのビデオ ゲームです。RTS は、人間とコンピューターが対戦するゲームのテスト ベッドとしてよく使用されます。さらに、RTS ゲームは、従来のゲームよりも現実世界の本質をよりよく捉えた複雑な環境を特徴とすることが多く、このタイプのゲームをより適用しやすくする特性があります。 DeepMind が開発した AlphaStar は、一般的な学習アルゴリズムを使用して、StarCraft の 3 つのレースすべてでマスター レベルに到達し、人間のプレイヤー (合計約 90,000 人のプレイヤー) の 99.8% を上回ります。軽量コンピューティング バージョンである Commander は、AlphaStar と同じトレーニング アーキテクチャに従い、より少ないコンピューティング パワーを使用し、ライブ イベントで 2 人のスーパー プレイヤーを破りました。 OpenAI FiveはDota 2というゲームを解くために設計され、eスポーツゲームで世界チャンピオンに勝利した最初のAIシステムでした。 Dota2 に似た e スポーツ ゲームとして、Honor of Kings は最も似た課題に直面しており、ヒーロー プールを制限せずに完全な RTS ゲームをプレイできる最初の AI システムとなっています。典型的な RTS ゲームのシンプルな AI フレームワークを以下に示します。

典型的なRTSゲームのためのシンプルなAIフレームワーク

課題と今後の動向

コンピュータ ゲームは大きな進歩を遂げてきましたが、現在のテクノロジはコンピューティング リソースへの依存度が高いなど、依然として多くの課題に直面しており、今後の研究のきっかけとなるでしょう。

大型モデル

今日、大規模モデル、特に事前トレーニング済みの大規模モデルは、自然言語処理からコンピューター画像処理へ、そして単一モダリティからマルチモダリティへと進化しています。これらのモデルは、ゼロショット設定でも下流のタスクで大きな可能性を示しており、これは汎用人工知能の探求に向けた大きな一歩です。

OpenAI は 1750 億を超えるパラメータを持ち、さまざまな言語関連のタスクで優れたパフォーマンスを示した GPT-3 を開発しました。しかし、ゲームには基本的に大規模なモデルは存在せず、現在の複雑なゲームのモデルは、多くのパラメータを持つ大規模なモデルよりもはるかに小さくなっています。表 2 に示すように、AlphaStar と OpenAI Five にはそれぞれ 1 億 3,900 万と 1 億 5,900 万のパラメータしかありません。

大規模モデルは一般的な人工知能の比較的良い探求であることを考慮すると、ゲームにおける人工知能の大規模モデルを設計およびトレーニングする方法は、時系列の意思決定領域に新しいソリューションを提供できる可能性があります。このような試みをするためには、少なくとも 2 つの問題を慎重に検討する必要があると本研究では考えています。

  • まず、ゲームタスクは自然言語処理タスクとは大きく異なるため、トレーニングターゲットを明確に定義する方法が大規模モデルにとって重要なステップとなります。
  • 第二に、ゲームの難易度が異なるため、適切なトレーニング メカニズムを設計することが困難です。トレーニング方法は、さまざまなゲームに対応でき、学習が低下しないようにする必要があります。

低リソースAI

複雑な環境でプロフェッショナルレベルの AI をトレーニングするには、通常、大量のコンピューティング リソースが必要になります。表 3 から、AI をトレーニングするには多くのリソースが必要であることがわかります。

限られたリソースでプロレベルの人工知能を育成できるのか、という疑問を抱かずにはいられません。直感的なアイデアとしては、学習を支援するために、より多くの人間の知識を導入することです。強化学習は、将来の開発方向であると言えます。一方、理論的かつ計算的に扱いやすい進化戦略を開発することは、低リソース AI システムに向けた重要なステップとなるでしょう。

評価する

現在、インテリジェントエージェントの正確な評価は難しい問題となっています。人間対コンピュータのゲームでは通常、表 4 に示すように、勝利の確率 (プロの人間プレイヤーの場合) に基づいた評価基準が使用されます。ただし、この評価は、移行されていないゲームのテストが限られているため、特に大まかなものです。ほとんどのゲームに対して体系的な評価基準をどのように開発するかは、重要かつ未解決の問題です。

研究者たちは、この記事を通じて、初心者がゲーム AI 分野の技術、課題、機会に素早く慣れ、研究者がより深い研究を行うよう刺激を受けることを期待しています。

<<:  MITとHKUは、Transformerを超える精度を持つ物理モデルに基づく視覚推論フレームワークを提案

>>:  注意を注入すると精度が 30% 向上します。 Google が最新の多目的「ダイナミック カットアウト」モデルをリリース

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

機械学習が交通と物流に革命を起こす4つの方法

AI は、自動運転車、より優れたルートマッピング、より正確な予測を通じて、輸送と物流をよりスマートか...

...

人工知能は失業を引き起こすでしょうか?幸運の裏返し

現在ほとんどの人が行っている仕事が、将来ある日突然完全に消滅したり、永遠に忘れ去られたりするのではな...

私はトップ200のAIツールを調査しましたが、業界が少し飽和状態にあることがわかりました

LinkedIn では、機械学習の職種に応募する人の多くに 200 人を超える応募者がいます。 AI...

28 歳の中国人 Meta ソフトウェア エンジニアが、次のような理由で年収 37 万ドルの仕事を辞めました...

物語の主人公は中国人のソフトウェアエンジニア、エリック・ユーです。 2016年、Google、Met...

自動運転、顔認識…人工知能の時代が到来。私たちはどう対応すべきか?

2016年以降、人工知能がニュースに登場する頻度が高まっています。実は、理工系女子の私にとって、子...

論文のイラストは拡散モデルを使用して自動的に生成することもでき、ICLRに受け入れられました。

ジェネレーティブ AI は人工知能コミュニティに旋風を巻き起こしました。個人も企業も、Vincent...

ロボティック・プロセス・オートメーション(RPA)がCIOにとって優先課題である理由

自動化技術は企業ビジネスの発展を促進しており、ロボティック・プロセス・オートメーション (RPA) ...

AR技術が携帯電話業界のブレークスルーとなる

[51CTO.comからのオリジナル記事] スマートフォンの開発はハードウェアの革新においてボトルネ...

...

AI消費動向予測について

インターネット データ センターの最新の消費者ガイド分析によると、2021 年から 2025 年の期...

Baidu Smart Cloud Qianfan AppBuilder を解体し、次世代の大規模モデル アプリケーションを予測する

ゲスト|百度インテリジェントクラウド技術委員会委員長 孫克氏執筆者 | Yun Zhao 2023年...

将来の戦争において、AIは最も危険な兵器となるのでしょうか?

AI兵器は歴史の流れとともに進化し、今日では危険な一歩となっている。 [[406883]] AIは...

AIは半導体やデータセンター分野にどのような影響を与えるのでしょうか?

IHS Markit は、ハードウェアとソフトウェアを含む AI システムの世界的な収益が 202...