キング・オブ・グローリーのプレイからサッカーのプレイまで、テンセントのAIが再び進化

キング・オブ・グローリーのプレイからサッカーのプレイまで、テンセントのAIが再び進化

テンセントは12月30日、同社の人工知能チームが第1回Google Football Kaggleコンペティションで優勝したと発表した。優勝チームは、テンセントAIラボが開発したWeKickバージョンのJuewuから出場し、合計スコア1785.8で優勝し、世界トップクラスの技術チームとの競争で大差をつけて勝利した。

今年11月末、テンセントAIラボとHonor of Kingsが共同開発した戦略的コラボレーションAI「Juewu」が完成形にアップグレードされ、AIが初めてすべてのヒーローのすべてのスキルを習得できるようになりました。このバージョンの Juewu WeKick の全体的な設計は、Juewu の全身の移行に基づいており、サッカーのタスクにいくつかのターゲットを絞った調整が行われ、Juewu AI の背後にある深層強化学習法の一般的な機能を実証しています。

Kaggleコンペティション Google Footballトップ10ランキング、

https://www.kaggle.com/c/google-football/leaderboard より

2010 年に設立された Kaggle は、世界最大のデータ サイエンス コミュニティおよびデータ サイエンス コンペティション プラットフォームです。このサッカー AI コンテストは、Google Research とプレミアリーグのマンチェスター シティ クラブが Kaggle プラットフォーム上で共同で開催しました。

サッカーチームの戦略は、その複雑さ、多様性、難易度の高さから、長い間世界トップクラスの AI 研究チームを悩ませてきた問題です。また、ゲームのインセンティブが希薄なため、MOBA ゲームよりも攻略が難しいターゲットとなっています。今年、Kaggleは初めてサッカーAI分野のコンペティションを発表し、深層強化学習マルチエージェント技術のコンペティションとベンチマーク評価の新たな舞台を提供しました。

このコンテストでは、オープンソースのサッカーゲーム「Gameplay Football」をベースに開発されたGoogle Research Football強化学習環境が使用され、11対11の競技システムを採用しています。参加チームはエージェントの1つを制御して、10の組み込みエージェントでチームを形成する必要があり、これは挑戦的で興味深いものです。このチャレンジが開始されると、世界トップクラスの大学や研究機関から 1,100 を超える科学研究チームが参加しました。

「11 個の強化学習エージェント間の協力と競争」

Google Football(Kaggle 上)は、AI 操作の FIFA ゲームのような人気のサッカー ゲームをモデルにしており、エージェントがチームのサッカー選手の 1 人または全員を操作し、選手間でボールをパスする方法を学習し、相手のディフェンスを突破してゴールを決めようとします。ゲームのルールは、ボールを相手のゴールに蹴り込むという目標や、オフサイド、イエローカード、レッドカードのルールなど、通常のサッカーの試合と似ています。

一般的なサッカービデオゲームで均一に制御される NPC チームとは異なり、この Kaggle コンペティションでは、各プレーヤーは個別のエージェントによって制御され、参加 AI モデルはゲームの状況に応じてエージェントの 1 つを制御し、他の 10 個の組み込みエージェントと連携します。これには、各プレイヤーが対戦相手の行動を観察するだけでなく、自分のチームメイトの状況にも注意を払う必要があります。それをサポートするには、非常に複雑なチームワークと競争戦略が必要です。


[[361155]]

WeKick(イエロージャージ)vs SaltyFish(今大会2位)の最近の試合記録(シューティング)

たとえば、相手プレイヤーがボールをコントロールしている場合、こちら側のエージェントは、フィールド上の両サイドのプレイヤーの分布位置に基づいて、ボールをコントロールしているプレイヤーの次の動きを予測する必要があるだけでなく、こちら側の他のプレイヤーと連携して、合法的にボールをコントロールする方法を検討する必要があります。また、裁判所の動向は急速に変化するため、高速でリアルタイムの意思決定能力も必要です。

さらに、強化学習法を使用して完全なサッカー AI をゼロからトレーニングするのは、実際にはかなり困難です。経済、健康、経験などのリアルタイムの学習シグナルが常に存在する MOBA ゲームとは異なり、サッカーのゲームインセンティブは非常にまばらで、基本的にゴールにのみ依存します。まばらなインセンティブは、強化学習において常に大きな問題となってきました。

Juewu AIがチャンピオンになった経緯

ゲーム分野における深層強化学習の急速な発展のおかげで、Atari ゲームから囲碁、さまざまなビデオ ゲームに至るまで、AI エージェントは継続的な反復進化でますます強力になり、サッカーにおけるチーム戦略の難しさも克服されました。

WeKick バージョンの JueWu では、まず強化学習とセルフプレイを使用してモデルをゼロからトレーニングし、非同期分散強化学習フレームワークを導入しました。この非同期アーキテクチャでは、トレーニング フェーズ中のリアルタイム パフォーマンスが多少犠牲になりますが、柔軟性が大幅に向上し、トレーニング中のコンピューティング リソースのオンデマンド調整もサポートされるため、11 エージェントのフットボール ゲーム トレーニング環境に適応できます。

MOBA ゲームとフットボール ゲームのタスク目標の違いにより、Juewu の WeKick バージョンでは、生成的敵対的シミュレーション学習 (GAIL) と手動で設計された報酬を組み合わせ、機能と報酬の設計を拡張および革新します。このスキームは、生成的敵対的トレーニング メカニズムを使用して、専門家の行動の状態とアクションの分布を適合させ、Juewu WeKick バージョンが他のチームから学習できるようにします。次に、GAIL によってトレーニングされたモデルは、戦略の堅牢性をさらに向上させるためのさらなる自己ゲームトレーニングの固定された対戦相手として使用されます。

GAIL の利点 (WeKick の報酬設計は、報酬シェーピングと GAIL の両方を組み合わせたものです)

しかし、自己ゲーム強化学習によって得られたこのモデルには、単一のスタイルに収束しやすいという自然な欠点があります。実際の競技では、単一スタイルのモデルは、特定のプレースタイルを見たことがないために異常なパフォーマンスを発揮しやすく、最終的には悪い結果につながります。そのため、戦略の多様性と堅牢性を向上させるために、JueWu はマルチエージェント学習タスクにリーグ (複数の戦略プール) マルチスタイル強化学習トレーニング スキームも採用しました。


このリーグのマルチスタイル強化学習トレーニング プログラムの主なプロセスは、まず専門化、次に統合と簡単に要約できます。

まず、ドリブル、パス、シュートなど、ある程度の競技能力を持つ基本モデルをトレーニングします。次に、基本モデルに基づいて複数の様式化モデルをトレーニングします。各モデルは、プレースタイルに焦点を当てています。様式化モデルのトレーニングプロセスでは、スタイルへの過度の固執と基本能力の喪失を避けるために、メインモデルが定期的に対戦相手として追加されます。最後に、複数の基本モデルに基づいてメインモデルをトレーニングします。メインモデルは、独自の過去のモデルに加えて、すべての様式化された対戦相手の最新モデルも対戦相手として定期的に追加し、メインモデルがまったく異なるスタイルの対戦相手に適応できるようにします。

内部能力スコアリング システムによると、対戦相手のプールでトレーニングした後のメイン モデルは、基本モデルに基づいて 200 ポイント向上でき、これは最強の様式化されたプレイよりも 80 ポイント高くなります。

最終的に、JueWu の完全な形式に基づくアーキテクチャの移行、カスタマイズされたフレームワークの改善、主要な生成的敵対的模倣学習 (GAIL) ソリューションと League (複数の戦略プール) マルチスタイル強化学習トレーニング ソリューションを組み合わせることで、JueWu は他の競合 AI チームに対して優位に立つことができ、最終的にチャンピオンシップへの道を切り開きました。


WeKick (イエロージャージ) vs SaltyFish (この大会2位) 最近の試合記録 (パス)

Juewu WeKickバージョンの勝利は、Juewuが完全にアップグレードされた後、その背後にある深層強化学習ソリューションが複雑なサッカー競技シナリオに適応できるAIモデルをトレーニングしたことを意味し、Tencent AI Labの最先端AI技術の研究開発能力を実証し、Tencent Juewu AIの基礎となるアーキテクチャと方法の汎用性を検証しました。

Juewuチームの研究方向は、サッカーの試合における単一のインテリジェントエージェントの制御から、11のインテリジェントエージェントの同時制御と協調動作へと深化していることがわかっています。完全に独立したサッカーエージェントの数が11に達すると、強化学習の難しさはエージェント数の増加とともに指数関数的に爆発します。同時に、サッカーエージェント間のギャップは大きくありません。どのように自動的に役割分担を形成し、異なる役割間でインセンティブを分配するかは、マルチエージェント強化にとって常に難しい問題でした。前回の5v5(マルチエージェント)Google Research Football Leagueでも、Tencent Juewuチームが優勝し、Juewu AIの大きな可能性を示しました。

囲碁AI JueyiからMOBAゲームのAI Juewu、そして現在のAIサッカーチームWeKickまで、Tencent AI Labの深層強化学習エージェントは一歩一歩進化し、徐々により複雑で多様な問題に移行しています。Tencentも汎用人工知能の最終目標に向かって着実に前進しています。長期的には、Juewu の背後にある研究開発の経験とアルゴリズムの蓄積は、将来、農業、医療、スマートシティなどの幅広い分野と AI を組み合わせることで大きな可能性を示し、より大きな実用的価値を生み出すでしょう。

<<:  年末レビュー | 霧の中で花を見ることから実現することまで、人工知能は3つの主要な分野を「本当に香り高い」ものにしました

>>:  AIユニコーンがIPOに群がり、資本市場を刺激。シナリオアプリケーションは複数の場所で爆発的に増加する可能性がある

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

コンテナ化された機械学習モデルの作成

[[252634]]データ サイエンティストは機械学習モデルを作成した後、それを本番環境にデプロイす...

企業は人工知能の可能性に目がくらんでいるのでしょうか?

多くの企業が AI イニシアチブの導入に意欲的に取り組んでいる一方で、AI が自社のビジネスにどのよ...

アダムとイブ: ディープラーニングの問題を解決するための強力なツール

[[242433]] [51CTO.com クイック翻訳] 近年、ディープラーニングの波がインターネ...

AIがFBIに加わったとき、KGBはそれを専門家と呼んだ

「市の東にある家で爆弾が爆発しようとしています!」 「爆弾はネズミ捕り、ACデルコ社の単三電池、亜鉛...

...

2024 年にソフトウェア開発の生産性を向上させる 10 のベスト AI ツール

2023年までに、AIは複数の業界で広く採用されるようになります。 2024 年までに、ソフトウェア...

AIスタートアップで2年間働いて学んだ7つのこと

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

GCN グラフ畳み込みネットワークの紹介

この記事では、GCN と呼ばれるよく知られたグラフ ニューラル ネットワークについて詳しく説明します...

...

Keras+LSTM+CRF を使用した固有表現抽出 NER の練習

[[339715]]テキスト分割、品詞タグ付け、固有表現認識は、自然言語処理の分野では非常に基本的な...

[技術的な詳細] 自動化プラットフォームの将来はどうなるのでしょうか? IBM Cloud Pak for Business Automationのコンポーネントを詳しく見る

数十年にわたる開発を経て、工場現場、銀行支店、製油所など、ほとんどの業界で自動化が見られるようになり...

IoTとAIがスマートホームにもたらす効果

スマートシティ建設が国家戦略となり、ハイテクが急速に発展するにつれて、スマートシティはバージョン1....

AIが建物の快適性に革命を起こす

商業ビルでは、顧客と居住者の快適性がポジティブな体験を保証するために重要です。快適さの重要な要素は、...

...