DeepMind、囲碁、チェス、ポーカーをプレイするための汎用学習アルゴリズムSoGを発表

DeepMind、囲碁、チェス、ポーカーをプレイするための汎用学習アルゴリズムSoGを発表

2016年3月、ロボットと世界チャンピオンでプロ棋士のイ・セドル九段による人機囲碁対決が世界中から大きな注目を集めた。最終結果は、DeepMind のロボット AlphaGo が合計スコア 4 対 1 で勝利したことがわかりました。これは人工知能分野における画期的な出来事であり、「ゲーム」を人気の AI 研究方向にもしました。

AlphaGo の後、DeepMind はチェスで勝利した AlphaZero、StarCraft II を破った AlphaStar などを発表しました。 AI は、検索と学習の方法を使用することで、多くの完全情報ゲームで優れたパフォーマンスを示しており、ゲーム理論的推論と学習の方法を使用することで、特定の不完全情報ゲームで優れたパフォーマンスを示しています。

しかし、成功事例のほとんどには、1 つの重要な共通点があります。それは、単一のゲーム プロジェクトに焦点を当てていることです。たとえば、AlphaGo はチェスをプレイできません。また、AlphaZero は 3 つの異なる完全情報ゲームをマスターしていますが、ポーカーをプレイすることはできず、不完全情報ゲームに拡張できるかどうかは不明です。さらに、既存の研究では、AI が強力なパフォーマンスを実現できるようにするために、ドメイン固有の知識と構造が使用されることがよくあります。

現在、Google Deepmind の研究チームは、自己プレイ学習、検索、ゲーム理論的推論を使用して強力なゲームパフォーマンスを実現する汎用学習アルゴリズム、Student of Games (SoG) を提案しています。この研究論文は『サイエンス・アドバンス』誌に掲載された。

論文アドレス: https://www.science.org/doi/full/10.1126/sciadv.adg3256

SoG アルゴリズムは、ガイド付き検索、自己プレイ学習、ゲー​​ム理論的推論を組み合わせたものです。実験結果によると、SoG は大規模な完全情報ゲームおよび不完全情報ゲームで強力なパフォーマンスを発揮できることが示されており、これは任意の環境に対する真に一般的なアルゴリズムに向けた重要なステップです。

方法の紹介

SoG モデルは、さまざまなゲームで自由にプレイでき、別のバージョンの自分自身と対戦する方法を自ら学習し、新しい戦略を学習して徐々に能力を高めることができます。 AlphaZero は完全情報ゲームにも適応できますが、SoG は完全情報ゲームと不完全情報ゲームの両方に適応できるため、より汎用性があります。

SoG は、成長ツリー反事実的後悔最小化 (GT-CFR) アルゴリズムを採用しています。 GT-CFR アルゴリズムは、いつでもローカル検索を実行し、サブゲームを不均一に構築し、ツリーを最も関連性の高い将来の状態に拡張しながら、値と戦略を反復的に改良できる方法です。

さらに、SoG は効率的なセルフプレイを採用しています。価値とポリシーのネットワークは、ゲームの結果と再帰的なサブ検索を使用してトレーニングされ、以前の検索で発生した状況に適用されます。

SoG アルゴリズムは、音響セルフプレイを通じてエージェントをトレーニングします。各プレイヤーが決定に直面すると、反事実的価値およびポリシー ネットワーク (CVPN) を備えた音響 GT-CFR 検索を使用して、現在の状態に対する戦略を生成し、その戦略に基づいてアクションを実行します。

自己再生プロセスでは、値とポリシー ネットワークを更新するための 2 種類のトレーニング データが生成されます。1 つは検索クエリで、もう 1 つは完全なゲーム軌跡です。実際には、自己プレイ データの生成とトレーニングは並行して行われます。参加者は自己プレイ データを生成し (クエリを解決します)、トレーナーは新しいネットワークを学習し、定期的に参加者を更新します。

実験結果

従来の検索は不完全情報ゲームでは不十分であることが知られており、評価は単一のドメイン (ポーカーなど) に焦点が当てられていますが、SoG はこのギャップを埋めます。 SoG は、サブゲームを解決することで、近似ナッシュ均衡が見つかること、および小規模ゲームでの計算可能性が保証されることを保証します。

具体的には、SoG は 2 つの完全情報ゲーム (チェスと囲碁) と 2 つの不完全情報ゲーム (ポーカーとスコットランドヤード) の 4 つの異なるゲームで優れたパフォーマンスを発揮します。スコットランドヤードの捜索範囲とゲームの長さはポーカーよりもはるかに長く、長期的な計画が必要であることに留意してください。

SoG は、AlphaZero と同様に、最小限のドメイン知識を使用して、検索とセルフプレイを組み合わせます。 MCTS とは異なり、SoG の検索アルゴリズムは仮想後悔最小化に基づいており、完全情報ゲームと不完全情報ゲームの両方に効果的です。

下の図は、GT-CFR の異なる数値における SoG の可用性を示しています。

テーブルAはレデュークポーカー、テーブルBはスコットランドヤード

下の図は、ニューラル ネットワーク評価の数が増えたときの、AlphaZero と比較した SoG のスケーラビリティを、相対的な Elo 評価スケールで測定して示しています。

テーブルAはチェス、テーブルBは囲碁


<<:  AI のゴッドファーザーであるヒントンは、なぜ自らが作り出した人工知能を恐れているのでしょうか?

>>: 

ブログ    
ブログ    

推薦する

人工知能2.0の時代、機械にスマートな脳を搭載する方法

[[419760]] 「クラブアップルの木は、その赤みがかった色にもかかわらず、霧雨の中にひとりぼっ...

AIoTとは何ですか?なぜそれが突然、インテリジェント製造の主流トレンドになったのでしょうか?

人工知能(AI)とモノのインターネット(IoT)の組み合わせにより、自律走行車やスマートウェアラブル...

小売業と教育における感情認識に焦点を当てていますが、Mizao.com はどのように違うのでしょうか?

[51CTO.com からのオリジナル記事] 喜び、悲しみ、恐怖、平静、怒り、驚き、軽蔑、嫌悪など...

...

...

PyTorch と TensorFlow のベンチマーク: どちらのプラットフォームが NLP モデル推論をより速く実行しますか?

PyTorch と TensorFlow のどちらが優れているかという議論は、決して終わることはあ...

NLP モデルは人間の言語を理解できないのでしょうか? Microsoft AdaTestはエラーの検出効率が5倍向上

自然言語処理 (NLP) モデルは人間の言語を理解できず、テキストを反対の意味として解釈しますが、こ...

大国間の競争の焦点:人工知能とデジタル主権

​​報告書は、経済の分離と地政学的な二極化が進む時代に、優れたデジタルまたはスマートなパートナーシッ...

...

AIはどのようにして顧客の性格を判断できるのでしょうか?

AI を使用したソーシャル メディアの監視により、仕事、大学入学、賃貸住宅などを失う恐れがあり、本...

クラウドベースのAIモバイルアプリケーションは今後も成長し、改善され続けるだろう

近年、モバイルラーニングと人工知能は、人々が機械と連携する方法に大きな影響を与えており、個々の顧客に...

NVIDIA が 2023 年のトップ 10 研究プロジェクトを公式に発表しました。 「Neuro Angelo」はAIを使って3D仮想世界を作り出し、数秒で本物そっくりのダビデ像に変身する

2023年は人工知能が爆発的に成長する年となるでしょう。赤は人工知能、青は機械学習を表すマイクロソフ...

機械学習のプライバシー研究における新たな進歩: データ強化のリスクは過小評価されており、新しいアルゴリズムは次元依存性を「克服」します

編集者注: 今日、データは人工知能のイノベーションを推進する中核的な要素です。ただし、データのセキュ...

...

謎の AI 顔変更ソフトウェアが世界中のソーシャル ネットワークに侵入!マスク氏は数秒でルネサンス貴族になる

[[410798]] FaceAppの人気は過ぎ去り、最近では、あなたの顔を数秒で「ディズニー」に変...