DeepMind、囲碁、チェス、ポーカーをプレイするための汎用学習アルゴリズムSoGを発表

DeepMind、囲碁、チェス、ポーカーをプレイするための汎用学習アルゴリズムSoGを発表

2016年3月、ロボットと世界チャンピオンでプロ棋士のイ・セドル九段による人機囲碁対決が世界中から大きな注目を集めた。最終結果は、DeepMind のロボット AlphaGo が合計スコア 4 対 1 で勝利したことがわかりました。これは人工知能分野における画期的な出来事であり、「ゲーム」を人気の AI 研究方向にもしました。

AlphaGo の後、DeepMind はチェスで勝利した AlphaZero、StarCraft II を破った AlphaStar などを発表しました。 AI は、検索と学習の方法を使用することで、多くの完全情報ゲームで優れたパフォーマンスを示しており、ゲーム理論的推論と学習の方法を使用することで、特定の不完全情報ゲームで優れたパフォーマンスを示しています。

しかし、成功事例のほとんどには、1 つの重要な共通点があります。それは、単一のゲーム プロジェクトに焦点を当てていることです。たとえば、AlphaGo はチェスをプレイできません。また、AlphaZero は 3 つの異なる完全情報ゲームをマスターしていますが、ポーカーをプレイすることはできず、不完全情報ゲームに拡張できるかどうかは不明です。さらに、既存の研究では、AI が強力なパフォーマンスを実現できるようにするために、ドメイン固有の知識と構造が使用されることがよくあります。

現在、Google Deepmind の研究チームは、自己プレイ学習、検索、ゲーム理論的推論を使用して強力なゲームパフォーマンスを実現する汎用学習アルゴリズム、Student of Games (SoG) を提案しています。この研究論文は『サイエンス・アドバンス』誌に掲載された。

論文アドレス: https://www.science.org/doi/full/10.1126/sciadv.adg3256

SoG アルゴリズムは、ガイド付き検索、自己プレイ学習、ゲー​​ム理論的推論を組み合わせたものです。実験結果によると、SoG は大規模な完全情報ゲームおよび不完全情報ゲームで強力なパフォーマンスを発揮できることが示されており、これは任意の環境に対する真に一般的なアルゴリズムに向けた重要なステップです。

方法の紹介

SoG モデルは、さまざまなゲームで自由にプレイでき、別のバージョンの自分自身と対戦する方法を自ら学習し、新しい戦略を学習して徐々に能力を高めることができます。 AlphaZero は完全情報ゲームにも適応できますが、SoG は完全情報ゲームと不完全情報ゲームの両方に適応できるため、より汎用性があります。

SoG は、成長ツリー反事実的後悔最小化 (GT-CFR) アルゴリズムを採用しています。 GT-CFR アルゴリズムは、いつでもローカル検索を実行し、サブゲームを不均一に構築し、ツリーを最も関連性の高い将来の状態に拡張しながら、値と戦略を反復的に改良できる方法です。

さらに、SoG は効率的なセルフプレイを採用しています。価値とポリシーのネットワークは、ゲームの結果と再帰的なサブ検索を使用してトレーニングされ、以前の検索で発生した状況に適用されます。

SoG アルゴリズムは、音響セルフプレイを通じてエージェントをトレーニングします。各プレイヤーが決定に直面すると、反事実的価値およびポリシー ネットワーク (CVPN) を備えた音響 GT-CFR 検索を使用して、現在の状態に対する戦略を生成し、その戦略に基づいてアクションを実行します。

自己再生プロセスでは、値とポリシー ネットワークを更新するための 2 種類のトレーニング データが生成されます。1 つは検索クエリで、もう 1 つは完全なゲーム軌跡です。実際には、自己プレイ データの生成とトレーニングは並行して行われます。参加者は自己プレイ データを生成し (クエリを解決します)、トレーナーは新しいネットワークを学習し、定期的に参加者を更新します。

実験結果

従来の検索は不完全情報ゲームでは不十分であることが知られており、評価は単一のドメイン (ポーカーなど) に焦点が当てられていますが、SoG はこのギャップを埋めます。 SoG は、サブゲームを解決することで、近似ナッシュ均衡が見つかること、および小規模ゲームでの計算可能性が保証されることを保証します。

具体的には、SoG は 2 つの完全情報ゲーム (チェスと囲碁) と 2 つの不完全情報ゲーム (ポーカーとスコットランドヤード) の 4 つの異なるゲームで優れたパフォーマンスを発揮します。スコットランドヤードの捜索範囲とゲームの長さはポーカーよりもはるかに長く、長期的な計画が必要であることに留意してください。

SoG は、AlphaZero と同様に、最小限のドメイン知識を使用して、検索とセルフプレイを組み合わせます。 MCTS とは異なり、SoG の検索アルゴリズムは仮想後悔最小化に基づいており、完全情報ゲームと不完全情報ゲームの両方に効果的です。

下の図は、GT-CFR の異なる数値における SoG の可用性を示しています。

テーブルAはレデュークポーカー、テーブルBはスコットランドヤード

下の図は、ニューラル ネットワーク評価の数が増えたときの、AlphaZero と比較した SoG のスケーラビリティを、相対的な Elo 評価スケールで測定して示しています。

テーブルAはチェス、テーブルBは囲碁


<<:  AI のゴッドファーザーであるヒントンは、なぜ自らが作り出した人工知能を恐れているのでしょうか?

>>: 

推薦する

DeepFMアルゴリズムを使用して推奨システムを設計する方法

[[239303]] [51CTO.com クイック翻訳] 10年以上の開発を経て、推奨システムはイ...

ディープラーニングと従来の機械学習のメリットとデメリット!

過去数年間、ディープラーニングは、従来の機械学習を凌駕し、ほとんどの AI 型の問題に対する頼りにな...

...

Google、金融機関の内部リスク警告の精度を2~4倍に高められるAIマネーロンダリング対策ツールをリリース

Googleは6月27日、生成AIを組み合わせてマネーロンダリング対策ツール「AML AI」をリリー...

グラフのディープラーニングのための 7 つのオープンソース ライブラリ

[51CTO.com クイック翻訳]ディープラーニングの愛好家であれば、強力なディープニューラルネッ...

フードデリバリー広告向け大規模ディープラーニングモデルのエンジニアリング実践

著者: Yajie Yingliang、Chen Long 他導入美団のフードデリバリー事業が成長を...

データサイエンスにおける一般的な課題は何ですか?

2017 年後半を迎えるにあたり、データ サイエンスと機械学習を活用する企業が直面する共通の課題に...

...

とてもかっこいいですね! Python で人工知能の最適化アルゴリズムを 5 分で理解する

概要勾配降下法は、ニューラル ネットワークでよく使われる最適化アルゴリズムの 1 つです。一般的に、...

テクノロジーリーダーはAIGCの長所と短所をどう評価しているか

AIGC は、現代の偉大な技術的進歩の 1 つとして広く認められています。 OpenAI の Cha...

「ブラックボックス」アルゴリズムの下ではAIへの信頼は疑わしいが、説明可能なAIは開発の「最初の年」を迎える

天才は左にいて、狂人は右にいます。天才と狂気の間にはわずかな境界線しかありません。 AIに関しては、...

...

...

遺伝的アルゴリズムとPython実装におけるいくつかの異なる選択演算子

序文この論文では、遺伝的アルゴリズムにおけるいくつかの選択戦略についてまとめています。比例ルーレット...

...