DeepMind、囲碁、チェス、ポーカーをプレイするための汎用学習アルゴリズムSoGを発表

DeepMind、囲碁、チェス、ポーカーをプレイするための汎用学習アルゴリズムSoGを発表

2016年3月、ロボットと世界チャンピオンでプロ棋士のイ・セドル九段による人機囲碁対決が世界中から大きな注目を集めた。最終結果は、DeepMind のロボット AlphaGo が合計スコア 4 対 1 で勝利したことがわかりました。これは人工知能分野における画期的な出来事であり、「ゲーム」を人気の AI 研究方向にもしました。

AlphaGo の後、DeepMind はチェスで勝利した AlphaZero、StarCraft II を破った AlphaStar などを発表しました。 AI は、検索と学習の方法を使用することで、多くの完全情報ゲームで優れたパフォーマンスを示しており、ゲーム理論的推論と学習の方法を使用することで、特定の不完全情報ゲームで優れたパフォーマンスを示しています。

しかし、成功事例のほとんどには、1 つの重要な共通点があります。それは、単一のゲーム プロジェクトに焦点を当てていることです。たとえば、AlphaGo はチェスをプレイできません。また、AlphaZero は 3 つの異なる完全情報ゲームをマスターしていますが、ポーカーをプレイすることはできず、不完全情報ゲームに拡張できるかどうかは不明です。さらに、既存の研究では、AI が強力なパフォーマンスを実現できるようにするために、ドメイン固有の知識と構造が使用されることがよくあります。

現在、Google Deepmind の研究チームは、自己プレイ学習、検索、ゲーム理論的推論を使用して強力なゲームパフォーマンスを実現する汎用学習アルゴリズム、Student of Games (SoG) を提案しています。この研究論文は『サイエンス・アドバンス』誌に掲載された。

論文アドレス: https://www.science.org/doi/full/10.1126/sciadv.adg3256

SoG アルゴリズムは、ガイド付き検索、自己プレイ学習、ゲー​​ム理論的推論を組み合わせたものです。実験結果によると、SoG は大規模な完全情報ゲームおよび不完全情報ゲームで強力なパフォーマンスを発揮できることが示されており、これは任意の環境に対する真に一般的なアルゴリズムに向けた重要なステップです。

方法の紹介

SoG モデルは、さまざまなゲームで自由にプレイでき、別のバージョンの自分自身と対戦する方法を自ら学習し、新しい戦略を学習して徐々に能力を高めることができます。 AlphaZero は完全情報ゲームにも適応できますが、SoG は完全情報ゲームと不完全情報ゲームの両方に適応できるため、より汎用性があります。

SoG は、成長ツリー反事実的後悔最小化 (GT-CFR) アルゴリズムを採用しています。 GT-CFR アルゴリズムは、いつでもローカル検索を実行し、サブゲームを不均一に構築し、ツリーを最も関連性の高い将来の状態に拡張しながら、値と戦略を反復的に改良できる方法です。

さらに、SoG は効率的なセルフプレイを採用しています。価値とポリシーのネットワークは、ゲームの結果と再帰的なサブ検索を使用してトレーニングされ、以前の検索で発生した状況に適用されます。

SoG アルゴリズムは、音響セルフプレイを通じてエージェントをトレーニングします。各プレイヤーが決定に直面すると、反事実的価値およびポリシー ネットワーク (CVPN) を備えた音響 GT-CFR 検索を使用して、現在の状態に対する戦略を生成し、その戦略に基づいてアクションを実行します。

自己再生プロセスでは、値とポリシー ネットワークを更新するための 2 種類のトレーニング データが生成されます。1 つは検索クエリで、もう 1 つは完全なゲーム軌跡です。実際には、自己プレイ データの生成とトレーニングは並行して行われます。参加者は自己プレイ データを生成し (クエリを解決します)、トレーナーは新しいネットワークを学習し、定期的に参加者を更新します。

実験結果

従来の検索は不完全情報ゲームでは不十分であることが知られており、評価は単一のドメイン (ポーカーなど) に焦点が当てられていますが、SoG はこのギャップを埋めます。 SoG は、サブゲームを解決することで、近似ナッシュ均衡が見つかること、および小規模ゲームでの計算可能性が保証されることを保証します。

具体的には、SoG は 2 つの完全情報ゲーム (チェスと囲碁) と 2 つの不完全情報ゲーム (ポーカーとスコットランドヤード) の 4 つの異なるゲームで優れたパフォーマンスを発揮します。スコットランドヤードの捜索範囲とゲームの長さはポーカーよりもはるかに長く、長期的な計画が必要であることに留意してください。

SoG は、AlphaZero と同様に、最小限のドメイン知識を使用して、検索とセルフプレイを組み合わせます。 MCTS とは異なり、SoG の検索アルゴリズムは仮想後悔最小化に基づいており、完全情報ゲームと不完全情報ゲームの両方に効果的です。

下の図は、GT-CFR の異なる数値における SoG の可用性を示しています。

テーブルAはレデュークポーカー、テーブルBはスコットランドヤード

下の図は、ニューラル ネットワーク評価の数が増えたときの、AlphaZero と比較した SoG のスケーラビリティを、相対的な Elo 評価スケールで測定して示しています。

テーブルAはチェス、テーブルBは囲碁


<<:  AI のゴッドファーザーであるヒントンは、なぜ自らが作り出した人工知能を恐れているのでしょうか?

>>: 

ブログ    
ブログ    

推薦する

IoT人工知能の将来動向

AI と IoT の融合は拡大し続けており、刺激的な将来のトレンドと機会への道を切り開いています。 ...

Zhihuのホットトピック:最近AmazonのAIチームから大量の人材が去った?李牧自ら事実を明らかにした!

[[326634]]最近、「アマゾンAI李牧のチームから大量の人材が抜けたことについてどう思います...

AIが再び大学入試小論文に挑戦、強力なハードコア技術で「数秒」の文章作成を実現

昨日(6月7日)、2022年度全国大学入学試験が始まりました。午前中に中国語科目試験が終了し、中国語...

7Sモデルを活用してAI変革を成功させる

多くの組織と連携する顧客関係管理 (CRM) コンサルタントとして、AI を主要な検討テーマとして見...

AIの偏見に対処するための重要なステップ

バイアスは機械学習において対処または軽減する必要がある重大な問題です。企業は将来のプレッシャーを軽減...

AIを活用して産業データの価値を見出す

すべての業界に共通するものが 1 つあります。それは、大量のデータです。データ量は、個人用デバイス、...

高校生たちは皆ニューラルネットワークを勉強しており、教師である私は圧倒されています

[[356670]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

人工知能の時代にITキャリアを築く方法

人工知能(AI)技術がより高度になるにつれ、ITプロフェッショナルは将来、AIに対して優位に立つため...

中国初の人工知能教科書が注目を集める:人材育成が鍵

香港のサウスチャイナ・モーニング・ポストが5月3日に報じたところによると、人工知能分野の世界的な競争...

C# アルゴリズムで実装された文字列反転の簡単な分析

C# を使用して文字列反転アルゴリズムを実装することに関する面接の質問を見てみましょう。文字列反転の...

文部科学省が文書を発表:AI、アルゴリズム等が2018年度から高等学校の教育課程に取り入れられる!

教育部はこのほど記者会見を開き、「高等学校一般教育課程計画及び中国語等教科教育課程基準(2017年版...

分析とAIがIoTの成長を牽引

「未来の工場には、男性と犬の2人の従業員しかいないでしょう。男性は犬に餌を与え、犬は男性を監視して機...

家主は、あなたに賃貸するかどうかを決める前に、AIを使ってあなたの犯罪歴を審査しているかもしれない。

[[351784]]ビッグデータダイジェスト制作著者: miggyようやく気に入った家が見つかり、...

ChatGPT/GPT-4/ラマトロッコ問題コンテスト!小型モデルの方が道徳心が高い?

「モデルには道徳的に推論する能力がありますか?」この質問は、モデルによって生成されるコンテンツ ポ...

AIが髪の毛に至るまで肖像画を生成!北京大学卒業生の最新研究が2.8千個の星を獲得

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...