マイクロソフトの麻雀AI論文が発表され、初めて技術的な詳細が明らかに

マイクロソフトの麻雀AI論文が発表され、初めて技術的な詳細が明らかに

シーン説明: 昨年 8 月に Microsoft がリリースした「Que Shen AI」Suphx を覚えていますか?本日、研究チームは arXiv に最新の論文を公開し、Suphx の背後にある技術をさらに紹介しました。

2019年8月29日、マイクロソフトはSuphx(スーパーフェニックス)と呼ばれる「麻雀AI」をリリースしました。プロの麻雀競技プラットフォームで、Suphxの強さはトップクラスの人間プレイヤーの平均レベルを超えました。

Suphx はリリースされると、人工知能の分野だけでなく、視聴して議論するために集まった多くの麻雀愛好家からも幅広い注目を集めました。

麻雀の情報セットの数と平均サイズは、ブリッジ、テキサスホールデム、囲碁を上回ります。

このシステムは、プロの囲碁プレイヤーを破ったアルファ碁よりも複雑で、「最強の日本麻雀人工知能」と称賛されている。

本日、システムの研究開発チームは、arXiv に「Suphx: 深層強化学習による麻雀の習得」と題した論文を公開し、Suphx の背後にあるテクノロジーについてさらに詳しく説明しています。

Suphx: 深層強化学習で麻雀をマスターする

論文アドレス: https://arxiv.org/pdf/2003.13590.pdf

Suphxはどんどん強くなってきています。彼はプレイヤーの99.99%を超えています。

以前紹介したように、Suphxシステムは深層強化学習を使用して5,000ゲームから経験を学習・吸収し、日本のプロ麻雀競技プラットフォーム「天鳳」で多くの麻雀プレイヤーを打ち負かし、プラットフォーム「徳上方」で最高位の10位を獲得しました。

SuphxのTianfengプラットフォームでのランクは他の麻雀AIよりもはるかに高い

こんなに強力な麻雀AIはどうやって作られたのでしょうか?マイクロソフトリサーチアジア、京都大学、中国科学技術大学、清華大学、南開大学の研究チームが最新版の論文で詳細な紹介を行った。

この論文から、Suphx はさらなる学習によってさらに改善できることもわかりました。 35万人以上のプレイヤーがいる天鵬プラットフォームにおいて、プレイヤーの99.99%以上を上回ったレベルであると公式に評価された。コンピュータープログラムが麻雀でトップクラスの人間のプレイヤーの大半を上回ったのはこれが初めてだ。

5つの主要モデルと強化学習によりQueshen AIが誕生

Suphx には、一連の畳み込みニューラル ネットワークが含まれており、discard モデル、Riichi モデル、chow モデル、Pong モデル、Kong モデルなど、さまざまなシナリオを処理する 5 つのモデルを学習します。

破棄モデル(上)と他の 4 つのモデルのアーキテクチャ(下)

これを基に、Suphx は別のルールベースのモデルを採用し、勝者を宣言して次のラウンドに進むかどうかを決定します。その際、勝利カードが他のプレイヤーが捨てたカードから判断できるか、壁から引いたカードから判断できるかをチェックします。

Suphx のトレーニングプロセスは 3 つのステップに分かれていると報告されています。

まず、5 つのモデルは、Tianfeng プラットフォームから収集されたトップクラスの人間プレイヤーのログを使用してトレーニングされます。

その後、CPU ベースの麻雀シミュレーターと GPU ベースの軌道生成推論エンジンを使用した自己プレイ強化学習を通じてシステムを微調整します。

最後に、オンライン ゲーム中に、ランタイム ポリシー チューニングを使用して現在のラウンドの結果を観察し、システムのパフォーマンスを向上させます。

Suphxの分散強化学習システム

麻雀ゲームでは対戦相手の情報が不明であるため、Suphx は強化学習の効果を高めるために預言者コーチング技術を試しました。セルフゲームトレーニングフェーズでは、非表示の情報を使用してモデルのトレーニング方向をガイドし、AI モデルの可視情報の理解を強化し、効果的な意思決定の根拠を見つけます。

評価: 5760 マッチ、10 記録

実験に先立ち、チームは 44 個の GPU (パラメータ サーバー用の 4 個の Nvidia Titan XP と、自動プレイ プレイヤー用の 40 個の K80 を含む) で 150 万回のハンドを使用して、各モデルを 2 日間トレーニングしました。

チームは 20 個の Nvidia Tesla K80 GPU で Suphx を評価しました。安定したランキングの分散を減らすために、100 万以上の麻雀ゲームのデータセットから 80 万の麻雀ゲームデータをランダムに選択し、そこから 1,000 回のサンプリングを実行しました。

評価の結果、Suphxは「天風」プラットフォーム上で人間のプレイヤーと5,760回以上の対局を行った後、10部門の記録を樹立した。このレベルに到達したプレイヤーはこれまでに180人程度しかいない。 Suphx の安定したランキングは 8.74 です (人間のプレイヤーの最高レベルは 7.4)。

強化学習エージェントの最終安定ランキング統計

継続的な最適化により、RL-2は最終的に優れたパフォーマンスを達成しました。

興味深いことに、研究者らは、Suphx の防御は「非常に強力」で、ハンドを譲る可能性が低い (10.06%) と述べ、カードを安全に保ち、ハーフデュースで勝つことを可能にする独自のプレイスタイルを開発したとしている。

AIプレイヤー(南)は保守的にプレイすることを選択する

バスケットの中の6本のポールはすでにテーブルの上にあるので諦める

さらに、論文の共著者らは、金融市場の予測や物流の最適化など、現実世界の問題のほとんどは麻雀と共通する特徴を持っていると書いている。たとえば、複雑な操作/報酬ルール、不完全情報の問題など。

著者は、Suphx で設計された、全体的な報酬予測、予言者のガイダンス、ポリシー調整などの麻雀テクノロジーは大きな可能性を秘めており、将来的には現実世界で広く使用され、現実的で複雑な実用的な問題の解決に役立つと考えています。

[[320921]]

これを見た後、試してみたくなりましたか?天鳳麻雀バトルプラットフォーム:https://tenhou.net/、一緒にゲームをしましょう!

<<:  産業インテリジェンスは「新しいインフラ」の下で非常に人気がありますが、まだ多くの問題があります

>>:  特徴エンジニアリングとは何ですか?なぜ自動化が必要なのでしょうか?

ブログ    
ブログ    

推薦する

AIにソフトウェア開発を教える: IBMオープンソースデータセットProject CodeNetには1,400万のコード例が含まれている

[[399492]] Big Blue は、AI ベースのプログラミング ツール向けの充実したトレー...

...

...

生成的ビデオ圧縮を有効にする: Google は GAN を使用して HEVC に匹敵するパフォーマンスを実現

[[416911]]一般的に、ビデオ圧縮の目的は、時間的および空間的な冗長性を活用して視覚コンテンツ...

組織の AI 戦略が失敗する 7 つの理由

[[359773]] AI テクノロジーを導入している多くの組織は、成功を収めるどころか、テクノロジ...

AI支援プログラミングの現状:AIツールは速度を向上させるが、エラーコードも大幅に増加

ソフトウェア開発の世界では、AI ツールの人気が高まっています。昨年、GitHub は、AI 支援ツ...

...

顔認識ブームを冷静に考える:倫理的・道徳的問題は熟考する価値がある

[[354407]]科技日報は11月27日、顔認識システムが都市に多くの利便性をもたらしたと報じた。...

2018年大学入試トップ学生調査:60%以上がビジネス・経営学専攻を希望、人工知能などの専攻にも関心

毎年、大学入試の結果が発表されると、多くの受験生が専攻の選択に悩みます。では、優秀な学生たちはこのよ...

...

強化学習と世界モデルにおける因果推論

1. 世界モデル「世界モデル」という用語は認知科学に由来しており、認知科学ではメンタルモデルと呼ばれ...

Meta主任AI研究者ヤン・リクン氏:今日のAIは愚かであり、規制当局は我々に干渉すべきではない

ソーシャルメディアFacebookの親会社Metaの主任人工知能研究者ヤン・ルカン氏は10月20日、...

Adobe が超強力な人工知能ブラックテクノロジーをリリース、アーティストたちは職を失うかもしれない!

Adobe Make itのシェアを聞いて、Adobeの人工知能ブラックテクノロジーに衝撃を受けま...

完全自動サポートにより、ドローンは真の「無人」になります。

ドローンについては皆さんもよくご存知だと思います。近年、無人運用の需要が継続的に高まり、さまざまな最...

...