マイクロソフトの麻雀AI論文が発表され、初めて技術的な詳細が明らかに

マイクロソフトの麻雀AI論文が発表され、初めて技術的な詳細が明らかに

シーン説明: 昨年 8 月に Microsoft がリリースした「Que Shen AI」Suphx を覚えていますか?本日、研究チームは arXiv に最新の論文を公開し、Suphx の背後にある技術をさらに紹介しました。

2019年8月29日、マイクロソフトはSuphx(スーパーフェニックス)と呼ばれる「麻雀AI」をリリースしました。プロの麻雀競技プラットフォームで、Suphxの強さはトップクラスの人間プレイヤーの平均レベルを超えました。

Suphx はリリースされると、人工知能の分野だけでなく、視聴して議論するために集まった多くの麻雀愛好家からも幅広い注目を集めました。

麻雀の情報セットの数と平均サイズは、ブリッジ、テキサスホールデム、囲碁を上回ります。

このシステムは、プロの囲碁プレイヤーを破ったアルファ碁よりも複雑で、「最強の日本麻雀人工知能」と称賛されている。

本日、システムの研究開発チームは、arXiv に「Suphx: 深層強化学習による麻雀の習得」と題した論文を公開し、Suphx の背後にあるテクノロジーについてさらに詳しく説明しています。

Suphx: 深層強化学習で麻雀をマスターする

論文アドレス: https://arxiv.org/pdf/2003.13590.pdf

Suphxはどんどん強くなってきています。彼はプレイヤーの99.99%を超えています。

以前紹介したように、Suphxシステムは深層強化学習を使用して5,000ゲームから経験を学習・吸収し、日本のプロ麻雀競技プラットフォーム「天鳳」で多くの麻雀プレイヤーを打ち負かし、プラットフォーム「徳上方」で最高位の10位を獲得しました。

SuphxのTianfengプラットフォームでのランクは他の麻雀AIよりもはるかに高い

こんなに強力な麻雀AIはどうやって作られたのでしょうか?マイクロソフトリサーチアジア、京都大学、中国科学技術大学、清華大学、南開大学の研究チームが最新版の論文で詳細な紹介を行った。

この論文から、Suphx はさらなる学習によってさらに改善できることもわかりました。 35万人以上のプレイヤーがいる天鵬プラットフォームにおいて、プレイヤーの99.99%以上を上回ったレベルであると公式に評価された。コンピュータープログラムが麻雀でトップクラスの人間のプレイヤーの大半を上回ったのはこれが初めてだ。

5つの主要モデルと強化学習によりQueshen AIが誕生

Suphx には、一連の畳み込みニューラル ネットワークが含まれており、discard モデル、Riichi モデル、chow モデル、Pong モデル、Kong モデルなど、さまざまなシナリオを処理する 5 つのモデルを学習します。

破棄モデル(上)と他の 4 つのモデルのアーキテクチャ(下)

これを基に、Suphx は別のルールベースのモデルを採用し、勝者を宣言して次のラウンドに進むかどうかを決定します。その際、勝利カードが他のプレイヤーが捨てたカードから判断できるか、壁から引いたカードから判断できるかをチェックします。

Suphx のトレーニングプロセスは 3 つのステップに分かれていると報告されています。

まず、5 つのモデルは、Tianfeng プラットフォームから収集されたトップクラスの人間プレイヤーのログを使用してトレーニングされます。

その後、CPU ベースの麻雀シミュレーターと GPU ベースの軌道生成推論エンジンを使用した自己プレイ強化学習を通じてシステムを微調整します。

最後に、オンライン ゲーム中に、ランタイム ポリシー チューニングを使用して現在のラウンドの結果を観察し、システムのパフォーマンスを向上させます。

Suphxの分散強化学習システム

麻雀ゲームでは対戦相手の情報が不明であるため、Suphx は強化学習の効果を高めるために預言者コーチング技術を試しました。セルフゲームトレーニングフェーズでは、非表示の情報を使用してモデルのトレーニング方向をガイドし、AI モデルの可視情報の理解を強化し、効果的な意思決定の根拠を見つけます。

評価: 5760 マッチ、10 記録

実験に先立ち、チームは 44 個の GPU (パラメータ サーバー用の 4 個の Nvidia Titan XP と、自動プレイ プレイヤー用の 40 個の K80 を含む) で 150 万回のハンドを使用して、各モデルを 2 日間トレーニングしました。

チームは 20 個の Nvidia Tesla K80 GPU で Suphx を評価しました。安定したランキングの分散を減らすために、100 万以上の麻雀ゲームのデータセットから 80 万の麻雀ゲームデータをランダムに選択し、そこから 1,000 回のサンプリングを実行しました。

評価の結果、Suphxは「天風」プラットフォーム上で人間のプレイヤーと5,760回以上の対局を行った後、10部門の記録を樹立した。このレベルに到達したプレイヤーはこれまでに180人程度しかいない。 Suphx の安定したランキングは 8.74 です (人間のプレイヤーの最高レベルは 7.4)。

強化学習エージェントの最終安定ランキング統計

継続的な最適化により、RL-2は最終的に優れたパフォーマンスを達成しました。

興味深いことに、研究者らは、Suphx の防御は「非常に強力」で、ハンドを譲る可能性が低い (10.06%) と述べ、カードを安全に保ち、ハーフデュースで勝つことを可能にする独自のプレイスタイルを開発したとしている。

AIプレイヤー(南)は保守的にプレイすることを選択する

バスケットの中の6本のポールはすでにテーブルの上にあるので諦める

さらに、論文の共著者らは、金融市場の予測や物流の最適化など、現実世界の問題のほとんどは麻雀と共通する特徴を持っていると書いている。たとえば、複雑な操作/報酬ルール、不完全情報の問題など。

著者は、Suphx で設計された、全体的な報酬予測、予言者のガイダンス、ポリシー調整などの麻雀テクノロジーは大きな可能性を秘めており、将来的には現実世界で広く使用され、現実的で複雑な実用的な問題の解決に役立つと考えています。

[[320921]]

これを見た後、試してみたくなりましたか?天鳳麻雀バトルプラットフォーム:https://tenhou.net/、一緒にゲームをしましょう!

<<:  産業インテリジェンスは「新しいインフラ」の下で非常に人気がありますが、まだ多くの問題があります

>>:  特徴エンジニアリングとは何ですか?なぜ自動化が必要なのでしょうか?

ブログ    

推薦する

CNN 推論エンジンを使用して IoT デバイスにディープラーニングを実装するにはどうすればよいですか?

[[212457]]ディープラーニング技術により、モノのインターネット (IoT) デバイスは非構...

顔スキャンは便利ですが、隠れた危険も伴うので、注意が必要です。

顔をスキャンするだけで支払いができます。顔をスキャンするだけでさまざまなゲートに出入りできます。顔を...

最新の RLHF は言語モデルの「ナンセンス」を救います!微調整効果はChatGPTよりも優れている、と中国の共著者2人が発表

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

分散型AIで製造業を強化

家庭内の新しい仮想アシスタントから、受信トレイから迷惑メールを削除するスパムフィルターまで、人工知能...

...

ディープラーニングを使用して、写真用の強力な画像検索エンジンを構築します

[[412644]]数日前、鮮明に覚えている昔の写真を見返したいと思ったのですが、どこにあるのか全...

IoT が成功するために AI が必要な理由

モノのインターネットは膨大な量のデータを生成します。そのデータは、都市が事故や犯罪を予測するのに役立...

機械学習モデルのトレーニングの全プロセス!

週末に家で退屈していたので、GitHub を閲覧していたところ、非常に興味深いオープンソース プロジ...

...

リアルタイムデータ同期ソリューション: Java 開発者向け MySQL CDC テクノロジー

インターネットとビッグデータ時代の到来により、リアルタイムのデータ同期は多くの企業が直面する課題とな...

Tableau の 157 億ドルの買収の背後にある、50 ページの詳細なレポートが BI の未来を明らかにする

レポート概要BIビジネスインテリジェンスの核心は、意思決定の価値を反映することです。 • 企業のデジ...

...

...

5G時代の人工知能のホットスポットとなる業界はどこでしょうか?

このプロセスでは、多くのアプリケーションが継続的に追加されています。たとえば、コンピュータと通信の統...

注目の開発スキル5つについて学ぶ

[[277303]] [51CTO.com クイック翻訳] 開発者は人気のある仕事の 1 つであり、...