Dota2 チャンピオン OG はどのようにして AI に打ち負かされたのでしょうか? OpenAIは3年間の蓄積を経てついに完全な論文を公開した

Dota2 チャンピオン OG はどのようにして AI に打ち負かされたのでしょうか? OpenAIは3年間の蓄積を経てついに完全な論文を公開した

[[285612]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

チームOG、Dota2世界チャンピオンチーム。

OGは人工知能OpenAI Fiveの前では脆弱です。 5 人の人間チームは、ゲーム全体を通して何の緊張もなく 0 対 2 で敗北しました。2 つのゲームを合わせても、OG は外側のタワーを 2 つだけ倒しました。

しかし、これは AI の頂点ではありません。

現在、OpenAI は Rerun と呼ばれる新しい AI をトレーニングしました。 OG を圧倒した OpenAI Five と対戦した Rerun の勝率は... ええと... 98% に達しました。

このニュースを聞いて、あるツイッターユーザーが自分の意見を述べるために写真を投稿した。

人工知能は、主に自習に頼りながら、Dota 2 のような複雑なゲームでどうやって最強になれるのでしょうか?今日、この質問に対する答えが明らかになりました。

そうです、OpenAIはRerunをリリースしただけでなく、過去3年間のDota2プロジェクトに関する研究を論文を通じて正式に発表しました。

この論文では、OpenAI がシステム全体の原理、アーキテクチャ、計算の複雑さ、パラメータなど、さまざまな側面について説明しています。 OpenAIは、バッチサイズと総トレーニング時間を増やすことでコンピューティング規模を拡大し、今日の強化学習技術が複雑なeスポーツゲームにおいて人間を超えるレベルに到達できることを実証したと指摘した。

これらの研究は、2 人の対戦者間で進行中のさまざまなゼロサム ゲームにさらに適用できます。

(おそらく読んだ後)OG はツイートしました。「すごい!この論文は素晴らしい!」

この状況に、一部のネットユーザーは「すごい!」と感嘆のため息をついた。 OG チームが論文の素晴らしさを称賛しましたか?こんなの今まで見たことないよ…

この論文には実際何が書いてあるのでしょうか?

いくつかの重要なポイントをまとめます。

ポイント1: Dota2は囲碁よりも複雑

チェスゲームと比較すると、eスポーツゲームはより複雑です。

この課題を克服するための鍵は、既存の強化学習システムを前例のないレベルに拡張することであり、そのためには数千の GPU と数か月の時間が必要です。 OpenAI はこの目的のために分散トレーニング システムを構築しました。

トレーニングにおける課題の 1 つは、環境とコードが絶えず変化することです。変更のたびに最初からやり直さなくて済むように、OpenAI はパフォーマンスを損なうことなくトレーニングを再開できる一連のツールを開発しました。これを「手術」と呼んでいます。

Dota2 の各ゲームは約 45 分間続き、1 秒あたり 30 フレームのゲーム画面が生成されます。 OpenAI Five は 4 フレームごとにアクションを実行します。チェスのゲームは約 80 手で構成され、囲碁のゲームは約 150 手で構成されます。比較すると、Dota2 のゲームをプレイするには、AI は約 20,000 手を「プレイ」する必要があります。

そして、戦場の霧の存在により、Dota2 の両陣営はゲーム全体の状況の一部しか見ることができず、残りの情報は隠されています。

囲碁をプレイするAlphaGoと比較すると、Dota 2をプレイするAIシステムは、バッチサイズが50~150倍、モデルが20倍大きく、トレーニング時間が25倍長くなっています。

ポイント2: AIがDota2のプレイ方法を学ぶ方法

人間はキーボードやマウスなどを使って Dota 2 をプレイし、リアルタイムで意思決定を行います。前述したように、OpenAI Five は 4 フレームごとにアクションを実行します。これをタイムステップと呼びます。各タイムステップで、OpenAI は健康状態や位置などのデータを受信します。

同じ情報が人間と OpenAI Five では全く異なる形で受け取られます。

これは、AI システムがアクション コマンドを発行するときに、大まかに考えられる方法です。

AIの背後にはニューラルネットワークのセットがあります。ポリシー(π)は、観測からアクション確率への関数として定義され、1億5900万のパラメータを持つRNNです。このネットワークは、主に単層の 4096 ユニット LSTM で構成されています。

構造は以下の図のようになります。

LSTM はこのモデルのパラメータの 84% を占めています。

プレイヤーは、現在 OpenAI のデフォルトの強化学習トレーニング方法となっている Proximal Policy Optimization (PPO) 方式の拡張バージョンを使用してトレーニングされました。これらのエージェントの目標は、指数関数的に減少する将来の報酬の合計を最大化することです。

OpenAI Five は戦略を訓練する過程で、人間のゲームデータを使用せず、自分自身と対戦しました。同様のトレーニング方法は、囲碁やチェスなどの問題にも適用されます。

そのうち、80%の戦闘では、相手は最新のパラメータを使用したクローンであり、20%の戦闘では、相手は古いパラメータを使用したクローンでした。 10 回の反復ごとに、新しくトレーニングされたクローンにはシニアとしてマークが付けられます。現在トレーニング中の AI が新人やベテランに勝った場合、システムは学習率に基づいてパラメータを更新します。

OpenAI CTOによると、OpenAI FiveはOGを倒すまでにDotaの45,000年分に相当する練習を積んでいたという。 AIが毎日行うトレーニングの量は、人間が180年間ゲームをプレイするのに相当します。

ポイント3: 計算量とハイパーパラメータ

このような複雑な AI システムをトレーニングするには、間違いなく多くのリソースが消費されます。

OpenAI は最適化のための GPU 消費量を推定し、OpenAI Five の GPU コンピューティング使用量は約 770±50 ~ 820±50 PFlops/s·days であると結論付けました。本日言及した新しい、より強力な Rerun は、今後 2 か月間のトレーニングで約 150 ± 5 PFlops/s·days の GPU コンピューティングを消費しました。

繰り返しになりますが、OpenAI が発表したのは最適化に使用される計算量のみであり、これはトレーニングの総コストのほんの一部、約 30% にすぎません。

以前、OpenAIは、OpenAI Fiveの毎日のトレーニングには256個のP100 GPUと128,000個のCPUコアが必要であることも明らかにしました。

ニューラルネットワーク全体のハイパーパラメータについては、OpenAIは論文の中で、Rerunをトレーニングする際に、経験に基づいてハイパーパラメータをさらに簡素化したと述べています。最終的に、次の 4 つの主要なハイパーパラメータのみが変更されました。

• 学習率
• エントロピーペナルティ係数
• チームスピリット
• GAEのタイムホライズン

もちろん、OpenAI はこれらのハイパーパラメータをさらに最適化する余地がまだあるとも述べています。

ポイント4:独学だけではない

最後に、強調する必要がある点がもう 1 つあります。

OpenAIは論文の中で、AIシステムがDota2の学習プロセスにおいて強化学習に完全に依存しているわけではなく、人間の知識もいくらか活用していると明確に指摘した。これは後のAlphaGo Zeroとは異なります。

一部のゲーム メカニクスはスクリプト プログラムです。例えば、ヒーローが装備を購入したりスキルを習得する順序や、クーリエの制御などです。 OpenAIは論文の中で、これらのスクリプトを使用するのは、コストと時間を考慮するだけでなく、歴史的な理由もあると述べている。しかし、この論文では、これらは最終的には独学で達成できるとも指摘している。

論文全文

OpenAI は、「Dota 2 と大規模深層強化学習」と題したこの論文で、より詳しい情報を発表しました。ご興味があれば、こちらのポータルをご覧ください。

https://cdn.openai.com/dota-2.pdf

バトルレビュー

最後に、OpenAI Five が 2 試合連続で OG を破った試合全体を振り返ってみましょう。

[[285614]]

ゲーム1

AI(ラディアント):ライフル、コーキ、アイスメイデン、デスプロフェット、スヴェン

人間(ナイトダイア):マーベリック、ウィッチドクター、ヴェノムドラゴン、ヒドゥンアサシン、シャドウフィーンド

OpenAI Five は、ラインナップを選んだ後、優勝する確率は 67.6% であると考えています。

ゲーム開始直後、OpenAI Fiveが先制点を挙げ、人間軍はあっという間にAIのIce Girlを倒した。その後、序盤のキル数では両チームの得点は互角となった。 AI は常に経済面で総合的なリードを維持してきましたが、最も裕福なヒーローは常に人間の兄貴分である Shadow Fiend でした。

これは、両者の戦略の明らかな違いも示しています。OG は 3 つのコア + 2 つのサポートという従来の人間スタイルを使用していますが、AI の 5 人のヒーローの経済的配分は比較的均等で、より「大きな鍋料理」のようになっています。

激しい攻防とチーム戦が数回続き、試合開始から19分ほど経つと、AIの勝率予測は90%を超えた。自信に満ちたAIは、一気に人間の優位性を奪取した。

その後、OGは異なるレーンで前進することを選択しました。何人かの解説者は、これはAIが集団で前進するのを防ぐためにできるだけ分散させるためだと推測しましたが、それは長くは続きませんでした。

しかし、人間側のマーベリックがライフを取り戻した38分まで持ちこたえたが、AIの最後の攻撃波はすでに人間の基地を押し倒していた。

OpenAI Fiveが第1ゲームに勝利しました。現場では拍手も起こった。

[[285619]]

このゲームでは、AI はユニークなアイデアを示しました。AI は初期装備として 2 つの大きなポーションを選択し、その後の装備については、自身の属性を向上させるよりも物資を購入する傾向がありました。

さらに、先ほど述べた「ビッグポット」ポリシーや、ゲームの初期段階でのライフの頻繁な購入は、人間のプロプレイヤーの習慣とは大きく異なります。

ゲーム2

AI (ラディアント): アイスメイデン、コーキ、スヴェン、ウィッチドクター、ヴェノマンサー

人間(ナイトダイア):ライフル、マーベリック、デスプロフェット、マーロック、ライオン

ヒーローを選択した後、AIは自身の勝率が60.8%になると予測しましたが、これは前回のゲームのラインナップよりもわずかに低いものでした。

試合開始から2分間は両チームとも平和的にレーンを攻めていたが、予想外にミッドレーナーのTopsonがすぐに先制点をあげてしまった。

その後、人間の代表者たちは驚くべき速さで敗北した。

5分後、AIの自信は大幅に高まり、勝率は80%と予測しました。7分後、AIはトップレーンのタワーを倒しました。10分後、AIはすでに人間より4,000ゴールドコイン先取し、さらに2つのタワーを倒し、勝率は95%と推定しました。

11分時点で、AIはすでにOGの優位な立場を奪取していた。

わずか21分でOGの基地は陥落し、OpenAI Fiveは2試合目を楽々と勝利した。試合終了まで、OG のキル数は 1 桁のままで、AI に 46:6 で敗れました。

このゲームは非常に簡単に勝利しましたが、ゲーム中、AI の細部に欠陥があることは明らかでした。たとえば、複雑な森の中をさまよう人間を前にすると、AI は無力になります。今日の試合では、セブは森を迂回して命を救いました。

<<:  30年の沈黙と60年の経験を経て、「人工知能」の過去と現在とは?

>>:  ジェフ・ディーンが2020年の機械学習のトレンドについて語る:マルチタスクとマルチモダリティが大きく進歩する

ブログ    

推薦する

...

RPAのグローバルリーダーであるUiPathが中国市場への本格参入を発表

UiPath は、世界的なロボティック プロセス オートメーション (RPA) 分野の主要プラットフ...

...

量子もつれによりホログラムが生成されます。物体は画像を形成するために光を放射する必要はありません。

新たな研究によると、量子力学は科学者が物体から光を捉えることなくホログラムを生成するのに役立つ可能性...

超高性能+究極のアプリケーション、Powerleader AIサーバーがインテリジェントな開発を促進

現在、クラウドコンピューティングやAIなどの技術の出現により、データセンター設計の構造的変化が進み、...

エッジAIを真の変革に

エッジ AI の導入は幅広い業界で増加しています。この傾向が続くと、ビジネスだけでなく社会も変革する...

オープンモデルの重みはAIを制御不能にすると言われ、Metaはプラカードで抗議され、LeCun:オープンソースAIコミュニティは活発化している

AIの分野では、オープンソースとクローズドソースの選択については、常に意見が分かれてきました。しかし...

機械学習を使って純粋数学を新たな方法で探求する

1 世紀以上前、インドの伝説的な数学者シュリニヴァーサ・ラマヌジャンは、その比類のない数学的才能で数...

5Gは19の業界に浸透?これらの5つの分野はもっと注目に値する

2019年、「5G」は大いに期待されるテクノロジーの流行語となり、その人気は間違いなく人工知能に劣り...

...

AIは人類にとって脅威でしょうか?人工知能には強いものと弱いものがあるが、本当の危険は強い人工知能である

近年、科学技術分野で最もホットな言葉は人工知能であり、これは近年の人工知能の急速な発展によるものです...

業界初のNLPシナリオ向けディープラーニングフレームワークがオープンソースに

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

自然言語処理必読本: 理論と実践のバランスが取れた 5 冊の本

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

DFSアルゴリズムは5つの島の問題を克服する

[[429450]]この記事はWeChatの公開アカウント「labuladong」から転載したもので...

...