Dota2 チャンピオン OG はどのようにして AI に打ち負かされたのでしょうか? OpenAIは3年間の蓄積を経てついに完全な論文を公開した

[[285612]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

チームOG、Dota2世界チャンピオンチーム。

OGは人工知能OpenAI Fiveの前では脆弱です。 5 人の人間チームは、ゲーム全体を通して何の緊張もなく 0 対 2 で敗北しました。2 つのゲームを合わせても、OG は外側のタワーを 2 つだけ倒しました。

しかし、これは AI の頂点ではありません。

現在、OpenAI は Rerun と呼ばれる新しい AI をトレーニングしました。 OG を圧倒した OpenAI Five と対戦した Rerun の勝率は... ええと... 98% に達しました。

このニュースを聞いて、あるツイッターユーザーが自分の意見を述べるために写真を投稿した。

人工知能は、主に自習に頼りながら、Dota 2 のような複雑なゲームでどうやって最強になれるのでしょうか?今日、この質問に対する答えが明らかになりました。

そうです、OpenAIはRerunをリリースしただけでなく、過去3年間のDota2プロジェクトに関する研究を論文を通じて正式に発表しました。

この論文では、OpenAI がシステム全体の原理、アーキテクチャ、計算の複雑さ、パラメータなど、さまざまな側面について説明しています。 OpenAIは、バッチサイズと総トレーニング時間を増やすことでコンピューティング規模を拡大し、今日の強化学習技術が複雑なeスポーツゲームにおいて人間を超えるレベルに到達できることを実証したと指摘した。

これらの研究は、2 人の対戦者間で進行中のさまざまなゼロサムゲームにさらに適用できます。

（おそらく読んだ後）OG はツイートしました。「すごい！この論文は素晴らしい！」

この状況に、一部のネットユーザーは「すごい！」と感嘆のため息をついた。 OG チームが論文の素晴らしさを称賛しましたか?こんなの今まで見たことないよ…

この論文には実際何が書いてあるのでしょうか?

いくつかの重要なポイントをまとめます。

ポイント1: Dota2は囲碁よりも複雑

チェスゲームと比較すると、eスポーツゲームはより複雑です。

この課題を克服するための鍵は、既存の強化学習システムを前例のないレベルに拡張することであり、そのためには数千の GPU と数か月の時間が必要です。 OpenAI はこの目的のために分散トレーニングシステムを構築しました。

トレーニングにおける課題の 1 つは、環境とコードが絶えず変化することです。変更のたびに最初からやり直さなくて済むように、OpenAI はパフォーマンスを損なうことなくトレーニングを再開できる一連のツールを開発しました。これを「手術」と呼んでいます。

Dota2 の各ゲームは約 45 分間続き、1 秒あたり 30 フレームのゲーム画面が生成されます。 OpenAI Five は 4 フレームごとにアクションを実行します。チェスのゲームは約 80 手で構成され、囲碁のゲームは約 150 手で構成されます。比較すると、Dota2 のゲームをプレイするには、AI は約 20,000 手を「プレイ」する必要があります。

そして、戦場の霧の存在により、Dota2 の両陣営はゲーム全体の状況の一部しか見ることができず、残りの情報は隠されています。

囲碁をプレイするAlphaGoと比較すると、Dota 2をプレイするAIシステムは、バッチサイズが50～150倍、モデルが20倍大きく、トレーニング時間が25倍長くなっています。

ポイント2: AIがDota2のプレイ方法を学ぶ方法

人間はキーボードやマウスなどを使って Dota 2 をプレイし、リアルタイムで意思決定を行います。前述したように、OpenAI Five は 4 フレームごとにアクションを実行します。これをタイムステップと呼びます。各タイムステップで、OpenAI は健康状態や位置などのデータを受信します。

同じ情報が人間と OpenAI Five では全く異なる形で受け取られます。

これは、AI システムがアクションコマンドを発行するときに、大まかに考えられる方法です。

AIの背後にはニューラルネットワークのセットがあります。ポリシー（π）は、観測からアクション確率への関数として定義され、1億5900万のパラメータを持つRNNです。このネットワークは、主に単層の 4096 ユニット LSTM で構成されています。

構造は以下の図のようになります。

LSTM はこのモデルのパラメータの 84% を占めています。

プレイヤーは、現在 OpenAI のデフォルトの強化学習トレーニング方法となっている Proximal Policy Optimization (PPO) 方式の拡張バージョンを使用してトレーニングされました。これらのエージェントの目標は、指数関数的に減少する将来の報酬の合計を最大化することです。

OpenAI Five は戦略を訓練する過程で、人間のゲームデータを使用せず、自分自身と対戦しました。同様のトレーニング方法は、囲碁やチェスなどの問題にも適用されます。

そのうち、80％の戦闘では、相手は最新のパラメータを使用したクローンであり、20％の戦闘では、相手は古いパラメータを使用したクローンでした。 10 回の反復ごとに、新しくトレーニングされたクローンにはシニアとしてマークが付けられます。現在トレーニング中の AI が新人やベテランに勝った場合、システムは学習率に基づいてパラメータを更新します。

OpenAI CTOによると、OpenAI FiveはOGを倒すまでにDotaの45,000年分に相当する練習を積んでいたという。 AIが毎日行うトレーニングの量は、人間が180年間ゲームをプレイするのに相当します。

ポイント3: 計算量とハイパーパラメータ

このような複雑な AI システムをトレーニングするには、間違いなく多くのリソースが消費されます。

OpenAI は最適化のための GPU 消費量を推定し、OpenAI Five の GPU コンピューティング使用量は約 770±50 ～ 820±50 PFlops/s·days であると結論付けました。本日言及した新しい、より強力な Rerun は、今後 2 か月間のトレーニングで約 150 ± 5 PFlops/s·days の GPU コンピューティングを消費しました。

繰り返しになりますが、OpenAI が発表したのは最適化に使用される計算量のみであり、これはトレーニングの総コストのほんの一部、約 30% にすぎません。

以前、OpenAIは、OpenAI Fiveの毎日のトレーニングには256個のP100 GPUと128,000個のCPUコアが必要であることも明らかにしました。

ニューラルネットワーク全体のハイパーパラメータについては、OpenAIは論文の中で、Rerunをトレーニングする際に、経験に基づいてハイパーパラメータをさらに簡素化したと述べています。最終的に、次の 4 つの主要なハイパーパラメータのみが変更されました。

• 学習率
• エントロピーペナルティ係数
• チームスピリット
• GAEのタイムホライズン

もちろん、OpenAI はこれらのハイパーパラメータをさらに最適化する余地がまだあるとも述べています。

ポイント4：独学だけではない

最後に、強調する必要がある点がもう 1 つあります。

OpenAIは論文の中で、AIシステムがDota2の学習プロセスにおいて強化学習に完全に依存しているわけではなく、人間の知識もいくらか活用していると明確に指摘した。これは後のAlphaGo Zeroとは異なります。

一部のゲームメカニクスはスクリプトプログラムです。例えば、ヒーローが装備を購入したりスキルを習得する順序や、クーリエの制御などです。 OpenAIは論文の中で、これらのスクリプトを使用するのは、コストと時間を考慮するだけでなく、歴史的な理由もあると述べている。しかし、この論文では、これらは最終的には独学で達成できるとも指摘している。

論文全文

OpenAI は、「Dota 2 と大規模深層強化学習」と題したこの論文で、より詳しい情報を発表しました。ご興味があれば、こちらのポータルをご覧ください。

https://cdn.openai.com/dota-2.pdf

バトルレビュー

最後に、OpenAI Five が 2 試合連続で OG を破った試合全体を振り返ってみましょう。

[[285614]]

ゲーム1

AI（ラディアント）：ライフル、コーキ、アイスメイデン、デスプロフェット、スヴェン

人間（ナイトダイア）：マーベリック、ウィッチドクター、ヴェノムドラゴン、ヒドゥンアサシン、シャドウフィーンド

OpenAI Five は、ラインナップを選んだ後、優勝する確率は 67.6% であると考えています。

ゲーム開始直後、OpenAI Fiveが先制点を挙げ、人間軍はあっという間にAIのIce Girlを倒した。その後、序盤のキル数では両チームの得点は互角となった。 AI は常に経済面で総合的なリードを維持してきましたが、最も裕福なヒーローは常に人間の兄貴分である Shadow Fiend でした。

これは、両者の戦略の明らかな違いも示しています。OG は 3 つのコア + 2 つのサポートという従来の人間スタイルを使用していますが、AI の 5 人のヒーローの経済的配分は比較的均等で、より「大きな鍋料理」のようになっています。

激しい攻防とチーム戦が数回続き、試合開始から19分ほど経つと、AIの勝率予測は90％を超えた。自信に満ちたAIは、一気に人間の優位性を奪取した。

その後、OGは異なるレーンで前進することを選択しました。何人かの解説者は、これはAIが集団で前進するのを防ぐためにできるだけ分散させるためだと推測しましたが、それは長くは続きませんでした。

しかし、人間側のマーベリックがライフを取り戻した38分まで持ちこたえたが、AIの最後の攻撃波はすでに人間の基地を押し倒していた。

OpenAI Fiveが第1ゲームに勝利しました。現場では拍手も起こった。

[[285619]]

このゲームでは、AI はユニークなアイデアを示しました。AI は初期装備として 2 つの大きなポーションを選択し、その後の装備については、自身の属性を向上させるよりも物資を購入する傾向がありました。

さらに、先ほど述べた「ビッグポット」ポリシーや、ゲームの初期段階でのライフの頻繁な購入は、人間のプロプレイヤーの習慣とは大きく異なります。

ゲーム2

AI (ラディアント): アイスメイデン、コーキ、スヴェン、ウィッチドクター、ヴェノマンサー

人間（ナイトダイア）：ライフル、マーベリック、デスプロフェット、マーロック、ライオン

ヒーローを選択した後、AIは自身の勝率が60.8％になると予測しましたが、これは前回のゲームのラインナップよりもわずかに低いものでした。

試合開始から2分間は両チームとも平和的にレーンを攻めていたが、予想外にミッドレーナーのTopsonがすぐに先制点をあげてしまった。

その後、人間の代表者たちは驚くべき速さで敗北した。

5分後、AIの自信は大幅に高まり、勝率は80%と予測しました。7分後、AIはトップレーンのタワーを倒しました。10分後、AIはすでに人間より4,000ゴールドコイン先取し、さらに2つのタワーを倒し、勝率は95%と推定しました。

11分時点で、AIはすでにOGの優位な立場を奪取していた。

わずか21分でOGの基地は陥落し、OpenAI Fiveは2試合目を楽々と勝利した。試合終了まで、OG のキル数は 1 桁のままで、AI に 46:6 で敗れました。

このゲームは非常に簡単に勝利しましたが、ゲーム中、AI の細部に欠陥があることは明らかでした。たとえば、複雑な森の中をさまよう人間を前にすると、AI は無力になります。今日の試合では、セブは森を迂回して命を救いました。

<<: 30年の沈黙と60年の経験を経て、「人工知能」の過去と現在とは？

>>: ジェフ・ディーンが2020年の機械学習のトレンドについて語る：マルチタスクとマルチモダリティが大きく進歩する

ブログ

Nature 誌に「なぜディープラーニングシステムは騙されやすいのか？」という記事が掲載されました。

Dota2 チャンピオン OG はどのようにして AI に打ち負かされたのでしょうか? OpenAIは3年間の蓄積を経てついに完全な論文を公開した

ポイント1: Dota2は囲碁よりも複雑

ポイント2: AIがDota2のプレイ方法を学ぶ方法

ポイント3: 計算量とハイパーパラメータ

ポイント4：独学だけではない

論文全文

バトルレビュー

ゲーム1

ゲーム2

Nature 誌に「なぜディープラーニングシステムは騙されやすいのか？」という記事が掲載されました。

大規模自動運転モデルに関する研究と論文の簡単な説明

AIチップ市場に必要なのは火か氷か？

マイクロソフトは下書きを数秒でアプリに変換し、Mac Miniのようなミニデスクトップコンピューターを発売

ロボットはどのようにあなたに取って代わるのでしょうか?英国のスーパーマーケットのスマート倉庫では、1日50万個の商品を仕分けるのにたった3人しか要らない

4kスター、AIが強化学習でポケモンをプレイ、2万ゲームを経て勝利に成功

もう終わりですか？ LK-99は単なる強磁性体であり、超伝導体ではない。北京大学などの研究論文が発表された。

今後10年間で自動化される可能性のある14の仕事

マイクロソフトとOpenAIが訴えられた後、アップルはニュース出版社とAIモデルのトレーニング費用の支払いについて交渉している

推薦する

ByteDance は、10,000 曲以上のピアノ曲と 1,000 時間以上の音楽を収録した世界最大のピアノ MIDI データセットを保有しています。

Transformerは画像を生成することも可能で、新しいViTGANのパフォーマンスはCNNベースのGANに匹敵する。

AI学習製品は本当に子供の成長に良いのでしょうか？

Intel と AMD はパフォーマンスの向上のために AI PC に期待していますが、消費者はそれらを買い替える資金を持っているのでしょうか?

強化学習はアプリケーションにおける戦略の「最適解」を見つける

2023年に人工知能とデータサイエンスについて知っておくべきこと

ファーウェイのエリック・シュー氏：パーベイシブ・インテリジェンスを創造し、すべてがつながるインテリジェントな世界を構築する

自撮り写真でAIがあなたの顔を認識できないようにする方法

5G+AI：将来的には1+1>2の効果は得られるのか？

スーパーコンピューターで設計された、カエルの細胞から作られた初の生きたロボット