Dota2 チャンピオン OG はどのようにして AI に打ち負かされたのでしょうか? OpenAIは3年間の蓄積を経てついに完全な論文を公開した

Dota2 チャンピオン OG はどのようにして AI に打ち負かされたのでしょうか? OpenAIは3年間の蓄積を経てついに完全な論文を公開した

[[285612]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

チームOG、Dota2世界チャンピオンチーム。

OGは人工知能OpenAI Fiveの前では脆弱です。 5 人の人間チームは、ゲーム全体を通して何の緊張もなく 0 対 2 で敗北しました。2 つのゲームを合わせても、OG は外側のタワーを 2 つだけ倒しました。

しかし、これは AI の頂点ではありません。

現在、OpenAI は Rerun と呼ばれる新しい AI をトレーニングしました。 OG を圧倒した OpenAI Five と対戦した Rerun の勝率は... ええと... 98% に達しました。

このニュースを聞いて、あるツイッターユーザーが自分の意見を述べるために写真を投稿した。

人工知能は、主に自習に頼りながら、Dota 2 のような複雑なゲームでどうやって最強になれるのでしょうか?今日、この質問に対する答えが明らかになりました。

そうです、OpenAIはRerunをリリースしただけでなく、過去3年間のDota2プロジェクトに関する研究を論文を通じて正式に発表しました。

この論文では、OpenAI がシステム全体の原理、アーキテクチャ、計算の複雑さ、パラメータなど、さまざまな側面について説明しています。 OpenAIは、バッチサイズと総トレーニング時間を増やすことでコンピューティング規模を拡大し、今日の強化学習技術が複雑なeスポーツゲームにおいて人間を超えるレベルに到達できることを実証したと指摘した。

これらの研究は、2 人の対戦者間で進行中のさまざまなゼロサム ゲームにさらに適用できます。

(おそらく読んだ後)OG はツイートしました。「すごい!この論文は素晴らしい!」

この状況に、一部のネットユーザーは「すごい!」と感嘆のため息をついた。 OG チームが論文の素晴らしさを称賛しましたか?こんなの今まで見たことないよ…

この論文には実際何が書いてあるのでしょうか?

いくつかの重要なポイントをまとめます。

ポイント1: Dota2は囲碁よりも複雑

チェスゲームと比較すると、eスポーツゲームはより複雑です。

この課題を克服するための鍵は、既存の強化学習システムを前例のないレベルに拡張することであり、そのためには数千の GPU と数か月の時間が必要です。 OpenAI はこの目的のために分散トレーニング システムを構築しました。

トレーニングにおける課題の 1 つは、環境とコードが絶えず変化することです。変更のたびに最初からやり直さなくて済むように、OpenAI はパフォーマンスを損なうことなくトレーニングを再開できる一連のツールを開発しました。これを「手術」と呼んでいます。

Dota2 の各ゲームは約 45 分間続き、1 秒あたり 30 フレームのゲーム画面が生成されます。 OpenAI Five は 4 フレームごとにアクションを実行します。チェスのゲームは約 80 手で構成され、囲碁のゲームは約 150 手で構成されます。比較すると、Dota2 のゲームをプレイするには、AI は約 20,000 手を「プレイ」する必要があります。

そして、戦場の霧の存在により、Dota2 の両陣営はゲーム全体の状況の一部しか見ることができず、残りの情報は隠されています。

囲碁をプレイするAlphaGoと比較すると、Dota 2をプレイするAIシステムは、バッチサイズが50~150倍、モデルが20倍大きく、トレーニング時間が25倍長くなっています。

ポイント2: AIがDota2のプレイ方法を学ぶ方法

人間はキーボードやマウスなどを使って Dota 2 をプレイし、リアルタイムで意思決定を行います。前述したように、OpenAI Five は 4 フレームごとにアクションを実行します。これをタイムステップと呼びます。各タイムステップで、OpenAI は健康状態や位置などのデータを受信します。

同じ情報が人間と OpenAI Five では全く異なる形で受け取られます。

これは、AI システムがアクション コマンドを発行するときに、大まかに考えられる方法です。

AIの背後にはニューラルネットワークのセットがあります。ポリシー(π)は、観測からアクション確率への関数として定義され、1億5900万のパラメータを持つRNNです。このネットワークは、主に単層の 4096 ユニット LSTM で構成されています。

構造は以下の図のようになります。

LSTM はこのモデルのパラメータの 84% を占めています。

プレイヤーは、現在 OpenAI のデフォルトの強化学習トレーニング方法となっている Proximal Policy Optimization (PPO) 方式の拡張バージョンを使用してトレーニングされました。これらのエージェントの目標は、指数関数的に減少する将来の報酬の合計を最大化することです。

OpenAI Five は戦略を訓練する過程で、人間のゲームデータを使用せず、自分自身と対戦しました。同様のトレーニング方法は、囲碁やチェスなどの問題にも適用されます。

そのうち、80%の戦闘では、相手は最新のパラメータを使用したクローンであり、20%の戦闘では、相手は古いパラメータを使用したクローンでした。 10 回の反復ごとに、新しくトレーニングされたクローンにはシニアとしてマークが付けられます。現在トレーニング中の AI が新人やベテランに勝った場合、システムは学習率に基づいてパラメータを更新します。

OpenAI CTOによると、OpenAI FiveはOGを倒すまでにDotaの45,000年分に相当する練習を積んでいたという。 AIが毎日行うトレーニングの量は、人間が180年間ゲームをプレイするのに相当します。

ポイント3: 計算量とハイパーパラメータ

このような複雑な AI システムをトレーニングするには、間違いなく多くのリソースが消費されます。

OpenAI は最適化のための GPU 消費量を推定し、OpenAI Five の GPU コンピューティング使用量は約 770±50 ~ 820±50 PFlops/s·days であると結論付けました。本日言及した新しい、より強力な Rerun は、今後 2 か月間のトレーニングで約 150 ± 5 PFlops/s·days の GPU コンピューティングを消費しました。

繰り返しになりますが、OpenAI が発表したのは最適化に使用される計算量のみであり、これはトレーニングの総コストのほんの一部、約 30% にすぎません。

以前、OpenAIは、OpenAI Fiveの毎日のトレーニングには256個のP100 GPUと128,000個のCPUコアが必要であることも明らかにしました。

ニューラルネットワーク全体のハイパーパラメータについては、OpenAIは論文の中で、Rerunをトレーニングする際に、経験に基づいてハイパーパラメータをさらに簡素化したと述べています。最終的に、次の 4 つの主要なハイパーパラメータのみが変更されました。

• 学習率
• エントロピーペナルティ係数
• チームスピリット
• GAEのタイムホライズン

もちろん、OpenAI はこれらのハイパーパラメータをさらに最適化する余地がまだあるとも述べています。

ポイント4:独学だけではない

最後に、強調する必要がある点がもう 1 つあります。

OpenAIは論文の中で、AIシステムがDota2の学習プロセスにおいて強化学習に完全に依存しているわけではなく、人間の知識もいくらか活用していると明確に指摘した。これは後のAlphaGo Zeroとは異なります。

一部のゲーム メカニクスはスクリプト プログラムです。例えば、ヒーローが装備を購入したりスキルを習得する順序や、クーリエの制御などです。 OpenAIは論文の中で、これらのスクリプトを使用するのは、コストと時間を考慮するだけでなく、歴史的な理由もあると述べている。しかし、この論文では、これらは最終的には独学で達成できるとも指摘している。

論文全文

OpenAI は、「Dota 2 と大規模深層強化学習」と題したこの論文で、より詳しい情報を発表しました。ご興味があれば、こちらのポータルをご覧ください。

https://cdn.openai.com/dota-2.pdf

バトルレビュー

最後に、OpenAI Five が 2 試合連続で OG を破った試合全体を振り返ってみましょう。

[[285614]]

ゲーム1

AI(ラディアント):ライフル、コーキ、アイスメイデン、デスプロフェット、スヴェン

人間(ナイトダイア):マーベリック、ウィッチドクター、ヴェノムドラゴン、ヒドゥンアサシン、シャドウフィーンド

OpenAI Five は、ラインナップを選んだ後、優勝する確率は 67.6% であると考えています。

ゲーム開始直後、OpenAI Fiveが先制点を挙げ、人間軍はあっという間にAIのIce Girlを倒した。その後、序盤のキル数では両チームの得点は互角となった。 AI は常に経済面で総合的なリードを維持してきましたが、最も裕福なヒーローは常に人間の兄貴分である Shadow Fiend でした。

これは、両者の戦略の明らかな違いも示しています。OG は 3 つのコア + 2 つのサポートという従来の人間スタイルを使用していますが、AI の 5 人のヒーローの経済的配分は比較的均等で、より「大きな鍋料理」のようになっています。

激しい攻防とチーム戦が数回続き、試合開始から19分ほど経つと、AIの勝率予測は90%を超えた。自信に満ちたAIは、一気に人間の優位性を奪取した。

その後、OGは異なるレーンで前進することを選択しました。何人かの解説者は、これはAIが集団で前進するのを防ぐためにできるだけ分散させるためだと推測しましたが、それは長くは続きませんでした。

しかし、人間側のマーベリックがライフを取り戻した38分まで持ちこたえたが、AIの最後の攻撃波はすでに人間の基地を押し倒していた。

OpenAI Fiveが第1ゲームに勝利しました。現場では拍手も起こった。

[[285619]]

このゲームでは、AI はユニークなアイデアを示しました。AI は初期装備として 2 つの大きなポーションを選択し、その後の装備については、自身の属性を向上させるよりも物資を購入する傾向がありました。

さらに、先ほど述べた「ビッグポット」ポリシーや、ゲームの初期段階でのライフの頻繁な購入は、人間のプロプレイヤーの習慣とは大きく異なります。

ゲーム2

AI (ラディアント): アイスメイデン、コーキ、スヴェン、ウィッチドクター、ヴェノマンサー

人間(ナイトダイア):ライフル、マーベリック、デスプロフェット、マーロック、ライオン

ヒーローを選択した後、AIは自身の勝率が60.8%になると予測しましたが、これは前回のゲームのラインナップよりもわずかに低いものでした。

試合開始から2分間は両チームとも平和的にレーンを攻めていたが、予想外にミッドレーナーのTopsonがすぐに先制点をあげてしまった。

その後、人間の代表者たちは驚くべき速さで敗北した。

5分後、AIの自信は大幅に高まり、勝率は80%と予測しました。7分後、AIはトップレーンのタワーを倒しました。10分後、AIはすでに人間より4,000ゴールドコイン先取し、さらに2つのタワーを倒し、勝率は95%と推定しました。

11分時点で、AIはすでにOGの優位な立場を奪取していた。

わずか21分でOGの基地は陥落し、OpenAI Fiveは2試合目を楽々と勝利した。試合終了まで、OG のキル数は 1 桁のままで、AI に 46:6 で敗れました。

このゲームは非常に簡単に勝利しましたが、ゲーム中、AI の細部に欠陥があることは明らかでした。たとえば、複雑な森の中をさまよう人間を前にすると、AI は無力になります。今日の試合では、セブは森を迂回して命を救いました。

<<:  30年の沈黙と60年の経験を経て、「人工知能」の過去と現在とは?

>>:  ジェフ・ディーンが2020年の機械学習のトレンドについて語る:マルチタスクとマルチモダリティが大きく進歩する

ブログ    

推薦する

CNN モデルの圧縮と加速アルゴリズムのレビュー

[[201727]]序文AlexNet が ILSVRC 2012 ImageNet 画像分類コンテ...

自動運転時代のヒューマンマシンインタラクションの発展動向

自動車技術の継続的な向上とインターネット技術の普及に伴い、自動車に付与される機能はますます増えていま...

チャットボット: ビジネスを成長させる 8 つの方法

[51CTO.com クイック翻訳] 顧客がビジネスの運命を決定する中心であることは間違いありません...

2019年の人工知能の給与水準、給与水準分析チャート、わかりやすい

2019年の人工知能の給与水準、まずは全体の給与水準の2つの分析グラフを見てみましょう! ***は、...

半導体市場における人工知能の可能性と重要性

人工知能プロセッサは世界の半導体産業を活性化させており、少なくとも1つの市場調査会社は、AIチップの...

ニューラル ネットワークを構築する超簡単な方法、あなたにもできます!

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

AI技術がピカソの隠された絵画の発見を助ける

[[429170]]最近、外国メディアの報道によると、有名になる前のパブロ・ピカソは、必ずしも画材を...

...

人工知能はビッグデータの保存と管理の効率をどのように向上させるのでしょうか?

ビッグデータのソースが多数存在し、企業が利用できるデータの量も増加しているため、ストレージ管理者にと...

ロボット開発で人気の言語:不滅のJava、不滅のC/C++、そして新興のPython

プログラミング言語は流行ったり廃れたりするものですが、Java と C/C++ は変わりません。 [...

AIの原動力となるディープラーニング

[51CTO.com からのオリジナル記事] 人類が初めてプログラム可能なコンピューターを思いついた...

AIとIoTが現代の商取引と小売業を強化

小売業界は大きな変革期を迎えています。消費者の購買方法や交流方法が変わり続ける中、小売業者は新たな商...

機械学習の博士課程での私の経験から得た洞察

2020 年は非常に困難な年でしたが、私にとってはコーネル大学でコンピューターサイエンスの博士号を取...

ビッグデータなどの最も中核的なキーテクノロジー:32のアルゴリズム

[[181277]]オーストリアの記号計算研究所 (RISC) の Christoph Koutsc...

中国の教授が犯罪認識率97%の人工知能「検察官」を開発、現在テスト中

[[442697]]最近、「中国の教授らが人工知能検察官を開発中」というニュースが多くの海外ネットユ...