AIがDotAのトッププレイヤーに勝利したのは画期的なことでしょうか? OpenAIが詳細を発表

AIがDotAのトッププレイヤーに勝利したのは画期的なことでしょうか? OpenAIが詳細を発表

[[200484]]

週末、OpenAI は世界最高峰の DotA 2 イベント TI7 (The International) の 1 対 1 ミッドレーン マッチでトップ プレイヤーの Dendi を破りました。 OpenAIの創設者の1人でシリコンバレーの鉄人であるイーロン・マスク氏も、この機会を利用して3回連続でツイートし、OpenAIを称賛し、規制やAIのリスクについて語った。

しかし、この参加AIについてはあまり知られていないため、この勝利を誇張する人もいれば、画期的な成果なのかどうか疑問視する人もいます。

本日、OpenAIはついに公式ブログで、人工知能のDotA技術の進化、(部分的な)技術的詳細、より多くのプレイヤーとの対戦動画、そしてこのAIを倒す方法を発表しました。

スコア

DotA 2 に関する私たちの結果は、十分な計算能力があれば、セルフプレイによって機械学習システムが人間を上回るレベル (現在は 1 対 1 のミッド レーンに限定) でパフォーマンスを発揮できることを示しています。

1 か月で、私たちのシステムのレベルは、ハイレベルのプレイヤーとしか対戦できない状態から、トップクラスのプロプレイヤーに勝てる状態にまで向上しました。それ以来、システムは最適化され続けています。

教師ありディープラーニング システムのパフォーマンスはトレーニング データ セットに依存しますが、自己敵対的システムでは、システムが強力になるにつれて利用可能なデータが自動的に最適化されます。

次の図は AI の TrueSkill スコアを示しています。

時間の経過とともに、当社の最高の AI の TrueSkill スコアは直線的に向上しました。 TrueSkill は、AI 間のシミュレーション ゲームを通じて勝率を観察することによって計算され、チェスの ELO スコアに相当します。

TrueSkill スコアの向上は、システムのさまざまな部分の改善に関連しています。アルゴリズムに新しい機能を追加し、その規模を拡大することで、スコアを向上させることができます。

AI は DotA をどのようにプレイしますか?

完全な DotA ゲームは 5 対 5 のゲームですが、一部のトーナメントではミッド レーン ゲームも見られます。

当社の AI は標準のトーナメント ルールに従ってゲームをプレイしており、1 対 1 の試合で AI を有利にするために簡略化は行っていません。

AIは次のインターフェースを通じて操作されます。

  • 観察: ボット API 機能により、AI はヒーロー、レーン、近くの地形など、人間のように観察できるようになります。試合は部分的に視聴可能です。

  • 操作: 操作はボット API を通じて行われ、操作頻度は人間のプレイヤーと同様です。具体的な操作としては、位置の移動、他のユニットへの攻撃、小道具の使用などがあります。

  • フィードバック: AI は勝利後にインセンティブを得ることができます。 AI は、体力やラストヒットなどの他の基本的な指標に基づいてインセンティブを与えることもできます。

AIが使用できる装備合成方法を10種類以上ホワイトリスト化し、そのうちの1つを評価用に選択しました。また、従来の RL 技術を活用して、初期の車線制御技術をトレーニングします。

開発の歴史

プロジェクトのプロセスは次のとおりです。下記の MMR は Match Making Rating の略で、ラダー ポイントに相当するマッチ マッチング グレードです。 DotA 2 では、プレイヤーの 15% が MR 1500 未満、58% が MR 3000 未満、99.99% が MR 7500 未満です。

  • 3 月 1 日: 最初の古典的な強化学習システムが、シンプルな DotA 環境に導入されました。

  • 5月8日: ラダースコア1500のテスターは、自分のレベルがAIよりも速く向上していると述べました。

  • 6月初旬: AIがランク1500でテスターを破りました。

  • 6月30日: ラダースコア3000でほとんどのテスターに​​勝利しました。

  • 7月8日: ラダースコア7500のセミプロプレイヤーに対して初勝利を獲得。

  • 8月7日:Blitz(元プロ選手、ランク6200)に3-0で勝利、Pajkatt(プロ選手、ランク8500)に2-1で勝利、CC&C(プロ選手、ランク8900)に3-0で勝利。彼らは皆、SumaiL がこの AI に勝つ方法を知っていることに同意しました。

  • 8月9日:Arteezy(トッププロプレイヤー、ランク10,000)を10-0で破りました。彼はまた、SumaiL が AI に勝つ方法を知っているとも考えています。

  • 8月10日:SumaiL(トップミッドレーンプロ選手、ランク8300)を6-0で破りました。彼はこの AI が無敵だと信じている。彼は8月9日にAIに対して2勝1敗の成績を収めた。

  • 8月11日、元世界チャンピオンでプロランキング7300位のデンディを2-0で破った。 8月10日にAIと対戦すると、このAIが勝つ確率は60%です。

TI

私たちのアプローチは、少量の「コーチング」と自己対決を組み合わせることです。これにより、The International (TI7) の月曜日から木曜日の期間中に AI を大幅に最適化できるようになりました。

月曜日の夜、Pajkatt は珍しいギアの組み合わせ (早い段階で杖を購入) を使用し、勝利しました。次に、この装備合成方法をトレーニングのホワイトリストに追加しました。

水曜日の午後1時頃に最新バージョンのAIをテストしました。この AI は、最初の対決の波でかなりの体力を失いました。当初はコードをロールバックすることを検討しましたが、その後のゲームがより面白くなり、最初の対決の波での大量の流血は敵をさらに深く誘い込むためだけのものであることに気付きました。さらに自己対戦を続けることで問題は解決し、AI はデコイ戦略に対処する方法を学習しました。その間、私たちはこれを最初の波の対決のみのために月曜日の AI に組み込みました。私たちは、Arteezy が午後 4 時に到着する 20 分前に手続きを完了しました。

Arteezyとの試合後、波制御モデルをアップグレードし、TrueSkillスコアが1ポイント増加しました。さらに練習を重ねた結果、木曜日のスマイル戦を前に、彼のTrueSkillレーティングは2ポイント上昇した。スマイル氏は、AIが相手の視界外でスキルを使うことを学習したと指摘した。これは、これまで知らなかったメカニズムに基づいています。つまり、相手の視界外でスキルを使用すると、相手のヒーローは魔法の杖ポイントを蓄積しません。

Arteezy も MMR 7.5k のセミプロ ベータと対戦し、ほぼ勝利しましたが、AI が採用した戦略に驚かされました。 Arteezy は後に、中国のトッププロ選手で iG.V チームのミッドレーナーである Paparazi (The Rejector) が、彼との対戦で一度この戦略を使ったことがあるが、一般的な行動ではなかったと語った。

AIに勝つ方法

Sumail 氏は AI が「無敵」であると考えていますが、非常にまれな状況では AI が騙される可能性もあります。私たちはThe InternationalのLANイベントでAIを構築しました。プレイヤーは AI に勝つためにあらゆる方法を試しながら、1,000 回以上のゲームをプレイしました。

AI をうまく打ち負かすための戦略には、主に 3 つの種類があります。

  • 兵士の列を引き寄せる: プレイヤーは、AI の 2 番目と 3 番目のタワーの間で、新しく生成された兵士の列を繰り返し引き寄せて、追いかけさせることができます。最終的には、マップ上で多数の軍隊があなたを追いかけ、AI の防衛タワーが弱体化します。

  • ポイズン オーブとウィンド エンブレム: レベル 1 では、この装備の組み合わせにより、プレイヤーの移動速度が AI に比べて大幅に向上し、プレイヤーが素早くファースト ブラッドを獲得できるようになります。この利点を利用して、再び AI を倒す必要があります。

  • レベル 1 プッシュ: これには多くのスキルが必要ですが、レベル 1 で短期間に 3 ~ 5 個の能力を使用して AI を倒した MMR 6k ~ 7k のプレイヤーが数人います。

1対1でこれらの問題を解決することは、Pajkatt によって提起された抜け穴を解決することに似ています。しかし、5対5の状況では、そのような抜け穴は使用できません。これまでに見たことのない異常な状況に対処できるシステムが必要です。

インフラストラクチャー

この AI の内部についてはまだ十分に議論する予定はありませんが、チームは現在 5 対 5 の問題の解決に注力しています。

プロジェクトの最初のステップは、物理 GPU に基づくクラウド コンピューティング プラットフォーム上で DotA 2 を実行する方法を見つけることでした。

GPU クラウド コンピューティング インスタンスでは、ゲームにエラー メッセージが表示されます。トーナメントで使用されたのと同じマシンである Greg の個人用 GPU デスクトップで実行したところ、モニターが接続された状態で DotA が起動しますが、モニターが接続されていない場合はエラー メッセージが表示されることに気付きました。そこで、モニターが接続されているかのようにクラウド GPU インスタンスを構成しました。

DotA は現在、カスタム専用サーバーをサポートしていません。つまり、GPU なしでは低速のソフトウェア アクセラレーションしか使用できません。その後、起動に必要な部分のみを残して、OpenGL 呼び出しの大部分を無効にできるメカニズムを開発しました。

同時にスクリプトロボットも開発しました。組み込みボットは 1 対 1 の状況ではあまりうまく機能しないことを考慮すると、参照として使用し、ボット API のすべてのセマンティクスを理解するためのベンチマークが必要です。

スクリプト ボットは 10 分間で 70 回のラスト ヒットを達成しましたが、それでも優れた人間のプレイヤーには遅れをとっていました。

現在、最高の 1 対 1 ロボットは最大 97 回のラスト ヒットを達成できます (この前にタワーが倒されたことがあるため、この数値は推測に基づいています)。理論上の最大値は 101 です。

5対5を解決するにはどうすればいいですか?

1対1は複雑ですが、5対5はさらに複雑です。 AIをさらに前進させ、5対5の問題に対処する必要があることはわかっていました。

動作を複製することから始めることができます。 DotA では 1 日あたり約 100 万回の公開試合が行われ、これらの試合のリプレイは Valve のサーバーに 2 週間保存されます。

私たちは昨年 11 月以降のすべてのエキスパート レベルのリプレイをダウンロードし、580 万のゲーム (各ゲームは 10 人のプレイヤーで約 45 分間) のデータベースを蓄積しました。私たちは OpenDota を使用してこれらのリプレイを分析し、プロジェクトをサポートするために 12,000 ドル (10 年間の資金調達目標に相当) を寄付しました。

もちろん、ブログの最後で、OpenAI は改めて「人材を募集したい!」と表明しました。

<<:  遺伝的アルゴリズムの動作原理を 1 つの記事で理解する (Python 実装付き)

>>:  自然言語処理の他に、Word2Vec で何ができるのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

プログラミング能力はGPT-4を超え、アルパカコード版「スーパーカップ」が登場、ザッカーバーグ氏も自らLlama3をネタバレ

アルパカファミリーの「最強のオープンソースコードモデル」が「スーパーカップ」を発売しました——今朝、...

HDビデオは本物ではなく、数枚の写真でレンダリングされた3Dシーンでは本物かどうか判断が難しい。

今日の紹介を始める前に、次のシナリオを見てみましょう。 上記のアニメーションは、複数の写真からレンダ...

マイクロソフトがAIコンテンツレビューツール「Azure AI Content Safety」を正式にリリース

10月18日、マイクロソフトは健全で調和のとれたコミュニティ環境を作り、写真やテキスト内の偏見、憎悪...

人工知能の台頭によりプログラマーは消滅するのでしょうか?

ローコードおよびノー​​コード プラットフォームの爆発的な成長により、個人でも組織でも、従来はコード...

人工知能時代の教師の役割の再構築への道

データとアルゴリズムに基づく人工知能技術は、教師の教育活動と専門能力開発を厳格な手順構造の中に簡単に...

人工知能の新時代が近づいています。従来の産業の従事者はどこへ向かうのでしょうか?

世間の好むと好まざるとにかかわらず、人工知能の新しい時代が静かに到来した。しかし、人工知能が本格的に...

心が開かれました! Adobeなどの研究者が「自撮り」を「他人が撮った写真」に変え、感動的な魔法の写真編集効果を実現

自撮り写真を他人が撮った写真に変えることもできます。魔法の写真編集の世界に新しいトリックが登場し、そ...

李偉博士がブロックチェーンについてわかりやすく語る:技術原理、実用的応用、AIとの統合

[51CTO.comからの原文] 人工知能、モノのインターネット、ブロックチェーンなどの最先端技術が...

自動化はウエスタン証券のデジタル従業員にとっての出発点

金融テクノロジーと伝統テクノロジーの相互支援は、徐々に証券業界の発展の中核的な原動力となってきました...

...

AIスタートアップのRokidがKamino 18 AI音声チップをリリース、低電力ウェイクアップをサポート

昨日、国内のAIスタートアップ企業Rokidは杭州で新製品発表会を開催し、Meスマートポータブルスピ...

顔認識の歴史的な禁止が導入され、警察は犯罪者を捕まえるために顔認識を使用できなくなった

サンフランシスコは前例のない措置として、政府による顔認識技術の使用を禁止する規則を発布した。悪者を捕...

過去 2 週間で AI の進路を変える可能性が最も高い 6 つのリリース!

編纂者:ヤン・ジェン制作:51CTO テクノロジースタック(WeChat ID:blog)過去 2 ...

建物をスマートかつ持続可能なものに変える重要性

[[428632]]温室効果ガス削減目標と規制要件を満たすには、企業は施設をエネルギー効率の高いスマ...

市場レポートの予測: 2027年には世界の生体認証市場は1,000億ドルに近づく

近年、人工知能の継続的な成熟に伴い、生体認証技術は生活のあらゆる分野に浸透し、コストが削減され、効率...