マルチエージェント強化学習アルゴリズムが機能しないと聞きました。 MAPPOを正しく使用しましたか?

マルチエージェント強化学習アルゴリズムが機能しないと聞きました。 MAPPOを正しく使用しましたか?

清華大学とカリフォルニア大学バークレー校の共同研究により、アルゴリズムやネットワークアーキテクチャに一切変更を加えずに、MAPPO (マルチエージェント PPO) が 3 つの代表的なマルチエージェントタスク (Multi-Agent Particle World、StarCraftII、Hanabi) で SOTA アルゴリズムに匹敵するパフォーマンスを達成したことが判明しました。

近年、マルチエージェント強化学習(MARL)は飛躍的な進歩を遂げています。たとえば、DeepMindが開発したAlphaStarは、StarCraft IIでプロのStarCraftプレイヤーに勝利し、人間のプレイヤーの99.8%を超えました。OpenAI FiveはDOTA2で世界チャンピオンチームを何度も破り、eスポーツ大会でチャンピオンを破った最初の人工知能システムになりました。また、シミュレーションされた物理環境でかくれんぼをしながら、人間のように道具を使えるエージェントを訓練しました。私たちが言及したエージェントのほとんどは、オンポリシーアルゴリズム(IMPALA[8]など)を使用してトレーニングされており、高度な並列処理と膨大な計算能力のサポートが必要です。たとえば、OpenAI Fiveは、データサンプルを収集してネットワークをトレーニングするために、128,000個のCPUと256個のP100 GPUを消費しました。

しかし、ほとんどの学術機関にとって、これほどの規模のコンピューティング リソースを備えることは困難です。そのため、MARL分野では、オンポリシーアルゴリズム(PPO[3]など)と比較して、オフポリシーアルゴリズム(MADDPG[5]、QMix[6]など)は、コンピューティングリソースが限られている場合にサンプリング効率が高いため、インテリジェントエージェントのトレーニングに適しているというコンセンサスがほぼ得られています。また、特定のドメイン固有の問題を解決するために、一連のSOTAアルゴリズムも進化してきました(SAD[9]、RODE[7]など)。

しかし、清華大学とカリフォルニア大学バークレー校の研究者は論文の中で、この従来の認識に対して異なる見解を提示しました。MARLアルゴリズムでは、データサンプル効率(サンプル効率)とアルゴリズム操作効率(実時間実行効率)を総合的に考慮する必要があるというものです。計算リソースが限られている状況では、オフポリシー アルゴリズムと比較して、オンポリシー アルゴリズムである MAPPO (マルチエージェント PPO) は、アルゴリズム操作効率が大幅に高く、データ サンプル効率も同等 (またはそれ以上) です。興味深いことに、研究者たちは、アルゴリズムやネットワーク アーキテクチャに変更を加えずに、SOTA アルゴリズムに匹敵するパフォーマンスを達成するには、MAPPO の最小限のハイパーパラメータ検索のみが必要であることを発見しました。さらに、MAPPOのパフォーマンスを向上させるための5つの重要な提案が示され、最適化されたMARLアルゴリズムのソースコードセットがオープンソース化されました(コードアドレス:
https://github.com/marlbenchmark/on-policy)。

したがって、MARL アルゴリズムがうまく機能していない場合は、この研究を参考にするとよいかもしれません。適切なアルゴリズムを使用していない可能性があります。MARL アルゴリズムの研究に重点を置いている場合は、ベースラインとして MAPPO を使用してみると、タスクのベンチマークが向上する可能性があります。MARL 研究の入門段階にある場合は、このソースコードセットを入手する価値があります。よく開発されており、使いやすいと言われています。この論文は、清華大学の王宇、呉毅らがカリフォルニア大学バークレー校の研究者と共同で完成させた。研究者たちは、さらに最適化されたアルゴリズムとタスクをオープンソース化し続ける予定です(ウェアハウスの指示:
(https://github.com/marlbenchmark) より

論文リンク:
https://arxiv.org/abs/2103.01955

MAPPOとは

PPO(Proximal Policy Optimization)[4]は現在非常に人気のあるシングルエージェント強化学習アルゴリズムであり、OpenAIが実験を行う際に選択するアルゴリズムでもあり、その幅広い適用性を示しています。 PPO は、古典的なアクター・クリティック・アーキテクチャを採用しています。このうち、アクターネットワーク(ポリシーネットワークとも呼ばれる)は、ローカル観測(obs)を受信して​​アクション(action)を出力します。一方、批評家ネットワーク(バリューネットワークとも呼ばれる)は、状態(state)を受信して​​アクション値(value)を出力し、アクターネットワークの出力アクションの品質を評価するために使用されます。直感的には、審査員(評論家)が俳優(俳優)の演技(行為)に点数(価値)をつけることだと理解できます。 MAPPO (マルチエージェント PPO) は、マルチエージェント タスクに適用される PPO アルゴリズムのバリエーションです。これもアクター クリティック アーキテクチャを使用しますが、違いは、クリティックが集中型の価値関数を学習する点です。つまり、クリティックは他のエージェントや環境に関する情報を含むグローバル情報を観察できます。

実験環境

次に、本論文における実験環境について紹介します。この論文では、代表的な協調型マルチエージェントタスクを 3 つ選択しました。協調型タスクを選択した重要な理由は、評価指標が明確で、さまざまなアルゴリズムを比較しやすくなることです。

最初の環境は、OpenAIのMulti-agent Particle World (MPE)タスクです(ソースコードの指示:
[1]は、軽量な環境と抽象的で多様なタスク設定により、MARLアルゴリズムを迅速に検証するためのテストプラットフォームとして好まれています。図 1 に示すように、MPE には Spread、Comm、Reference という 3 つの共同タスクがあります。

図1: MPE環境の3つのサブタスク: Spread、Comm、Reference

2番目の環境は、MARLフィールドの有名なStarCraftIIミッションです(ソースコード:
図 2 に示すように、https://github.com/oxwhirl/smac にアクセスします。このタスクはもともとM. Samvelyanら[2]によって提案されたもので、2~27のエージェント数を持つ23の実験マップを提供しています。ゲームに勝つためには、エージェントが協力して敵エージェントを倒す必要があります。このタスクが発表されて以来、古典的なアルゴリズムQMix[6]や最近発表されたRODE[7]など、多くの研究者がその特性に基づいたアルゴリズム研究を行ってきました。 StarCraftII はバージョンアップを重ねており、バージョン間でパフォーマンスに違いがあるため、この論文では最新バージョンの SC2.4.10 を使用していることに特に注意してください。

[[385520]]

図2: StarCraftII環境の代表的な2つのマップ: Corridorと2c vs. 64zg

3つ目の環境は、2019年にNolan Bardら[3]が提案した純粋に協調的なタスクHanabiである(ソースコード:
(https://github.com/deepmind/hanabi-learning-environment)Hanabiはターン制のカードゲームで、各ラウンドでカードをプレイできるのは1人のプレイヤーだけです。これまでのマルチエージェントタスクと比較して、Hanabiの重要な特徴は純粋な協力です。各プレイヤーは他のプレイヤーの意図を推論し、ポイントを獲得するために協力を完了する必要があります。Hanabiのプレイヤー数は2〜5人です。図3は4人プレイヤーのタスク図です。興味のある読者は自分でプレイしてみてください。

図3: 4人用Hanabi-Fullタスクの模式図

実験結果

まず、論文に記載されている実験結果を見てみましょう。論文に記載されているすべての実験は、256 GB のメモリ、64 コアの CPU、GeForce RTX 3090 24GB グラフィック カードを搭載したホスト コンピューターで完了したことに注意してください。さらに研究者らは、本論文のアルゴリズムはすべて微調整されているため、本論文で再現された実験結果の一部は元の論文よりも優れているだろうと述べています。

(1)MPE環境

図4は、MPEにおけるさまざまなアルゴリズムのデータサンプル効率とアルゴリズム操作効率の比較を示しています。IPPO(Independent PPO)は、批評家が分散価値関数を学習することを意味します。つまり、批評家とアクターの入力はローカル観測です。IPPOとMAPPOのハイパーパラメータは一致しています。MADDPG[5]は、MARL分野で非常に人気のあるオフポリシーアルゴリズムであり、MPE用に開発されたアルゴリズムでもあります。QMix[6]は、StarCraftII用に開発されたMARLアルゴリズムであり、StarCraftIIでよく使用されるベースラインでもあります。

図4からわかるように、MAPPOは他のアルゴリズムと比較して、データサンプル効率とパフォーマンスが同等であるだけでなく(図(a))、アルゴリズム操作効率も大幅に高くなっています(図(b))。

図4: MPEにおける異なるアルゴリズムのデータサンプル効率とアルゴリズム操作効率の比較

(2)スタークラフトII環境

表1は、MAPPOとIPPO、QMix、およびRODEがStarCraftII用に開発したSOTAアルゴリズムとの勝率比較を示しています。10Mデータに切り捨てた場合、MAPPOの勝率は19/23マップでSOTAに達しました。3s5z vs. 3s6zを除いて、他のマップとSOTAアルゴリズムの差は5%未満です。3s5z vs. 3s6zは、10Mに切り捨てたときに完全に収束しませんでした。25Mに切り捨てると、勝率は91%に達する可能性があります。

図 5 は、StarCraftII のさまざまなアルゴリズムのデータ サンプル効率とアルゴリズム操作効率の比較を示しています。 MAPPO は実際に QMix や RODE と同等のデータ サンプル効率と、より高速なアルゴリズム操作効率を備えていることがわかります。 StarCraftII タスクの実際のトレーニングでは 8 つの並列環境のみが使用され、MPE タスクでは 128 の並列環境が使用されるため、図 5 のアルゴリズム実行効率は図 4 ほど変わりません。しかし、それでも MAPPO の驚くべきパフォーマンスと実行効率がわかります。

表 1: StarCraftII の 23 マップにおけるさまざまなアルゴリズムの勝率の比較。カット マークは、SOTA アルゴリズムと公平に比較​​するために、MAPPO と QMix が RODE と同じステップ数に切り捨てられていることを示しています。

(3)花火環境

SAD は、Hanabi タスク用に開発された SOTA アルゴリズムです。SA​​D のスコアは元の論文から取得されていることに注意してください。元の著者は 13 個のランダム シードを実行しましたが、各シードには約 100 億のデータが必要でした。一方、時間の制約により、MAPPO は 4 個のランダム シードのみを実行しましたが、各シードには約 72 億のデータが必要でした。表 2 から、MAPPO は依然として SAD に匹敵するスコアを達成できることがわかります。

表2: 2人用Hanabi-FullタスクにおけるMAPPOとSADスコアの比較。

5つのヒント

論文に記載されている実験結果を読んだ後、元の質問に戻りましょう。MAPPO を正しく使用しましたか?

研究者らは、マルチエージェントタスクはシングルエージェントタスクとは大きく異なるものの、入力正規化、値クリップ、最大勾配ノルムクリップ、直交初期化、GAE 正規化など、他のシングルエージェントタスクで以前に提供された PPO 実装の提案は依然として非常に有用であることを発見しました。しかし、研究者らは、それだけでなく、MARL フィールドや見落とされがちなその他の要因についても 5 つの追加提案を行っています。

値の正規化: 研究者は PopArt を使用して値を正規化し、PopArt の使用は有害ではなく有益であると指摘しました。

エージェント固有のグローバル状態: エージェント固有のグローバル情報を使用して、グローバル情報の省略と過剰な次元性を回避します。研究者らが、StarCraft II の元のグローバル情報には情報の欠落があり、エージェントのローカル観測よりも情報が少ないことを発見したことは特筆に値します。これは、MAPPO を StarCraft II に直接適用するとパフォーマンスが低下する重要な理由でもあります。

トレーニング データの使用: 単純なタスクの場合は 15 のトレーニング エポックが推奨されますが、より難しいタスクの場合は 10 または 5 のトレーニング エポックを試してください。さらに、トレーニングのためにデータを多数の小さなバッチ (ミニバッチ) に分割するのではなく、トレーニング データのバッチ全体を使用するようにしてください。

アクション マスキング: マルチエージェント タスクでは、エージェントが特定のアクションを実行できないことがよくあります。これらの無効なアクションは、アクション確率の計算に参加しないように、フォワード実行とバックプロパゲーションの両方でマスクすることをお勧めします。

デス マスキング: マルチエージェント タスクでは、エージェントまたは一部のエージェントが途中で死亡することがよくあります (StarCraftII など)。エージェントが死亡した場合、そのエージェント ID のみが保持され、他の情報は保護されて、より正確な状態値関数を学習します。

より詳しい実験の詳細と分析については、原著論文を参照してください。

<<:  AI時代に誰かが密かにあなたの顔を真似している

>>:  手紙を開かずに読むことはできますか? MITのX線技術がネイチャー誌に掲載される

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

「ニューラル+シンボリック」:知識グラフの観点から見た認知推論の発展

[[376956]]過去10年間の人工知能の波の中で、ディープラーニングに代表される人工知能技術は、...

AIは脳スキャンだけであなたの政治的思想を予測できる

人工知能は、脳内の機能的接続のスキャンを分析するだけで、人の政治的イデオロギーを予測することができま...

スマート医療診断を理解するためのレポート:AIエンパワーメントと分子診断の自動化

分子診断のミッドストリーム市場は、機器メーカーや試薬メーカーによって占められています。現在の分子診断...

人工知能におけるGNNとは何ですか?

グラフディープラーニング(GDL)は有望な研究分野であり、グラフデータに基づいた学習や分析は非常に有...

COVID-19パンデミックにより非接触型生体認証の利用が拡大

[[403477]]調査会社ファクトMRの最新情報によると、新型コロナウイルス感染症のパンデミックに...

たった5秒でNeRFをトレーニング? ! Nvidia の新技術は Google の研究者の手に負えない | オープンソース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

5 分間の技術講演 | 顔認識についてどれくらい知っていますか?

パート01 顔認識技術の概要顔認識技術は生体認証技術の一種で、人物の顔の特定の特徴(目、鼻、口、眉毛...

AIが従業員のオンボーディングを自動化する5つの方法

ますます激化する労働市場で人材獲得競争に勝つための新たな可能性を模索するビジネスリーダーや人事マネー...

コードを入力すること、詩を書くこと、論文を書くこと、すべてが可能です!史上最大のAIモデルGPT-3がGithubを席巻

[[334935]]最近、GPT-3が人気になってきました!インターネット上で GPT-3 のさまざ...

汎用人工知能は可能か?

人工知能という用語が最初に使われたのは、より正確には「狭義の AI」と呼ぶべきものでした。これは強力...

誰もが今から準備すべき、2020 年のキャリアを変える 6 つのテクノロジー トレンド

[51CTO.com クイック翻訳] 新しいテクノロジーの導入により、私たちの職場は変化しています。...

人工知能とクラウドコンピューティングはアプリケーションエコシステムの形成を加速させている

現在、人工知能は生産性の向上を可能にし、さまざまな産業のインテリジェント化と新旧の運動エネルギーの変...

人工知能ニューラルネットワークとは何ですか?なぜ人間の推論を実現したり、意識を生成したりできないのでしょうか?

少し前にウォールストリートジャーナルは、Uberが無人車両のテスト中に歩行者1名が死亡する重大な交通...

...