マルチエージェント強化学習アルゴリズムが機能しないと聞きました。 MAPPOを正しく使用しましたか？

清華大学とカリフォルニア大学バークレー校の共同研究により、アルゴリズムやネットワークアーキテクチャに一切変更を加えずに、MAPPO (マルチエージェント PPO) が 3 つの代表的なマルチエージェントタスク (Multi-Agent Particle World、StarCraftII、Hanabi) で SOTA アルゴリズムに匹敵するパフォーマンスを達成したことが判明しました。

近年、マルチエージェント強化学習（MARL）は飛躍的な進歩を遂げています。たとえば、DeepMindが開発したAlphaStarは、StarCraft IIでプロのStarCraftプレイヤーに勝利し、人間のプレイヤーの99.8％を超えました。OpenAI FiveはDOTA2で世界チャンピオンチームを何度も破り、eスポーツ大会でチャンピオンを破った最初の人工知能システムになりました。また、シミュレーションされた物理環境でかくれんぼをしながら、人間のように道具を使えるエージェントを訓練しました。私たちが言及したエージェントのほとんどは、オンポリシーアルゴリズム（IMPALA[8]など）を使用してトレーニングされており、高度な並列処理と膨大な計算能力のサポートが必要です。たとえば、OpenAI Fiveは、データサンプルを収集してネットワークをトレーニングするために、128,000個のCPUと256個のP100 GPUを消費しました。

しかし、ほとんどの学術機関にとって、これほどの規模のコンピューティングリソースを備えることは困難です。そのため、MARL分野では、オンポリシーアルゴリズム（PPO[3]など）と比較して、オフポリシーアルゴリズム（MADDPG[5]、QMix[6]など）は、コンピューティングリソースが限られている場合にサンプリング効率が高いため、インテリジェントエージェントのトレーニングに適しているというコンセンサスがほぼ得られています。また、特定のドメイン固有の問題を解決するために、一連のSOTAアルゴリズムも進化してきました（SAD[9]、RODE[7]など）。

しかし、清華大学とカリフォルニア大学バークレー校の研究者は論文の中で、この従来の認識に対して異なる見解を提示しました。MARLアルゴリズムでは、データサンプル効率（サンプル効率）とアルゴリズム操作効率（実時間実行効率）を総合的に考慮する必要があるというものです。計算リソースが限られている状況では、オフポリシーアルゴリズムと比較して、オンポリシーアルゴリズムである MAPPO (マルチエージェント PPO) は、アルゴリズム操作効率が大幅に高く、データサンプル効率も同等 (またはそれ以上) です。興味深いことに、研究者たちは、アルゴリズムやネットワークアーキテクチャに変更を加えずに、SOTA アルゴリズムに匹敵するパフォーマンスを達成するには、MAPPO の最小限のハイパーパラメータ検索のみが必要であることを発見しました。さらに、MAPPOのパフォーマンスを向上させるための5つの重要な提案が示され、最適化されたMARLアルゴリズムのソースコードセットがオープンソース化されました（コードアドレス：
https://github.com/marlbenchmark/on-policy）。

したがって、MARL アルゴリズムがうまく機能していない場合は、この研究を参考にするとよいかもしれません。適切なアルゴリズムを使用していない可能性があります。MARL アルゴリズムの研究に重点を置いている場合は、ベースラインとして MAPPO を使用してみると、タスクのベンチマークが向上する可能性があります。MARL 研究の入門段階にある場合は、このソースコードセットを入手する価値があります。よく開発されており、使いやすいと言われています。この論文は、清華大学の王宇、呉毅らがカリフォルニア大学バークレー校の研究者と共同で完成させた。研究者たちは、さらに最適化されたアルゴリズムとタスクをオープンソース化し続ける予定です（ウェアハウスの指示：
(https://github.com/marlbenchmark) より

論文リンク:
https://arxiv.org/abs/2103.01955

MAPPOとは

PPO（Proximal Policy Optimization）[4]は現在非常に人気のあるシングルエージェント強化学習アルゴリズムであり、OpenAIが実験を行う際に選択するアルゴリズムでもあり、その幅広い適用性を示しています。 PPO は、古典的なアクター・クリティック・アーキテクチャを採用しています。このうち、アクターネットワーク（ポリシーネットワークとも呼ばれる）は、ローカル観測（obs）を受信してアクション（action）を出力します。一方、批評家ネットワーク（バリューネットワークとも呼ばれる）は、状態（state）を受信してアクション値（value）を出力し、アクターネットワークの出力アクションの品質を評価するために使用されます。直感的には、審査員（評論家）が俳優（俳優）の演技（行為）に点数（価値）をつけることだと理解できます。 MAPPO (マルチエージェント PPO) は、マルチエージェントタスクに適用される PPO アルゴリズムのバリエーションです。これもアクタークリティックアーキテクチャを使用しますが、違いは、クリティックが集中型の価値関数を学習する点です。つまり、クリティックは他のエージェントや環境に関する情報を含むグローバル情報を観察できます。

実験環境

次に、本論文における実験環境について紹介します。この論文では、代表的な協調型マルチエージェントタスクを 3 つ選択しました。協調型タスクを選択した重要な理由は、評価指標が明確で、さまざまなアルゴリズムを比較しやすくなることです。

最初の環境は、OpenAIのMulti-agent Particle World (MPE)タスクです（ソースコードの指示：
[1]は、軽量な環境と抽象的で多様なタスク設定により、MARLアルゴリズムを迅速に検証するためのテストプラットフォームとして好まれています。図 1 に示すように、MPE には Spread、Comm、Reference という 3 つの共同タスクがあります。

図1: MPE環境の3つのサブタスク: Spread、Comm、Reference

2番目の環境は、MARLフィールドの有名なStarCraftIIミッションです（ソースコード：
図 2 に示すように、https://github.com/oxwhirl/smac にアクセスします。このタスクはもともとM. Samvelyanら[2]によって提案されたもので、2～27のエージェント数を持つ23の実験マップを提供しています。ゲームに勝つためには、エージェントが協力して敵エージェントを倒す必要があります。このタスクが発表されて以来、古典的なアルゴリズムQMix[6]や最近発表されたRODE[7]など、多くの研究者がその特性に基づいたアルゴリズム研究を行ってきました。 StarCraftII はバージョンアップを重ねており、バージョン間でパフォーマンスに違いがあるため、この論文では最新バージョンの SC2.4.10 を使用していることに特に注意してください。

図2: StarCraftII環境の代表的な2つのマップ: Corridorと2c vs. 64zg

3つ目の環境は、2019年にNolan Bardら[3]が提案した純粋に協調的なタスクHanabiである（ソースコード：
（https://github.com/deepmind/hanabi-learning-environment）Hanabiはターン制のカードゲームで、各ラウンドでカードをプレイできるのは1人のプレイヤーだけです。これまでのマルチエージェントタスクと比較して、Hanabiの重要な特徴は純粋な協力です。各プレイヤーは他のプレイヤーの意図を推論し、ポイントを獲得するために協力を完了する必要があります。Hanabiのプレイヤー数は2〜5人です。図3は4人プレイヤーのタスク図です。興味のある読者は自分でプレイしてみてください。

図3: 4人用Hanabi-Fullタスクの模式図

実験結果

まず、論文に記載されている実験結果を見てみましょう。論文に記載されているすべての実験は、256 GB のメモリ、64 コアの CPU、GeForce RTX 3090 24GB グラフィックカードを搭載したホストコンピューターで完了したことに注意してください。さらに研究者らは、本論文のアルゴリズムはすべて微調整されているため、本論文で再現された実験結果の一部は元の論文よりも優れているだろうと述べています。

（１）MPE環境

図4は、MPEにおけるさまざまなアルゴリズムのデータサンプル効率とアルゴリズム操作効率の比較を示しています。IPPO（Independent PPO）は、批評家が分散価値関数を学習することを意味します。つまり、批評家とアクターの入力はローカル観測です。IPPOとMAPPOのハイパーパラメータは一致しています。MADDPG[5]は、MARL分野で非常に人気のあるオフポリシーアルゴリズムであり、MPE用に開発されたアルゴリズムでもあります。QMix[6]は、StarCraftII用に開発されたMARLアルゴリズムであり、StarCraftIIでよく使用されるベースラインでもあります。

図4からわかるように、MAPPOは他のアルゴリズムと比較して、データサンプル効率とパフォーマンスが同等であるだけでなく（図(a)）、アルゴリズム操作効率も大幅に高くなっています（図(b)）。

図4: MPEにおける異なるアルゴリズムのデータサンプル効率とアルゴリズム操作効率の比較

（２）スタークラフトII環境

表1は、MAPPOとIPPO、QMix、およびRODEがStarCraftII用に開発したSOTAアルゴリズムとの勝率比較を示しています。10Mデータに切り捨てた場合、MAPPOの勝率は19/23マップでSOTAに達しました。3s5z vs. 3s6zを除いて、他のマップとSOTAアルゴリズムの差は5％未満です。3s5z vs. 3s6zは、10Mに切り捨てたときに完全に収束しませんでした。25Mに切り捨てると、勝率は91％に達する可能性があります。

図 5 は、StarCraftII のさまざまなアルゴリズムのデータサンプル効率とアルゴリズム操作効率の比較を示しています。 MAPPO は実際に QMix や RODE と同等のデータサンプル効率と、より高速なアルゴリズム操作効率を備えていることがわかります。 StarCraftII タスクの実際のトレーニングでは 8 つの並列環境のみが使用され、MPE タスクでは 128 の並列環境が使用されるため、図 5 のアルゴリズム実行効率は図 4 ほど変わりません。しかし、それでも MAPPO の驚くべきパフォーマンスと実行効率がわかります。

表 1: StarCraftII の 23 マップにおけるさまざまなアルゴリズムの勝率の比較。カットマークは、SOTA アルゴリズムと公平に比較するために、MAPPO と QMix が RODE と同じステップ数に切り捨てられていることを示しています。

（３）花火環境

SAD は、Hanabi タスク用に開発された SOTA アルゴリズムです。SAD のスコアは元の論文から取得されていることに注意してください。元の著者は 13 個のランダムシードを実行しましたが、各シードには約 100 億のデータが必要でした。一方、時間の制約により、MAPPO は 4 個のランダムシードのみを実行しましたが、各シードには約 72 億のデータが必要でした。表 2 から、MAPPO は依然として SAD に匹敵するスコアを達成できることがわかります。

表2: 2人用Hanabi-FullタスクにおけるMAPPOとSADスコアの比較。

5つのヒント

論文に記載されている実験結果を読んだ後、元の質問に戻りましょう。MAPPO を正しく使用しましたか?

研究者らは、マルチエージェントタスクはシングルエージェントタスクとは大きく異なるものの、入力正規化、値クリップ、最大勾配ノルムクリップ、直交初期化、GAE 正規化など、他のシングルエージェントタスクで以前に提供された PPO 実装の提案は依然として非常に有用であることを発見しました。しかし、研究者らは、それだけでなく、MARL フィールドや見落とされがちなその他の要因についても 5 つの追加提案を行っています。

値の正規化: 研究者は PopArt を使用して値を正規化し、PopArt の使用は有害ではなく有益であると指摘しました。

エージェント固有のグローバル状態: エージェント固有のグローバル情報を使用して、グローバル情報の省略と過剰な次元性を回避します。研究者らが、StarCraft II の元のグローバル情報には情報の欠落があり、エージェントのローカル観測よりも情報が少ないことを発見したことは特筆に値します。これは、MAPPO を StarCraft II に直接適用するとパフォーマンスが低下する重要な理由でもあります。

トレーニングデータの使用: 単純なタスクの場合は 15 のトレーニングエポックが推奨されますが、より難しいタスクの場合は 10 または 5 のトレーニングエポックを試してください。さらに、トレーニングのためにデータを多数の小さなバッチ (ミニバッチ) に分割するのではなく、トレーニングデータのバッチ全体を使用するようにしてください。

アクションマスキング: マルチエージェントタスクでは、エージェントが特定のアクションを実行できないことがよくあります。これらの無効なアクションは、アクション確率の計算に参加しないように、フォワード実行とバックプロパゲーションの両方でマスクすることをお勧めします。

デスマスキング: マルチエージェントタスクでは、エージェントまたは一部のエージェントが途中で死亡することがよくあります (StarCraftII など)。エージェントが死亡した場合、そのエージェント ID のみが保持され、他の情報は保護されて、より正確な状態値関数を学習します。

より詳しい実験の詳細と分析については、原著論文を参照してください。

<<: AI時代に誰かが密かにあなたの顔を真似している

>>: 手紙を開かずに読むことはできますか？ MITのX線技術がネイチャー誌に掲載される