メンガー: 大規模分散強化学習アーキテクチャ

過去 10 年間で、強化学習 (RL) は機械学習で最も人気のある研究分野の 1 つになりました。RL を応用すると、チップの配置やリソース管理などの複雑な問題や、囲碁、Dota 2、かくれんぼなどの難しいゲームを効果的に解決できます。簡単に言えば、RL インフラストラクチャは、データ収集とトレーニングのサイクルです。アクターは環境に基づいてサンプルデータを収集し、それを学習者に転送してモデルをトレーニングおよび更新します。現在のほとんどの RL 実装では、ターゲットタスクを学習するために、環境内で数万のサンプルを複数回反復する必要があります。たとえば、Dota 2 では、2 秒ごとに数万のフレームのサンプルを学習します。このように、RL アーキテクチャは、大量のサンプルを収集するためにアクターを追加するなどの強力なデータ処理機能を持つだけでなく、トレーニング中にこれらのサンプルをすばやく反復処理できる必要があります。

アクターと学習者間の相互作用のための RL アーキテクチャ。学習者はサンプリングされたデータを使用してモデルをトレーニングし、更新されたモデルをアクター (TF-Agents、IMPALA など) に渡します。

本日、Menger を紹介します。Menger は、複数の処理クラスター (Borg セルなど) にわたる数千のアクターに拡張可能な、ローカライズされた推論を備えた大規模に分散された RL アーキテクチャであり、チップ配置タスクのトレーニング時間を短縮します。次のセクションでは、Menger を Google TPU で構成してトレーニング速度を向上させる方法について説明します。さらに、チップ配置タスクを通じてフレームワークのパフォーマンスとスケーラビリティを検証します。 Menger はベースラインモデルと比較してトレーニング時間を 8.6 倍短縮することがわかります。

メンガーデザインアイデア

現在、Acme や SEED RL など、さまざまな分散 RL システムがあります。ただし、これらのシステムは、分散強化学習システムを 1 つの特定の観点からのみ最適化する傾向があります。たとえば、Acme は頻繁な学習者からモデルを取得し、各アクターがローカル推論を実行できるようにしますが、SEED RL は、バッチ呼び出しを実行するために TPU コアの一部を割り当てることで集中型推論を実行します。通信コストと推論コストの測定は、異なる最適化システム間の差であり、(1)集中型推論サーバーとの間で観測とアクションを送受信する通信コスト、またはLarnerからモデルを取得する通信コスト、(2)アクセラレータ(TPU/GPU)コストと比較したアクターの推論コストの大きさなどが含まれます。 Menger は、観測、アクション、モデルサイズなどのターゲットプログラムの要件を考慮して、Acme と同様のローカル推論を使用しますが、同時にアクターのスケーラビリティを最大限に高めます。優れたスケーラビリティとトレーニング速度を実現するための主な課題は次の 2 点です。

アクターはモデル取得のために学習者に大量の読み取り要求を行うため、学習者に負担がかかります。アクターの数が増えると、モデルのパフォーマンスが大幅に制限されます (収束時間が大幅に増加するなど)。

TPU のパフォーマンスは、トレーニングデータを TPU コンピューティングコアに供給する際の入力パイプラインの効率によって制限されることがよくあります。 TPU コンピューティングコアの数 (TPU ポッドなど) が増えると、入力パイプラインのパフォーマンスがトレーニング時間にさらに大きな影響を与えます。

効率的なモデル検索

最初の課題に対処するために、TensorFlow コードでは、Learner と Actor の間に、Reverb によって最適化された透過的な分散キャッシュコンポーネントを導入しました (Dota で使用されているアプローチと同様)。キャッシュコンポーネントの主な役割は、アクターからの大量のリクエストと学習者の処理能力のバランスを取ることです。これらのキャッシュコンポーネントを追加することで、過剰なリクエストによる学習者への負荷が大幅に軽減されるだけでなく、アクターも小さな通信コストで複数の Borg ユニットに分散されます。私たちの調査によると、512 個のアクターと 16 MB のサイズを持つモデルの場合、キャッシュコンポーネントを導入すると平均読み取りレイテンシが約 4.0 倍短縮され、トレーニングの反復が高速化され、PPO などの戦略アルゴリズムではその効果がより顕著になります。

複数のアクターが異なるボーグセルに配置された分散 RL システム。異なる Borg ユニット内の多数のアクターからの頻繁なモデル更新要求により、学習者のパフォーマンスと学習者とアクター間の通信ネットワークが制限され、全体的な収束時間が大幅に増加します。破線は異なるマシン間の gRPC 通信を表します。

透過的な分散キャッシュサービスを備えた分散 RL システムを紹介します。複数のアクターが異なる Borg ユニットに配置され、学習者は更新されたモデルのみを分散キャッシュコンポーネントに送信します。各キャッシュコンポーネントは、隣接するアクターとキャッシュモデルへの更新を要求する必要があります。キャッシュは、モデル更新リクエストを処理するための学習者の負担を軽減するだけでなく、アクターの平均読み取り待ち時間も短縮します。

高スループット入力パイプライン

入力データパイプラインのスループットを向上させるために、Menger 氏は機械学習アプリケーション専用に設計された新しいオープンソースデータストレージシステムである Reverb を使用しました。 Reverb では、オンラインアルゴリズムまたはオフラインアルゴリズムのいずれかを使用してエクスペリエンスの再生を実行できます。ただし、現在、単一の Reverb では、数万のアクターを備えた分散 RL システムに拡張できず、アクターの書き込みスループットは非効率的です。

単一のリプレイバッファを備えた分散 RL システム。アクターからの書き込み要求が大量に発生すると、リプレイバッファが調整され、全体的なスループットが低下する可能性があります。さらに、Learner を複数のコンピューティングエンジン (TPU Pod) に拡張すると、これらのエンジンに単一のリプレイバッファーを供給する効率が非常に低くなり、全体的な収束時間に重大な影響を及ぼしました。

分散 RL システムにおけるリプレイバッファの効率性をより深く理解するために、さまざまなペイロードサイズ (16 MB ～ 512 MB) とさまざまなアクター (16 ～ 2048) の平均書き込みレイテンシを評価しました。再生バッファとアクターを同じ Borg セルに配置します。アクターの数が増えると、平均書き込みレイテンシが大幅に増加することがわかります。アクターの数を 16 から 2048 に拡張すると、16 MB および 512 MB のペイロードサイズの平均書き込みレイテンシがそれぞれ約 6.2 倍と約 18.9 倍増加します。このような書き込みレイテンシの増加はデータ収集時間に影響し、トレーニングの非効率につながります。

同じ Borg セルに異なるサイズのペイロード (16 MB - 512 MB) と異なる数のアクター (16 から 2048) を配置した場合の、単一の Reverb リプレイバッファーの平均書き込み遅延。

これを軽減するために、Reverb のシャーディング機能を使用して、アクター、学習者、リプレイバッファー間のスループットを向上させます。シャーディングにより、単一のリプレイバッファサーバーで動作するのではなく、多数のアクターの書き込み負荷を複数のリプレイバッファサーバーに分散できます。同時に、少数のアクターが同じサーバーを共有するため、各リプレイバッファサーバーの平均書き込みレイテンシを最小限に抑えることができます。これにより、Menger は複数の Borg セルにわたって数千のアクターに拡張できます。

シャードされたリプレイバッファを備えた分散 RL システム。各リプレイバッファは、同じボーグセルにある特定のアクターのデータを保存するために使用されます。さらに、シャードされたリプレイバッファは、アクセラレータコアへのスループットが高い入力パイプラインを提供します。

検証例: チップの配置

大規模なネットリストのチップ配置タスクで Menger をテストしました。ベースラインと比較すると、Menger は 512 個の TPU コアを使用し、トレーニング時間の大幅な改善を実現します (最大約 8.6 倍、つまり最適な構成では、トレーニング時間を約 8.6 時間から 1 時間に短縮できます)。 Menger は TPU 向けに最適化されていますが、パフォーマンス向上の鍵となるのはフレームワークであり、GPU で実験した場合にも同様の改善が見られると期待しています。

チップ配置のベースラインと比較して、さまざまな数の TPU コアで Menger を使用した場合のトレーニング時間の改善。

Menger アーキテクチャとチップ配置タスクにおけるその優れたパフォーマンスは、チップ設計サイクルをさらに短縮するための方向性を示していると考えています。同時に、このアーキテクチャを適用して、他の困難な現実世界の問題を実装することもできます。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

<<: ケンブリッジ 2020 人工知能パノラマレポート、将来予測される 8 つの AI トレンド

>>: 機械学習を超簡単にする 8 つのオープンソースツール

AI とクラウドコンピューティングが出会うとき、サービスとしての AI は神でしょうか、それとも悪魔でしょうか?

ブログ

ユーモアを理解し、皮肉のスキルに溢れた、マスクのChatGPTのライバルがついにチャットのスクリーンショットを公開

メンガー: 大規模分散強化学習アーキテクチャ

AI とクラウドコンピューティングが出会うとき、サービスとしての AI は神でしょうか、それとも悪魔でしょうか?

ユーモアを理解し、皮肉のスキルに溢れた、マスクのChatGPTのライバルがついにチャットのスクリーンショットを公開

旅の途中を突破せよ！ OpenAIが秘密裏に新プラットフォームをテスト

クラウドコンピューティング、ビッグデータ、AI の関係と違いを 1 つの記事で理解する

製造および自動化アプリケーション向けの人工知能技術の選び方

5GとAIの強力な組み合わせは、どのような新たな機会をもたらすのでしょうか?

推薦する

予想外だが妥当: ガートナーの 2020 年データサイエンスおよび機械学習プラットフォームのマジッククアドラントの解釈

アリババは、DAMOアカデミーの1990年代生まれの科学者が開発した新世代のAIアルゴリズムモデルをオープンソース化しました。

やがて世界は人工知能に支配されるようになる。ホーキング博士の死後、人工知能の発展に冷水を浴びせるのは誰だろうか？

トレンド: IT の複雑さにより AIOps の必要性が高まる

HKU がオープンソースの推奨システムの新しいパラダイム RLMRec を公開!ユーザー/製品のテキストポートレートを正確に抽出するための大規模なモデルサポート

1 つの記事で RNN (リカレントニューラルネットワーク) の基礎を理解する

OpenAIがChatGPTをアップデート：画像と音声入力をサポート

データセットに適したクラスタリングアルゴリズムを選択する方法

誰もが映画の「監督」！ MSRA、北京大学、その他の大学が提案：ビデオ、映画、短編ビデオ生成モデル

シングルを保存: このオブジェクトジェネレーターは、将来のオブジェクトがどのように見えるかを確認するのに役立ちます

強くお勧めします!国内無料チャットGPT

科学者たちはロボットを使って体外でマウスの脳神経を操作します！ 1分以内に通信接続

周洪義：人工知能には多くのセキュリティ上の弱点がある