LSTMとトランスフォーマーの利点を組み合わせることで、DeepMindの強化学習エージェントはデータ効率を向上させます

[[423163]]

近年、マルチエージェント強化学習は飛躍的な進歩を遂げています。例えば、DeepMindが開発したAlphaStarは、StarCraft IIでプロのStarCraftプレイヤーに勝利し、人間のプレイヤーの99.8%を超えました。OpenAI FiveはDOTA2で世界チャンピオンチームを何度も破り、eスポーツ大会でチャンピオンを破った最初の人工知能システムです。ただし、多くの強化学習 (RL) エージェントでは、タスクを解決するために多数の実験が必要になります。

最近、DeepMind の研究者は、新しいコントラスト損失とハイブリッド LSTM トランスフォーマーアーキテクチャを組み合わせてデータ処理効率を向上させる CoBERL (Contrastive BERT for RL) エージェントを提案しました。 CoBERL は、より広範囲のドメインからのピクセルレベルの情報を使用して、効率的で堅牢な学習を可能にします。

具体的には、双方向マスク予測と一般化を最新の比較方法と組み合わせて使用し、手動によるデータ拡張を必要とせずに、RL におけるトランスフォーマーのより優れた表現を学習します。実験では、CoBERL が Atari スイート全体、一連の制御タスク、および困難な 3D 環境全体で一貫してパフォーマンスを向上させることが示されています。

論文アドレス: https://arxiv.org/pdf/2107.05431.pdf

方法の紹介

深層強化学習におけるデータ効率の問題に対処するために、研究者らは現在の研究に 2 つの修正を提案しました。

まず、マスク入力予測における自己注意の一貫性を強制することで、より良い表現を学習することを目的とした新しい表現学習目標を提案します。
次に、LSTM とトランスフォーマーの利点を組み合わせることができるアーキテクチャの改善が提案されています。

CoBERL の全体的なアーキテクチャ図。

表現学習

研究者たちはBERTと対照学習を組み合わせました。本研究では、BERT方式をベースに、トランスフォーマーの双方向処理メカニズムとマスク予測設定を組み合わせます。双方向処理メカニズムにより、エージェントは時間的環境に基づいて特定の状態のコンテキストを理解することができます。一方、マスクされた位置での予測入力は、後続の時間ステップを予測する確率を減らすことで相関入力の問題を軽減します。

研究者らは対照学習も使用しました。多くの対照損失 (SimCLR など) は、比較可能なデータグループを作成するためにデータ拡張に依存していますが、この研究では、プロキシタスクを構築するためにこれらの手作業によるデータ拡張を使用する必要はありません。

代わりに、入力データの連続的な性質を利用して、画像観察のみに依存するデータ拡張 (切り抜きやピクセルの変更など) を必要とせずに、対照学習に必要な類似点と相違点のグループ化を作成します。対照損失については、研究者らは時間領域にも適応した RELIC を使用しました。研究者らは、GTrXL トランスフォーマーの入力と出力を揃えてデータのグループ化を作成し、KL 正則化として RELIC を使用して、画像分類分野の SimCLR や RL 分野の Atari などの使用される方法のパフォーマンスを向上させました。

CoBERL アーキテクチャ

トランスフォーマーは、自然言語処理やコンピュータービジョンのタスクにおける長距離データ依存関係をリンクするのに非常に効果的ですが、RL 設定では、トランスフォーマーのトレーニングが難しく、過剰適合が発生しやすくなります。それどころか、LSTM は RL で非常に有用であることが証明されています。 LSTM は長距離の依存関係をうまくキャプチャできませんが、短距離の依存関係を効率的にキャプチャできます。

この研究では、シンプルだが強力なアーキテクチャの変更を提案しています。GTrXLの上に LSTM レイヤーを追加し、LSTM と GTrXL の間に GTrXL の入力によって変調されるゲート残差接続を追加します。さらに、このアーキテクチャには、トランスフォーマー入力から LSTM 出力へのスキップ接続が含まれています。具体的には、Y_t は時刻 t におけるエンコーダネットワークの出力であり、追加モジュールは次の式で定義できます。

これらのモジュールは、トランスフォーマーには最近のバイアスがないのに対し、LSTM バイアスは最新の入力を表すことができるため、補完的です。式 6 のゲートにより、エンコーダー表現とトランスフォーマー出力を混合できます。このメモリアーキテクチャは、RL メカニズムの選択に依存せず、オンポリシー設定とオフポリシー設定の両方で評価されます。オンポリシー設定では、この研究では RL アルゴリズムとして V-MPO を使用します。 V-MPO は、ポリシー更新にターゲット分布を使用し、KL 制約の下でパラメータをターゲットに向かって部分的に移動します。オフポリシー設定では、研究者は R2D2 を使用しました。

R2D2 エージェント: R2D2 (Recurrent Replay Distributed DQN) は、リプレイと RL 学習目標を適応させて、リカレントアーキテクチャを持つエージェントで動作させる方法を示します。 Atari-57 および DMLab-30 での競争力のあるパフォーマンスを考慮して、研究者は CoBERL アーキテクチャを R2D2 のコンテキストで実装しました。彼らは、LSTM をゲートトランスフォーマーと LSTM の組み合わせに効果的に置き換え、対照的表現学習損失を追加しました。したがって、R2D2 と分散エクスペリエンス収集の利点により、再帰エージェント状態はリプレイバッファーに保存され、リプレイシーケンスが展開されたネットワークの一部としてトレーニング中に「焼き付けられ」ます。

V-MPO エージェント: DMLab-30 での V-MPO の優れたパフォーマンス、特に CoBERL の主要コンポーネントである GTrXL アーキテクチャとの組み合わせを考慮して、この研究では V-MPO と DMLab30 を使用して、オンポリシーアルゴリズムでの CoBERL の使用を実証します。 V-MPO は、最大事後確率ポリシー最適化 (MPO) に基づくポリシー適応型アルゴリズムです。ポリシー勾配法でよく見られる高い分散を回避するために、V-MPO は、サンプルベースの KL 制約に従ってポリシー更新にターゲット分布を使用し、パラメータをターゲットに向かって部分的に移動する勾配を計算します。ターゲットも KL 制約に従います。 MPOとは異なり、V-MPOは状態アクション価値関数の代わりに学習可能な状態価値関数V(s)を使用します。

実験の詳細

研究者らは、1) CoBERL はより広範囲の環境とタスクにわたってパフォーマンスを向上させること、2) パフォーマンスを最大化するにはすべてのコンポーネントが必要であることを実証しました。実験では、Atari57、DeepMind Control Suite、および DMLab-30 での CoBERL のパフォーマンスを実証します。

以下の表 1 に、現在利用可能なさまざまなエージェントの結果を示します。結果は、CoBERL がほとんどのゲームで人間の平均を上回り、同様のアルゴリズムの平均パフォーマンスよりも大幅に高いパフォーマンスを発揮することを示しています。 R2D2-GTrXL の中央値は CoBERL よりわずかに優れており、R2D2-GTrXL が確かに Atari の強力なバリアントであることを示しています。研究者らはまた、「25th Pct と 5th Pct」を調べたところ、CoBERL のパフォーマンスと他のアルゴリズムの差がより大きく、CoBERL がデータ効率を向上させることを示していることを観察しました。

困難な 3D 環境で CoBERL をテストするために、以下の図 2 に示すように、DmLab30 で調査が実行されました。

以下の表 3 の結果は、コントラスト損失なしの CoBERL と比較して、コントラスト損失によって Atari および DMLab-30 のパフォーマンスが大幅に向上することを示しています。さらに、DmLab-30 のような厳しい環境でも、追加損失のない CoBERL はベースラインメソッドよりも優れたパフォーマンスを発揮します。

以下の表 4 は、本研究で提案されたコントラスト損失と SimCLR および CURL との比較を示しています。結果は、コントラスト損失が SimCLR および CURL よりも単純であるにもかかわらず、パフォーマンスが優れていることを示しています。

以下の表 5 は、CoBERL から LSTM を削除した場合の効果 (w/o LSTM 列に表示) と、ゲーティングとそれに関連するスキップ接続を削除した場合の効果 (w/o Gate 列に表示) を示しています。どちらの場合も、CoBERL のパフォーマンスは大幅に低下しており、CoBERL には両方のコンポーネント (LSTM と Gate) が必要であることがわかります。

以下の表 6 は、パラメータの数に応じてモデルを比較したものです。 Atari の場合、CoBERL は R2D2(GTrXL) ベースラインに対して限られた数のパラメータを追加しますが、それでも CoBERL はパフォーマンスを大幅に向上させます。この研究では、LSTM をトランスフォーマーモジュールの前に移動することも試みており、その場合、対照的な損失表現は LSTM の前から取得されます。

<<: CVとNLPにおける対照学習の研究の進展

>>: ETHは、画像の超解像と画像の再スケーリングを考慮して、新しい統合フレームワークHCFlowを提案しています。