LSTMとトランスフォーマーの利点を組み合わせることで、DeepMindの強化学習エージェントはデータ効率を向上させます

LSTMとトランスフォーマーの利点を組み合わせることで、DeepMindの強化学習エージェントはデータ効率を向上させます

  [[423163]]

近年、マルチエージェント強化学習は飛躍的な進歩を遂げています。例えば、DeepMindが開発したAlphaStarは、StarCraft IIでプロのStarCraftプレイヤーに勝利し、人間のプレイヤーの99.8%を超えました。OpenAI FiveはDOTA2で世界チャンピオンチームを何度も破り、eスポーツ大会でチャンピオンを破った最初の人工知能システムです。ただし、多くの強化学習 (RL) エージェントでは、タスクを解決するために多数の実験が必要になります。

最近、DeepMind の研究者は、新しいコントラスト損失とハイブリッド LSTM トランスフォーマー アーキテクチャを組み合わせてデータ処理効率を向上させる CoBERL (Contrastive BERT for RL) エージェントを提案しました。 CoBERL は、より広範囲のドメインからのピクセルレベルの情報を使用して、効率的で堅牢な学習を可能にします。

具体的には、双方向マスク予測と一般化を最新の比較方法と組み合わせて使用​​し、手動によるデータ拡張を必要とせずに、RL におけるトランスフォーマーのより優れた表現を学習します。実験では、CoBERL が Atari スイート全体、一連の制御タスク、および困難な 3D 環境全体で一貫してパフォーマンスを向上させることが示されています。

論文アドレス: https://arxiv.org/pdf/2107.05431.pdf

方法の紹介

深層強化学習におけるデータ効率の問題に対処するために、研究者らは現在の研究に 2 つの修正を提案しました。

  • まず、マスク入力予測における自己注意の一貫性を強制することで、より良い表現を学習することを目的とした新しい表現学習目標を提案します。
  • 次に、LSTM とトランスフォーマーの利点を組み合わせることができるアーキテクチャの改善が提案されています。

CoBERL の全体的なアーキテクチャ図。

表現学習

研究者たちはBERTと対照学習を組み合わせました。本研究では、BERT方式をベースに、トランスフォーマーの双方向処理メカニズムとマスク予測設定を組み合わせます。双方向処理メカニズムにより、エージェントは時間的環境に基づいて特定の状態のコンテキストを理解することができます。一方、マスクされた位置での予測入力は、後続の時間ステップを予測する確率を減らすことで相関入力の問題を軽減します。

研究者らは対照学習も使用しました。多くの対照損失 (SimCLR など) は、比較可能なデータ グループを作成するためにデータ拡張に依存していますが、この研究では、プロキシ タスクを構築するためにこれらの手作業によるデータ拡張を使用する必要はありません。

代わりに、入力データの連続的な性質を利用して、画像観察のみに依存するデータ拡張 (切り抜きやピクセルの変更など) を必要とせずに、対照学習に必要な類似点と相違点のグループ化を作成します。対照損失については、研究者らは時間領域にも適応した RELIC を使用しました。研究者らは、GTrXL トランスフォーマーの入力と出力を揃えてデータのグループ化を作成し、KL 正則化として RELIC を使用して、画像分類分野の SimCLR や RL 分野の Atari などの使用される方法のパフォーマンスを向上させました。

CoBERL アーキテクチャ

トランスフォーマーは、自然言語処理やコンピューター ビジョンのタスクにおける長距離データ依存関係をリンクするのに非常に効果的ですが、RL 設定では、トランスフォーマーのトレーニングが難しく、過剰適合が発生しやすくなります。それどころか、LSTM は RL で非常に有用であることが証明されています。 LSTM は長距離の依存関係をうまくキャプチャできませんが、短距離の依存関係を効率的にキャプチャできます。

この研究では、シンプルだが強力なアーキテクチャの変更を提案しています。GTrXLの上に LSTM レイヤーを追加し、LSTM と GTrXL の間に GTrXL の入力によって変調されるゲート残差接続を追加します。さらに、このアーキテクチャには、トランスフォーマー入力から LSTM 出力へのスキップ接続が含まれています。具体的には、Y_t は時刻 t におけるエンコーダ ネットワークの出力であり、追加モジュールは次の式で定義できます。

これらのモジュールは、トランスフォーマーには最近のバイアスがないのに対し、LSTM バイアスは最新の入力を表すことができるため、補完的です。式 6 のゲートにより、エンコーダー表現とトランスフォーマー出力を混合できます。このメモリ アーキテクチャは、RL メカニズムの選択に依存せず、オン ポリシー設定とオフ ポリシー設定の両方で評価されます。オンポリシー設定では、この研究では RL アルゴリズムとして V-MPO を使用します。 V-MPO は、ポリシー更新にターゲット分布を使用し、KL 制約の下でパラメータをターゲットに向かって部分的に移動します。オフポリシー設定では、研究者は R2D2 を使用しました。

R2D2 エージェント: R2D2 (Recurrent Replay Distributed DQN) は、リプレイと RL 学習目標を適応させて、リカレント アーキテクチャを持つエージェントで動作させる方法を示します。 Atari-57 および DMLab-30 での競争力のあるパフォーマンスを考慮して、研究者は CoBERL アーキテクチャを R2D2 のコンテキストで実装しました。彼らは、LSTM をゲート トランスフォーマーと LSTM の組み合わせに効果的に置き換え、対照的表現学習損失を追加しました。したがって、R2D2 と分散エクスペリエンス収集の利点により、再帰エージェント状態はリプレイ バッファーに保存され、リプレイ シーケンスが展開されたネットワークの一部としてトレーニング中に「焼き付けられ」ます。

V-MPO エージェント: DMLab-30 での V-MPO の優れたパフォーマンス、特に CoBERL の主要コンポーネントである GTrXL アーキテクチャとの組み合わせを考慮して、この研究では V-MPO と DMLab30 を使用して、オンポリシー アルゴリズムでの CoBERL の使用を実証します。 V-MPO は、最大事後確率ポリシー最適化 (MPO) に基づくポリシー適応型アルゴリズムです。ポリシー勾配法でよく見られる高い分散を回避するために、V-MPO は、サンプルベースの KL 制約に従ってポリシー更新にターゲット分布を使用し、パラメータをターゲットに向かって部分的に移動する勾配を計算します。ターゲットも KL 制約に従います。 MPOとは異なり、V-MPOは状態アクション価値関数の代わりに学習可能な状態価値関数V(s)を使用します。

実験の詳細

研究者らは、1) CoBERL はより広範囲の環境とタスクにわたってパフォーマンスを向上させること、2) パフォーマンスを最大化するにはすべてのコンポーネントが必要であることを実証しました。実験では、Atari57、DeepMind Control Suite、および DMLab-30 での CoBERL のパフォーマンスを実証します。

以下の表 1 に、現在利用可能なさまざまなエージェントの結果を示します。結果は、CoBERL がほとんどのゲームで人間の平均を上回り、同様のアルゴリズムの平均パフォーマンスよりも大幅に高いパフォーマンスを発揮することを示しています。 R2D2-GTrXL の中央値は CoBERL よりわずかに優れており、R2D2-GTrXL が確かに Atari の強力なバリアントであることを示しています。研究者らはまた、「25th Pct と 5th Pct」を調べたところ、CoBERL のパフォーマンスと他のアルゴリズムの差がより大きく、CoBERL がデータ効率を向上させることを示していることを観察しました。

困難な 3D 環境で CoBERL をテストするために、以下の図 2 に示すように、DmLab30 で調査が実行されました。

以下の表 3 の結果は、コントラスト損失なしの CoBERL と比較して、コントラスト損失によって Atari および DMLab-30 のパフォーマンスが大幅に向上することを示しています。さらに、DmLab-30 のような厳しい環境でも、追加損失のない CoBERL はベースライン メソッドよりも優れたパフォーマンスを発揮します。

以下の表 4 は、本研究で提案されたコントラスト損失と SimCLR および CURL との比較を示しています。結果は、コントラスト損失が SimCLR および CURL よりも単純であるにもかかわらず、パフォーマンスが優れていることを示しています。

以下の表 5 は、CoBERL から LSTM を削除した場合の効果 (w/o LSTM 列に表示) と、ゲーティングとそれに関連するスキップ接続を削除した場合の効果 (w/o Gate 列に表示) を示しています。どちらの場合も、CoBERL のパフォーマンスは大幅に低下しており、CoBERL には両方のコンポーネント (LSTM と Gate) が必要であることがわかります。

以下の表 6 は、パラメータの数に応じてモデルを比較したものです。 Atari の場合、CoBERL は R2D2(GTrXL) ベースラインに対して限られた数のパラメータを追加しますが、それでも CoBERL はパフォーマンスを大幅に向上させます。この研究では、LSTM をトランスフォーマー モジュールの前に移動することも試みており、その場合、対照的な損失表現は LSTM の前から取得されます。

<<:  CVとNLPにおける対照学習の研究の進展

>>:  ETHは、画像の超解像と画像の再スケーリングを考慮して、新しい統合フレームワークHCFlowを提案しています。

ブログ    
ブログ    

推薦する

認知と論理的思考の観点から自然言語理解を議論する

[[425002]]自然言語理解 (NLU) は難しい問題です。数十年前の AI の誕生から現在に至...

これでブリッジで腹筋運動ができるようになりました!中国初の3Dプリント橋が上海で公開

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

テスラのヒューマノイドロボットは来年オンラインになるでしょうか?専門家:マスク氏は単純すぎる考え方

[[419079]] 「ロボットは、人間が最もやりたがらない、退屈で反復的で危険な作業を処理するため...

大規模言語モデルの量子化手法の比較: GPTQ、GGUF、AWQ

大規模言語モデル (LLM) は過去 1 年間で急速に進化しており、この記事では (量子化) へのい...

IBMとNASAが炭素排出量追跡のためのオープンソースAIモデルを発表

IBM は最近、NASA と提携して、炭素排出量の追跡を改善し、気候変動の影響を監視するための新しい...

...

...

スマート製品はどこにでもあります。人工知能と通常の知能の違いは何でしょうか?

多くの一般消費者にとって、どれが本物の人工知能でどれが単なる普通の知能なのかを区別することは不可能で...

アリババのロボットが200語のエッセイを修正し、8つの間違いを発見

最近、浙江外国語大学国際学院で、アリババAIが試験の採点を完了し、200語のエッセイに8つの誤りを発...

ビッグデータはスマートな警察活動の基盤であり、AIは包括的な分析と判断の原動力である

都市化と経済発展の加速に伴い、我が国の社会保障を構成する要素が拡大し、公安機関の警察活動に大きな圧力...

2021年の10のAIトレンド

IDCは2019年9月の時点で、2023年までに人工知能技術への支出が3倍以上の979億ドルに達する...

アリババが雲奇会議でデジタル経済について語らなかったこと

2009 年以来、雲奇会議は、最も初期のローカル ウェブサイト サミットから、アリババの年次戦略およ...

...

...