分布の不一致を避けるために、強化学習のトレーニングはオンラインで環境と対話する必要がありますか? Google のこの最新の研究は、最適化の観点からオフライン強化学習研究に新たなアイデアを提供します。つまり、十分に大きく多様なオフライン データセットでトレーニングされた堅牢な RL アルゴリズムは、高品質の動作を生み出すことができます。この論文のトレーニング データセットとコードはオープンソース化されています。 Synced は、トレーニング データセットに 60 個の Atari ゲーム環境が含まれていることを思い出させます。Google は、そのサイズが ImageNet の約 60 x 3.5 倍であると主張しています。
「オフポリシー学習の可能性は魅力的ですが、それを実装する最良の方法は謎のままです。」—サットン&バルト(強化学習入門の著者) ほとんどの強化学習アルゴリズムは、エージェントがオンライン環境と積極的に対話し、収集した独自の経験から学習することを前提としています。これらのアルゴリズムを現実世界の問題に適用するのは困難です。現実世界からさらに収集されたデータはサンプル効率が非常に悪く、予期しない動作が発生する可能性があるためです。シミュレーション環境で実行されるアルゴリズムには、構築が困難な高忠実度のシミュレータが必要です。しかし、多くの現実世界の強化学習アプリケーションでは、これまでに大量のインタラクション データが収集されており、それを使用して、これまでの豊富な経験を組み合わせることで一般化パフォーマンスを向上させながら、上記の現実世界の問題で実行可能な強化学習エージェントをトレーニングすることができます。 既存のインタラクション データにより、エージェントが固定データセットから学習し、環境とインタラクトしない完全にオフポリシーの強化学習設定であるオフライン強化学習の効率的なトレーニングが可能になります。 オフライン強化学習は次のような場合に役立ちます。 1) 既存のデータを使用して強化学習エージェントを事前トレーニングする。 2) 固定されたインタラクションデータセットを活用する能力に基づいて強化学習アルゴリズムを実験的に評価する。 3) 現実世界の問題に影響を与える。しかし、オフライン強化学習は、オンラインインタラクションの分布と固定データセット内のインタラクションデータとの不一致により、大きな課題に直面しています。つまり、訓練されたエージェントがデータ収集エージェントとは異なるアクションを実行した場合に、どのような報酬を提供すればよいかがわかりません。 オンラインインタラクションとオフライン RL のフローチャート比較。 「オフライン強化学習に関する楽観的な視点」と題されたこの論文では、Google Brain チームの研究者が、DQN エージェントによって記録された経験に基づいて、Atari 2600 ゲームでのオフライン強化学習のための簡単な実験セットアップを提案しました。彼らは、不一致な分布を明示的に修正しなくても、標準のオフポリシー RL アルゴリズムを使用して収集されたエージェントよりも優れたパフォーマンスを発揮するエージェントをトレーニングできることを示しています。同時に、研究者らは、ランダム アンサンブル混合 (REM) と呼ばれる、オフライン RL で有望な結果を示した堅牢な RL アルゴリズムも提案しました。 要約すると、研究者らは、十分に大きく多様なオフライン データセットでトレーニングされた堅牢な RL アルゴリズムが高品質の動作を生み出し、新たなデータ駆動型 RL パラダイムを統合できるという、新たな最適化の観点を提案しています。オフライン RL 手法の開発と評価を容易にするために、研究者らは DQN バックトラッキング データセットを公開し、論文のコードをオープンソース化しました。
さまざまな戦略とオフライン強化学習の基礎さまざまな RL アルゴリズムをまとめると次のようになります。 DQN などのオンラインオフポリシー RL エージェントは、ゲーム画面からの画像のみを受信し、ゲームに関するその他の知識を一切持たずに、Atari 2600 ゲームで人間レベルのパフォーマンスを達成しました。環境状態が与えられると、DQN は将来の報酬 (Q 値など) を最大化する方法に基づいてアクションの有効性を推定します。 さらに、価値関数分布 (QR-DQN など) を使用する現在の RL アルゴリズムは、各状態とアクションのペアに対して単一の期待値を推定するのではなく、すべての可能性のある将来の報酬にわたる分布を推定します。 DQN や QR-DQN などのエージェントは、ポリシーの最適化と、その最適化されたポリシーを使用してより多くのデータを収集することの間で継続的に反復するため、「オンライン」アルゴリズムと見なされます。 理論的には、オフポリシー RL エージェントは、最適化されているポリシーだけでなく、任意のポリシーによって収集されたデータから学習できます。しかし、最近の研究では、標準的なオフポリシーエージェントはオフライン RL 設定では発散したりパフォーマンスが低下したりする可能性があることが示されています。上記の問題を解決するために、これまでの研究では、学習した戦略を正規化して、その戦略更新をオフラインインタラクションデータセットに近づける方法が提案されています。 オフライン RL 用に設計された DQN バックトラッキング データセット研究者らはまず、オフライン RL を再検討するために DQN バックトラッキング データセットを確立しました。このデータセットでは、60 種類の Atari 2600 ゲームそれぞれで 2 億ステップトレーニングされた DQN エージェントを使用し、スティッキー アクションを使用して問題をより困難にします。つまり、エージェントの現在のアクションではなく、前のアクションを実行する確率が 25% になります。 研究者らは、これら 60 のゲームそれぞれについて、異なる初期化パラメータを持つ 5 つの DQN エージェントをトレーニングし、トレーニング中に生成されたすべてのタプル (状態、アクション、報酬、次の状態) を 5 つのバックトラッキング データセットに保存し、合計 300 のデータセットを生成しました。 この DQN バックトラッキング データセットは、環境とのやり取りなしでオフライン RL エージェントをトレーニングするために使用されました。各ゲーム バックトラッキング データセットは ImageNet の約 3.5 倍の大きさで、オンライン DQN を最適化するときに中間ポリシーによって生成されたすべてのサンプルが含まれています。 DQN バックトラッキング データセットを使用した Atari ゲームのオフライン RL。 DQN バックトラッキング データセットでオフライン エージェントをトレーニングする研究者らは、DQN バックトラッキング データセットで DQN のバリエーションと価値関数分布 QR-DQN をトレーニングしました。オフライン データセットには DQN エージェントが経験したデータが含まれており、このデータはトレーニングが進むにつれてそれに応じて改善されますが、研究者はオフライン エージェントのパフォーマンスを、トレーニング後に得られた最高のパフォーマンスを発揮したオンライン DQN エージェント (つまり、完全にトレーニングされた DQN) と比較しました。各ゲームについて、オンライン リターンを使用してトレーニングされた 5 つのオフライン エージェントを評価し、最高の平均パフォーマンスを見つけました。 オフライン DQN が同じ量のデータで完全にトレーニングされたオンライン DQN よりも高いスコアを獲得したいくつかのゲームを除き、オフライン DQN のパフォーマンスは後者よりも低くなります。一方、オフライン QR-DQN は、ほとんどのゲームでオフライン DQN や完全にトレーニングされた DQN よりも優れたパフォーマンスを発揮します。これらの結果は、標準的な深層 RL アルゴリズムを使用して強力なオフライン エージェントを最適化できることを示しています。さらに、オフライン QR-DQN と DQN のパフォーマンスのギャップは、オフライン データを活用する能力にも違いがあることを示しています。 オフライン DQN の結果。 オフライン QR-DQN の結果。 2つの堅牢なオフラインRLエージェントオンライン RL では、エージェントは高い報酬が得られると思われるアクションを選択し、修正フィードバックを受け取ります。さらに、オフライン RL では追加データを収集することはできないため、一般化機能について推論するには固定データセットを使用する必要があります。研究者らは、モデル アンサンブルを使用して一般化を改善する教師あり学習手法を使用して、次の 2 つの新しいオフライン RL エージェントを提案しています。
DQN、価値関数分布 QR-DQN、同じマルチヘッド メカニズムを備えた望ましい RL バリアント QR-DQN アーキテクチャ、DQN と REM を統合したニューラル ネットワーク アーキテクチャ。 DQN バックトラッキング データセットをより効率的に活用するために、研究者はオフライン エージェントをトレーニングする際のトレーニング反復回数をオンライン DQN トレーニングの 5 倍に設定しました。パフォーマンスを下の図に示します。オフライン REM は、オフライン DQN およびオフライン QR-DQN よりも優れています。さらに、強力な価値関数分布エージェント、つまり完全にトレーニングされたオンライン C51 とのパフォーマンス比較では、オフライン REM から得られるゲインが C51 よりも高いことが示されています。 オフライン REM とベースライン メソッドのパフォーマンス比較。 Atari ゲームで標準的なトレーニング レジメンを使用する場合、オンライン REM は標準のオンライン RL 設定で QR-DQN と同等のパフォーマンスを実現します。これは、DQN バックトラッキング データセットとオフライン RL 設定から得られた洞察を活用して、効果的なオンライン RL メソッドを構築できることを示唆しています。 オンライン REM とベースライン メソッドのパフォーマンス比較。 結果の比較: オフライン強化学習における重要な要素これまでの標準的な強化学習エージェントがオフライン設定で繰り返し失敗するのはなぜでしょうか? Google の研究者は、自分たちの研究と過去の研究との重要な違いをいくつかまとめました。
低品質のデータセットを使用して、オフライン設定で強化学習エージェントをトレーニングします。 見通しこの Google の研究は、さまざまなポリシーを持つ大量のオフライン データから学習する場合、ニューラル ネットワークにおける一般化の役割を厳密に特徴付ける必要があることを示しています。もう 1 つの重要な方向性は、DQN バックトラッキング データセットをダウンサンプリングして、さまざまなデータ収集戦略を使用してオフライン RL をベンチマークすることです。 Google の研究者は現在オンライン ポリシー評価を使用していますが、「実際の」オフライン RL ではハイパーパラメータの調整と早期停止のためにオフライン ポリシー評価が必要です。最後に、モデルベースの RL と自己教師あり学習法もオフライン RL に期待が持てます。 |
<<: 三方からのアプローチ! AIがサイバーセキュリティを強化
>>: ブラックボックスの一角を明らかにしよう! OpenAI、ニューラルネットワークの内部構造を視覚化する「顕微鏡」をリリース
[[376016]] △ 2019年9月4日、ノースウェスタン工科大学の学生が顔認識装置を通じて図...
今日の急速に変化する物流の世界では、効率が鍵となります。世界経済は商品の円滑な流れに完全に依存してい...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
海外メディアの報道によると、米国のジョージ・メイソン大学は、無人車両による食品配達サービスを開始し、...
C114ニュース、5月8日(Lesi)本日開催された「AIと光が出会うとき:インテリジェント光ネッ...
過去 2 年間で、生成型人工知能 (GenAI) の出現により、産業プロセス分析に刺激的な新しい可能...
[[225687]]近年、人工知能と機械学習のツールと技術が急速に進歩していることは驚くべきことで...
[[443041]]今年ももうすぐ終わり、あと3日で2021年も終わりです。さまざまなAI分野でも...
[[399442]]アルゴリズム技術を改善し、アルゴリズムの適用を標準化することによってのみ、技術...
「1セット100元で、身分証明書の表裏の写真、身分証明書を持っている写真、うなずいたり首を振ったり口...
他のインターネットの概念と同様に、AI は人気が出ると数え切れないほどの支持者を獲得しました。彼らは...
OpenAI の新しい GPT-4V バージョンは画像のアップロードをサポートしており、これにより...
最近また「AI変顔」が流行っていますね。 Leiphone.com(公式アカウント:Leiphone...