強化学習は過去 10 年間で大きな進歩を遂げ、現在ではさまざまな分野で最も人気のあるテクノロジーの 1 つとなっています。今日は、強化学習に関連するオープンソース プロジェクトをお勧めしたいと思います。 このオープンソース プロジェクトは、PyTorch を通じて 17 個の深層強化学習アルゴリズムを実装し、誰もが実践で深層強化学習アルゴリズムを理解できるようにするチュートリアルおよびコード ライブラリです。 完全な 17 個のアルゴリズムは次のように実装されます。
すべての実装は、Cart Pole (離散アクション)、Mountain Car Continuous (連続アクション)、Bit Flipping (動的ターゲットによる離散アクション)、または Fetch Reach (動的ターゲットによる連続アクション) を迅速に解決できます。作成者は、近いうちにさらに階層型 RL アルゴリズムを追加する予定です。 1. カートポールとマウンテンカー 以下では、離散アクション ゲーム Cart Pole または連続アクション ゲーム Mountain Car を正常に学習するさまざまな RL アルゴリズムを示します。 3 つのランダム シードを使用してアルゴリズムを実行した平均結果を以下に示します。 網掛け部分はプラスマイナス 1 標準偏差を表します。使用されるハイパーパラメータは、results/Cart_Pole.py および results/Mountain_Car.py ファイルにあります。 2. 後知恵体験リプレイ(HER)体験 下の図は、Experience Replay with Hindsight 2018 および Multi-Objective Reinforcement Learning 2018 の論文に記載されている、ビットフリッピング (14 ビット) およびフェッチリーチ環境での DQN および DDPG のパフォーマンスを示しています。これらの結果は論文で発見されたものを再現しており、Fetch HER によってエージェントが他の方法では解決できなかった問題を解決できることを示しています。各エージェントのペアでは同じハイパーパラメータが使用されるため、それらの唯一の違いは後知恵が使用されるかどうかであることに注意してください。 3. 階層的強化学習実験 上図の左側の結果は、Long Corridor 環境での DQN と Kulkarni らが 2016 年に提案した階層 DQN アルゴリズムのパフォーマンスを示しています。 現在、このプロジェクトは Github で 962 個のスターと 170 個のフォークを獲得しています (Github アドレス: https://github.com/p-christ/Deep-Reinforcement-Learning-Algorithms-with-PyTorch) |
<<: 人工知能は静かに到来し、世界のテクノロジー大手はAIをめぐる戦いを始めている
>>: 適切な AI データ ストレージを選択するための 6 つの考慮事項
[[274404]] 8月16日、物議を醸していたジョンズ・ホプキンス大学の元教授ダニエル・ポービー...
著者の劉玉樹氏は中国人民大学重陽金融研究所学務委員会委員、マクロ研究部部長、研究者である。本稿は11...
[[414411]]近年、顔認識技術は、身元認証からコミュニティのアクセス制御まで幅広く使用され、多...
傘が吹き飛ばされるほど風が強いときでも、ドローンは次のように安定した状態を保ちます。風に乗ることは、...
[[319825]] Leifeng.com 注: 画像は Microsoft の公式サイトより一般...
[[418732]]機械学習は、人々がデータを利用し、データとやり取りする方法に革命をもたらし、ビジ...
セキュリティ企業であり脆弱性報奨金プラットフォームでもあるHackerOneは10月30日、先週20...
<!-- /* Style Definitions */ p.MsoNormal, li.M...
執筆者 | Yan Zheng制作:51CTO テクノロジースタック(WeChat ID:blog)...
Python の datetime モジュールは、日付と時刻の処理と計算のための豊富な機能を提供しま...
自動運転タクシー、バス、道路清掃車、物流配送車... 自動運転技術の急速な発展により、これらの無人車...
人工知能は食品システムを最適化できると思いますか? 精密農業からパーソナライズされた栄養管理まで、農...