このオープンソースプロジェクトは、Pytorchを使用して17の強化学習アルゴリズムを実装しています。

強化学習は過去 10 年間で大きな進歩を遂げ、現在ではさまざまな分野で最も人気のあるテクノロジーの 1 つとなっています。今日は、強化学習に関連するオープンソースプロジェクトをお勧めしたいと思います。

このオープンソースプロジェクトは、PyTorch を通じて 17 個の深層強化学習アルゴリズムを実装し、誰もが実践で深層強化学習アルゴリズムを理解できるようにするチュートリアルおよびコードライブラリです。

完全な 17 個のアルゴリズムは次のように実装されます。

ディープQラーニング（DQN）（Mnih et al. 2013）
固定Qターゲットを持つDQN（Mnih et al. 2013）
ダブル DQN (DDQN) (Hado van Hasselt 他 2015)
優先順位付けされたエクスペリエンスリプレイを備えた DDQN (Schaul 他 2016)
決闘DDQN（Wang et al. 2016）
強化 (ウィリアムズ他 1992)
深層決定論的政策勾配 (DDPG) (Lillicrap et al. 2016 )
ツイン遅延深層決定論的ポリシー勾配 (TD3) (藤本ら 2018)
ソフトアクタークリティック (SAC および SAC-Discrete) (Haarnoja 他 2018)
非同期アドバンテージアクタークリティック (A3C) (Mnih et al. 2016)
同期アドバンテージアクタークリティック（A2C）
近接ポリシー最適化 (PPO) (Schulman et al. 2017)
後知恵体験リプレイ付き DQN (DQN-HER) (Andrychowicz 他 2018)
後知恵体験リプレイ付き DDPG (DDPG-HER) (Andrychowicz 他 2018)
階層的DQN（h-DQN）（Kulkarni et al. 2016）
階層的強化学習のための確率的 NN (SNN-HRL) (Florensa 他 2017)
多様性こそがすべて (DIAYN) (Eyensbach 他 2018)

すべての実装は、Cart Pole (離散アクション)、Mountain Car Continuous (連続アクション)、Bit Flipping (動的ターゲットによる離散アクション)、または Fetch Reach (動的ターゲットによる連続アクション) を迅速に解決できます。作成者は、近いうちにさらに階層型 RL アルゴリズムを追加する予定です。

1. カートポールとマウンテンカー

以下では、離散アクションゲーム Cart Pole または連続アクションゲーム Mountain Car を正常に学習するさまざまな RL アルゴリズムを示します。 3 つのランダムシードを使用してアルゴリズムを実行した平均結果を以下に示します。

網掛け部分はプラスマイナス 1 標準偏差を表します。使用されるハイパーパラメータは、results/Cart_Pole.py および results/Mountain_Car.py ファイルにあります。

2. 後知恵体験リプレイ（HER）体験

下の図は、Experience Replay with Hindsight 2018 および Multi-Objective Reinforcement Learning 2018 の論文に記載されている、ビットフリッピング (14 ビット) およびフェッチリーチ環境での DQN および DDPG のパフォーマンスを示しています。これらの結果は論文で発見されたものを再現しており、Fetch HER によってエージェントが他の方法では解決できなかった問題を解決できることを示しています。各エージェントのペアでは同じハイパーパラメータが使用されるため、それらの唯一の違いは後知恵が使用されるかどうかであることに注意してください。

3. 階層的強化学習実験

上図の左側の結果は、Long Corridor 環境での DQN と Kulkarni らが 2016 年に提案した階層 DQN アルゴリズムのパフォーマンスを示しています。
上図の右側の結果は、2017 年に Florensa らが提案した DDQN アルゴリズムと階層的強化学習のための確率的ニューラルネットワーク (SNN-HRL) のパフォーマンスを示しています。

現在、このプロジェクトは Github で 962 個のスターと 170 個のフォークを獲得しています (Github アドレス: https://github.com/p-christ/Deep-Reinforcement-Learning-Algorithms-with-PyTorch)

<<: 人工知能は静かに到来し、世界のテクノロジー大手はAIをめぐる戦いを始めている

>>: 適切な AI データストレージを選択するための 6 つの考慮事項

ブログ

NLPモデル「包括的分析+評価ランキング」、CMUの最新ツールが優れたアイデアを見つけるのに役立ちます

このオープンソースプロジェクトは、Pytorchを使用して17の強化学習アルゴリズムを実装しています。

NLPモデル「包括的分析+評価ランキング」、CMUの最新ツールが優れたアイデアを見つけるのに役立ちます

ファーウェイはAscend AIフルスタックソフトウェアプラットフォームをリリースし、AI開発がコンピューティングパワーとアプリケーションのギャップを埋めるのを支援します。

ビデオPSツール！文字の非表示と透かしの除去：CVPRで発表されたこの研究はオープンソース化されました

人工知能の歴史 - チューリングテストからビッグデータまで

AIの第一人者ジェフ・ディーン氏がGoogleのAI事業を統括

3Dマップナビゲーションに頼らず、自動運転技術が新たな分野に進出

大規模モデルの微調整には人間のデータに頼らなければならないのでしょうか? DeepMind: フィードバック付きの自己トレーニングの方が優れている

Appleは、生成AIをiPhone上でローカルに実行できるようにするために、より多くの人材を採用している。

5年後、農業ロボットの市場価値は引き続き増加し、約880億ドルに達するだろう。

推薦する

音声認識の専門家が奇妙な学生事件によりジョンズ・ホプキンス大学から解雇され、怒ってFacebookを拒否し、中国に移住した

劉玉樹：人工知能における中国と米国の格差は縮まっているが、まだやるべきことはある

8月1日から顔認識技術に新たな解釈が加わり、違反は法的リスクに直面することになる

強風にも耐えられるドローン？カリフォルニア工科大学は12分間の飛行データを使い、ドローンに風の中での飛行を教える

マイクロソフトの新しい研究：ドローンは推論能力を獲得し、画像を見るだけで判断できるようになる

システムと機械学習を接続するための MLOps の課題は何ですか?この記事は明らかにしている

セキュリティ企業：ホワイトハットの60％以上が生成AIに興味を持っており、脆弱性を見つける最大の動機は金儲けである

テクノロジークラウドレポート: AIアルゴリズムがTikTokの入札の中心に

GPT-4 より 10 倍高速!この売れ筋の AI エージェント製品がビッグモデルを揺るがします!

実用的！ Python の日付と時刻の処理と計算: 時間を節約し、正確に計算します

5Gで「選ばれる」分野！自動運転バスがあなたのところにやって来ます

食品産業における人工知能：農家の意思決定を支援する