強化学習は過去 10 年間で大きな進歩を遂げ、現在ではさまざまな分野で最も人気のあるテクノロジーの 1 つとなっています。今日は、強化学習に関連するオープンソース プロジェクトをお勧めしたいと思います。 このオープンソース プロジェクトは、PyTorch を通じて 17 個の深層強化学習アルゴリズムを実装し、誰もが実践で深層強化学習アルゴリズムを理解できるようにするチュートリアルおよびコード ライブラリです。 完全な 17 個のアルゴリズムは次のように実装されます。
すべての実装は、Cart Pole (離散アクション)、Mountain Car Continuous (連続アクション)、Bit Flipping (動的ターゲットによる離散アクション)、または Fetch Reach (動的ターゲットによる連続アクション) を迅速に解決できます。作成者は、近いうちにさらに階層型 RL アルゴリズムを追加する予定です。 1. カートポールとマウンテンカー 以下では、離散アクション ゲーム Cart Pole または連続アクション ゲーム Mountain Car を正常に学習するさまざまな RL アルゴリズムを示します。 3 つのランダム シードを使用してアルゴリズムを実行した平均結果を以下に示します。 網掛け部分はプラスマイナス 1 標準偏差を表します。使用されるハイパーパラメータは、results/Cart_Pole.py および results/Mountain_Car.py ファイルにあります。 2. 後知恵体験リプレイ(HER)体験 下の図は、Experience Replay with Hindsight 2018 および Multi-Objective Reinforcement Learning 2018 の論文に記載されている、ビットフリッピング (14 ビット) およびフェッチリーチ環境での DQN および DDPG のパフォーマンスを示しています。これらの結果は論文で発見されたものを再現しており、Fetch HER によってエージェントが他の方法では解決できなかった問題を解決できることを示しています。各エージェントのペアでは同じハイパーパラメータが使用されるため、それらの唯一の違いは後知恵が使用されるかどうかであることに注意してください。 3. 階層的強化学習実験 上図の左側の結果は、Long Corridor 環境での DQN と Kulkarni らが 2016 年に提案した階層 DQN アルゴリズムのパフォーマンスを示しています。 現在、このプロジェクトは Github で 962 個のスターと 170 個のフォークを獲得しています (Github アドレス: https://github.com/p-christ/Deep-Reinforcement-Learning-Algorithms-with-PyTorch) |
<<: 人工知能は静かに到来し、世界のテクノロジー大手はAIをめぐる戦いを始めている
>>: 適切な AI データ ストレージを選択するための 6 つの考慮事項
消費者は、利便性、安全性、ユーザーエクスペリエンスを向上させる進歩を飽くなき欲求で求めています。ヒュ...
誰もがこのような経験をしたことがあると思います。道路を運転しているとき、携帯電話は位置情報と速度を送...
人工知能の長年の目標は、これまで人間のみが実行していたタスクを機械が実行できるようにすることです。し...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
しかし、メディアで大いに宣伝された後、人々は AlphaGo が Deep Blue と同じレベルに...
何の前触れもなく、テスラのヒューマノイドロボット「オプティマス」の第2世代が登場しました。 12月1...
海外メディアの報道によると、アップルは最近シアトルの人工知能研究開発センターのオフィススペースを拡大...
オープンソースのデータセットは著作権侵害のため棚から削除されました。例えば、LLaMA、GPT-J ...
[[195952]] 1. ディープラーニングディープラーニングといえば、一度でも触れたことがある人...
[[407004]]工学部の学生は、さまざまなシミュレーターから切り離すことはできません。シミュレー...
[[436501]]機械学習と人工知能 (AI) の登場により、企業のビジネスのやり方は大きく変化し...
この記事では、ニューラルネットワークの描画をより美しくする 12 個のツールを紹介します。 1. 描...