在MuJoCo环境下实现PPO、DDPG和SAC算法
一本易懂的强化学习中文教程(也称“蘑菇书”),可以在线阅读:https://datawhalechina.github.io/easy-rl/
简单的强化学习教程,莫烦Python中文AI教学
一个优雅的PyTorch深度强化学习库。
大规模并行深度强化学习
基于PyTorch的深度强化学习算法模块化实现
使用PyTorch框架,编写代码行数最少的几种基础强化学习算法实现!
一个简洁、健壮且统一的PyTorch实现,涵盖了流行的深度强化学习(DRL)算法,包括Q学习、双重DDQN、优先经验回放(PER)、C51、噪声DQN、近端策略优化(PPO)、深度确定性策略梯度(DDPG)、TD3、软演员评论家(SAC)和优势学习(ASL)。
用于交易,请收藏。
简洁的 PyTorch 实现的强化学习算法,包括 REINFORCE、A2C、DQN、PPO(离散和连续)、DDPG、TD3 和 SAC。
基于深度强化学习算法(包括Q学习、DQN、PPO、DDPG、TD3、SAC、A2C等)的32个项目,每个项目都提供了详细的训练日志。