除了试图直接去建立一个可以模拟成人大脑的程序之外, 为什么不试图建立一个可以模拟小孩大脑的程序呢?如果它接受适当的教育,就会获得成人的大脑。
— 阿兰·图灵
01
介绍
强化学习 (Reinforcement learning) 是机器学习的一个子领域用于制定决策和运动自由度控制。强化学习主要研究在复杂未知的环境中,智体(agent)实现某个目标。强化学习最引人入胜的两个特点是:
1. 强化学习非常通用,可以用来解决需要作出一些列决策的所有问题: 例如,训练机器人跑步和弹跳,制定商品价格和库存管理,玩 Atari 游戏和棋盘游戏等等。
2. 强化学习已经可以在许多复杂的环境中取得较好的实验结果:例如 Deep RL 的 Alpha Go等。
Gym 是一个研究和开发强化学习相关算法的仿真平台。
无需智体先验知识;
兼容常见的数值运算库如 TensorFlow、Theano 等
Gym 的一个最小例子 CartPole-v0