模型从一无所知,到成为该领域的专业人士,又凭借其强大的计算能力,远远地甩开人类该领域的顶尖大师,模型能够学习规则和行为在于其背后有一个“好老师”,这位老师的使命不是上课,告知机器该怎么做,而是对机器的行为(policy network)进行打分和评判(value network),这样机器会记录如下:
- (高分区:高分,取得高分对应的行为):努力取得高分;
- (低分区:低分,哪些行为容易取得低分):竭力避免低分;
这样才能使机器的每一步选择都比较理想(分数导向性,类似于监督学习的标签数据),强化学习不同于监督学习的根本之处在于,强化学习不需要事先提供标记好的数据,它是通过一次次在环境中的尝试来获取数据和标签。
1. 强化学习方法
对所处环境有无理解将全部的强化学习方法分为:
- 不理解环境:Model-free RL
- Q learning
- Sarsa
- Policy Gradients
- 理解环境:Model-based RL,较之 Model-free 只是多了一道工序,为现实世界建模;
- 不理解环境:Model-free RL
基于概率还是基于价值:
- Probability-based RL:未必固定,连续;
- Policy Gradients
- Value-based RL:比较固定,不连续;
- Q Learning
- Sarsa
- Actor-Critic:二者的结合,先获取概率,再对概率对应的决策进行打分;
- Probability-based RL:未必固定,连续;
根据更新方式:
- 回合更新(Monte-carlo Update):游戏开始,游戏结束,也即需要等待游戏的结束,才进行更新;
- 单步更新(Temporal-difference Update):不必等待游戏的结束,边玩游戏,边学习;
是否在线:
- on-policy
- off-policy:
- Q-learning
- Deep Q Network