Overview
- 1.1 Why?
- 1.2 课程要求
- 4.1 强化学习 (Reinforcement Learning)
- 4.2 强化学习方法汇总 (Reinforcement Learning)
- 4.3 什么是 Q Leaning
- 4.4 什么是 Sarsa
- 4.5 什么是 Sarsa(lambda)
Note
-
关键词
试错,打分,环境,学习
-
分类
通过价值选行为 直接选行为 想象环境,并从中学习 基于价值
不基于价值 Q learning
Sarsa
Deep Q Network
Policy Gradients Model based RL 不理解环境(Model-free RL)
理解环境(Model-based RL) -
回合更新vs单步更新
单步更新更有效率,现在常用的Q-learning, Sarsa等都是单步更新
-
on-policy vs off-policy
从当前经验学习是on-policy;从过往经验和别人经验学习是off-policy(?)