强化学习 (Reinforcement Learning),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
算法
(1)通过价值选行为
- Q Learning
- Sarsa
- Deep Q Network
(2)直接选行为
- Police Gradients
(3)想象环境并从中学习
- Model based RL
分类
分类一
- 不理解环境 Model-Free RL
- 理解环境 Model-Based RL
分类二
- 基于概率(Police-Based RL)
- 基于价值(Value-Based RL)
分类三
- 回合更新(Monte-Carlo update)
- 单步更新(Temporal-Difference update)
分类四
- 在线学习(On-Police)
- 离线学习(Off-Police)