1、介绍:强化学习是什么?
假定一个智能体(agent),在一个未知的环境(environment)中处于当前状态(state),采取了一个行动(action),然后收获了一个回报(reward),并进入了下一个状态。最终目的是求解一个策略让agent的回报最大化。
解决实际问题:明天去打球还是学习?(分类问题)
如果打球(惩罚 -1),如果学习(奖励 +1)。
2、强化学习方法汇总:
3、强化学习包含:
- 智能体(agent)
- 状态(state)
- 行为(action)
- 奖励(reward)
- 策略(policy)
4、马尔科夫链(MDP):
5、强化学习:
当前价值Q = r【当前奖励】+γ【折扣因子】*max(下一步价值)